OT: Doppelte Images finden - the technology behind
Steffen Ille
steffenille at web.de
Do Apr 26 09:40:42 CEST 2007
Hallo Liste.
Ich weiss nicht, wohin ich mich sonst wenden soll, also hier mal mein
Problem und die Frage(n).
gegeben sind ein oder mehrere Verzeichnisse auf einer Linux-Kiste mit
jeder Menge (50.000+)
Bildern. Mit Tools wie "fdupes" findet man einige doppelte Files, weil
ein MD5 Hash zum Vergleich
genutzt wird. Bei Dateien (Binaries, Word, etc.) ist das sinnvoll, bei
Bildern nur bedingt. Wenn
ich auch Bilder finden will, die zu X % ähnlich sind (gedreht,
verkleinert, etc) nützt MD5 nichts.
Ich hab mal irgendwo bei google gefunden, dass es eine "graue Theorie"
gibt, wie man sowas sucht.
Die Bilder werden IMHO auf 10x10 Pixel gesampelt, der Kontrast so hoch
wie möglich gemacht und dann
bitweise verglichen. Oder so?! Ich finde nach langem Suchen diese Seite
leider nicht mehr.
Kann mir jemand sagen, ob es (gängige, anerkannte) Algorithmen dazu gibt
bzw. wie man in der Theorie
solche Dateien überhaupt vergleichen kann?
Gruß aus Weimar,
St. Ille