OT: Doppelte Images finden - the technology behind

Steffen Ille steffenille at web.de
Do Apr 26 09:40:42 CEST 2007


Hallo Liste.

Ich weiss nicht, wohin ich mich sonst wenden soll, also hier mal mein 
Problem und die Frage(n).

gegeben sind ein oder mehrere Verzeichnisse auf einer Linux-Kiste mit 
jeder Menge (50.000+)
Bildern. Mit Tools wie "fdupes" findet man einige doppelte Files, weil 
ein MD5 Hash zum Vergleich
genutzt wird. Bei Dateien (Binaries, Word, etc.) ist das sinnvoll, bei 
Bildern nur bedingt. Wenn
ich auch Bilder finden will, die zu X % ähnlich sind (gedreht, 
verkleinert, etc) nützt MD5 nichts.
Ich hab mal irgendwo bei google gefunden, dass es eine "graue Theorie" 
gibt, wie man sowas sucht.
Die Bilder werden IMHO auf 10x10 Pixel gesampelt, der Kontrast so hoch 
wie möglich gemacht und dann
bitweise verglichen. Oder so?! Ich finde nach langem Suchen diese Seite 
leider nicht mehr.
Kann mir jemand sagen, ob es (gängige, anerkannte) Algorithmen dazu gibt 
bzw. wie man in der Theorie
solche Dateien überhaupt vergleichen kann?

Gruß aus Weimar,
St. Ille