Inkjet & Digitaldruck
Xerox revolutioniert Bildkategorisierung
Samstag 15. Januar 2005 - Forscher entwickeln Technologie zur automatischen Erkennung und Archivierung von Bildmotiven.
Ein Bild sagt mehr als tausend Worte. Das gilt für Dokumente aller Art: Bei Magazinen, Zeitungen, Präsentationen, Broschüren und vielem mehr reicht die bloße Information schon lange nicht mehr aus und wird durch eine optisch und thematisch ansprechende Bebilderung unterstützt. Millionen von Fotos schlummern daher in den weltweiten Bilddatenbanken, und täglich kommen Tausende hinzu. Dabei muss jedes einzelne von ihnen sorgfältig indiziert werden, damit es auffindbar und somit verwertbar bleibt. Allein für die Erfassung eines Bildes benötigt ein Mensch rund zwei Minuten. Mit der Kategorisierung aller rund drei Millionen Bilder einer großen Fotoagentur wäre ein Mitarbeiter ungefähr 11,5 Jahre pausenlos beschäftigt. Bilddatenbanken von solchem Umfang sind spätestens seit der rasant ansteigenden Verbreitung von Digitalkameras keine Seltenheit mehr. Die Erfassung von Bildern ist allerdings nach wie vor eine mühevolle und sehr zeitaufwändige Handarbeit, da automatische Scan-Systeme bislang kein adäquater Ersatz für die manuelle Erkennung von Bildinhalten waren. Ein einfaches Scannen des Bildmaterials ist nur der erste Schritt und vergleichbar mit dem Sehen des Bildes. Die Forscher des Xerox Research Centre Europe (XRCE) haben jetzt eine Software entwickelt, die dem Sehen des Bildes das Verstehen des Motivs hinzufügt.
Schnelle und treffsichere Bilderkennung
Bislang ließen sich Bilddatenbanken nur nach Stichworten kategorisieren und durchsuchen. Diese Möglichkeiten werden durch die neuartige Software um die Sortierung nach Bildkategorien erweitert. Erstmals können Bilder somit automatisch anhand ihres Inhaltes, ihres Motivs, indiziert werden. Das Programm erkennt verschiedenste Bildmotive, die anschließend entsprechend sortiert in Dokumenten- und Content-Managementsysteme einfließen können. Der gesamte Vorgang dauert lediglich ungefähr zwei Sekunden pro Bild. Die neue Technologie ist somit vor allem für Anwender interessant, die große Mengen von Bildmaterial speichern und verwalten müssen. Die Trefferquote der Software liegt dabei je nach Bildkategorie zwischen 80 und 99 Prozent.
Vom Keypatch zum Visuellen Wort
Die Funktionsweise besteht aus vier Schritten. Im ersten Schritt sucht die Software nach markanten Punkten und Elementen, den so genannten Keypatches. Dann werden die einzelnen Patches mit einem visuellen Wörterbuch verglichen daraus resultieren visuelle Worte, die zentralen Elemente des einzelnen Bildes. Bei der Aufnahme eines Autos sind das beispielsweise Räder und Scheinwerfer. Im dritten Schritt zählt das Programm, wie häufig die einzelnen visuellen Worte erscheinen. Abschließend werden die so entstehenden Histogramme in vordefinierte Bildkategorien klassifiziert. Dabei lässt sich die Software auch nicht durch ungewöhnliche Blickwinkel oder Komplikationen wie die Präsenz mehrerer Bildkategorien in einem einzelnen Bild verunsichern sämtliche Kategorien werden zuverlässig erkannt, ebenso wie teilweise verdeckte Motive.
Derzeit arbeiten die Forscher an einer Vergrößerung des visuellen Wörterbuchs, um die Software zur Marktreife zu bringen. Für die Zukunft hat sich das Team am XRCE ehrgeizige Ziele gesetzt: Die Kategorisierungstechnologie soll für bewegte Bilder und damit für die Kategorisierung von Video-Material nutzbar gemacht werden.