31.08.2017

Künstliche Intelligenz ermöglicht automatische Verschlagwortung von Produktbildern

Business Value

Mode ist kurzlebig. Gerade zum Saisonwechsel erscheint eine Vielzahl neuer Produkte, die um die Gunst der Käufer konkurrieren. Während in der Filiale die bunte Auswahl direkt ins Auge springt, kommt es im Onlinegeschäft neben einer attraktiven Produktpräsentation vor allem darauf an, dass der potentielle Kunde sein gewünschtes Produkt leicht und schnell finden kann. Hierfür sind sinnvolle Kategorien und Hierarchien mit entsprechenden Such- oder Filterfunktionen erforderlich, um sich in dem großen Angebot zurecht zu finden. Ohne Verschlagwortung, also ohne Metadaten zu den Produkten lässt sich dies nicht bewerkstelligen.

Hersteller verwenden in der Regel uneinheitliche und ungeeignet grobe Kategorien. Oft steht dem Händler auch nur die Artikelnummer zur Verfügung. Für den Betreiber eines Webshops bedeutet dies, dass alle fehlenden Angaben mit großem Aufwand manuell erfasst werden müssen. Das ist nicht nur fehleranfällig, sondern kostet auch wertvolle Zeit.

An dieser Stelle kann künstliche Intelligenz in Form tiefer neuronaler Netzwerke unterstützen, wie wir kürzlich in einem spannenden Projekt für einen großen deutschen Webshop für Bekleidung beweisen konnten. Anhand der in der Vergangenheit manuell vorgenommenen Zuordnung erlernt das neuronale Netzwerk selbständig Produkteigenschaften, wie Hierarchien, Farben, Absatzhöhe bei Schuhen, Ärmellänge oder Schnittform von Blusen etc. Das fertige Modell kann dann auf neu eintreffende Produkte angewendet werden und diese dann nur auf Basis des Produktfotos automatisch verschlagworten. Auf diese Weise können die Produkte direkt auf der Webseite angeboten und vor allem auch gefunden werden.

Screenshot_Bilderkennung

Künstliche Intelligenz, neuronale Netzwerke und Deep Learning sind gerade in aller Munde, wenn es um sogenannte kognitive Fähigkeiten bei Computern geht. Neben der Erkennung von Gegenständen in Bildern helfen diese zum Beispiel bei der Übersetzung oder Zusammenfassung von Texten, der Erkennung und Altersbestimmung von Personen oder bei der Beurteilung von Meldungen in sozialen Netzwerken. Der Nachteil ist häufig die immense Zeit, die mit dem Aufbau dieser Modelle verbunden ist. Hierzu müssen in einer Trainingsphase sehr viele unterschiedliche Muster angelernt werden, was auch auf spezialisierter Hardware Wochen oder gar Monate dauern kann. Zwar gibt es fertige, vortrainierte Modelle, jedoch sind diese eher generalistisch ausgelegt. So erkennt ein vortrainiertes Modell zur Erkennung von Gegenständen in Bildern zwar einen Schuh, eine Hose oder eine Jacke, aber eben nicht die Lewis 501 Jeans oder den Adidas Damen-Joggingschuh.

Dass diese Aufgabenstellung nicht trivial ist, lässt sich bereits am Beispiel der Produktfarbe erläutern. Menschen nehmen Farben im Kontext des betrachteten Gegenstands war. Bildbereiche, die im Schatten liegen oder die nur eine sehr geringe Helligkeit haben, werden auf der Basis von Erfahrungswerten interpretiert. Einige Farbtöne sind auch sehr schwer unterscheidbar, z.B. weiß und beige. Hier gibt es schon beim menschlichen Betrachter oft Uneinigkeit. Und bei Kleidungsstücken ist die vorherrschende Bildfarbe oft nicht die Farbe des Produkts. Man denke hier nur an eine Sandale mit beiger Innensole und blauen Riemen. Die Innensole kann einen deutlich größeren Bereich des sichtbaren Bildes einnehmen und wird trotzdem nicht die offizielle oder wahrgenommene Produktfarbe bestimmen. So muss auch der Algorithmus zur Erkennung der Bildfarbe in der Lage sein, die für ein bestimmtes Produktfoto relevanten Bereiche zu erkennen und daraus auf die Farbe zu schließen.

Um nun einerseits von den Vorteilen der künstlichen Intelligenz zu profitieren und andererseits die Trainingsdauer möglichst gering zu halten, haben wir eine Mischform genutzt. Künstliche neuronale Netze bestehen aus vielen Schichten, von denen die ersten eher allgemeingültige Bildelemente erfassen. Dies können Kanten oder Flächenformen sein. Dieses angelernte Wissen können wir damit bei vortrainierten Modellen wiederverwenden und auf andere Probleme übertragen. Daher wird dieses Vorgehen auch als Transfer-Lernen bezeichnet. Für die Aufgabenstellung wurde also ein vorhandenes Modell der Bilderkennung wiederverwendet, wobei die Schlagworte auf die Kategorien, Farben und andere Eigenschaften des Webshops angepasst wurden. Anschließend wurde das Modell in mehreren Phasen so feinjustiert, dass es die Produkteigenschaften mit erstaunlicher Präzision erkennen konnte. Die Erkennung ist dabei nicht auf die typischen professionellen Produktfotos beschränkt, sondern funktioniert auch auf Fotos, die zum Beispiel mit einem Smartphone erstellt wurden.

Auf diesem Wege wurde ein Großteil des Trainingsaufwands eingespart und gleichzeitig ein sehr spezialisiertes Modell für Bekleidung erzeugt. Das verwendete Tensorflow Framework bietet genau die Flexibilität, um solche Anpassungen an vorhandenen Modellen vorzunehmen.

Fazit: Bilderkennung erfordert heute nicht zwingend hohe Aufwände in Infrastruktur und Projektarbeit. Ein Nutzen kann schon bei deutlich schlankerem Vorgehen eintreten.

Teilen auf

Newsletter Anmeldung

Abonnieren Sie unseren Newsletter!
Lassen Sie sich regelmäßig über alle Neuigkeiten rundum ORAYLIS und die BI- & Big-Data-Branche informieren.

Jetzt anmelden