Was Werbetreibende wirklich über Deep Learning wissen müssen

Romain Lerallut, 12. November 2019

Bild: Robina Weermeijer; CC0 - unsplash.com

Liest man aktuelle Artikel über KI, hat man das Gefühl, Deep Learning sei das ultimative Werkzeug für die Probleme der digitalen Werbebranche. Das jüngste Kind des KI-Kosmos verspricht beispielsweise die Vorhersagen zu verbessern, die Relevanz zu erhöhen und die Bannerblindheit zu verringern. Romain Lerallut, VP Engineering und Leiter des Criteo AI Lab, erläutert, warum Deep Learning das Schweizer Taschenmesser im Werkzeugkasten der Werbetreibenden ist, wie die Technologie eigentlich funktioniert und was sie für die digitale Werbung wirklich bedeutet.

Marketer setzen große Hoffnung auf den Einsatz von Deep Learning. Die Art und Weise, wie sie über die Technologie sprechen, erinnert an Fernsehwerbung für Allzweckwerkzeuge. Diese Tools sind vielseitig einsatzbereit. Dies trifft auch auf das Schweizer Taschenmesser zu, mit dem man beispielsweise eine Flasche öffnen, eine Fahrradkette befestigen, eine fehlende Schraube einsetzen und noch mehr tun kann. Möchte man jedoch einen Schrank bauen, stößt es an seine Grenzen. Man benötigt gute Werkzeuge, aber auch gute Materialien und eine Fülle von Kenntnissen, wie sie ein professioneller Handwerker mitbringt, um diese Aufgabe zu erfüllen.

Dieses Beispiel verdeutlicht: Ein modernes Allzweckwerkzeug kann das leistungsstärkste Tool in der Werkzeugkiste sein. Zum Lösen komplexer Szenarien reicht es jedoch noch nicht aus. So verhält es sich auch beim Deep Learning, die vielleicht mächtigste Untergruppe des Machine Learnings. Perfekt geeignet für Aufgaben wie Bilderkennung oder Sprachverarbeitung – bei komplexen Szenarien wie digitaler Werbung, für die viele Qualitätsdaten (die Materialien) und langjährige Erfahrung benötigt werden, ist dieses Allzweckwerkzeug allein jedoch noch nicht ausreichend.

Um die Chancen und Herausforderungen von Deep Learning für Werbetreibende zu erkennen, muss man zunächst verstehen, wie Machine Learning und Deep Learning funktionieren und wie sie sich voneinander abgrenzen.

Überwachtes und unbeaufsichtigtes Machine Learning vs. Deep Learning

Überwachtes Machine Learning lehrt Algorithmen, wie sie Daten betrachten und wie sie jeweils zu Clustern zusammengefasst werden, damit sie Vorhersagen treffen können. Ein bekanntes Beispiel ist der Spam-Filter im E-Mail-Posteingang. Dieser erkennt vordefinierte Merkmale von E-Mails, die als Spam eingestuft sind, wie „3.000 Euro am Tag von zuhause verdienen“ oder „Sie sind der Gewinner eines brandneuen Autos“. In der digitalen Werbung kann diese Form von Machine Learning beispielsweise die Wahrscheinlichkeit vorhersagen, mit der ein Benutzer auf ein Banner klickt. Bei überwachtem Machine Learning definiert ein Mensch die Funktionen und erhält eine konkrete Aussage, wie „Diese E-Mail ist Spam“ oder „Dieser Benutzer hat eine prognostizierte Klickrate von 0,8 Prozent“.

Unbeaufsichtigtes Machine Learning kommt zum Einsatz, um Muster in einer großen Datenmenge zu finden. Hier betrachten die Menschen die Ergebnisse von Berechnungen und interpretieren sie in einer Weise, die Verhaltensweisen klassifiziert, wie „Diese User sind teure Kunden“ oder „Diese User sind häufige Käufer“. Beim unbeaufsichtigten Machine Learning suchen die Maschinen nur nach interpretierbaren Gruppen von Mustern.

Deep Learning ist ein Teilbereich des Machine Learning. Der größte Unterschied besteht darin, dass Anwender keine Zeit mehr damit verbringen müssen, die richtigen Funktionen zu definieren. Die Technologie basiert auf den Prinzipien neuronaler Netze und funktioniert ähnlich wie das menschliche Gehirn. Deep Learning kann erkennen, dass ein Bild einen Hund zeigt, ohne dass ein Mensch die Merkmale des Tieres (vier Beine, Schwanz usw.) vorab in die Maschine einspeist. Dies ist möglich, da bereits Tausende von Hundebildern analysiert wurden. Hochleistungsrechner machen dies möglich – zusammen mit einer enormen Datenmenge, die sie verarbeiten.

Der Einsatz von Deep Learning in der Werbebranche

Das klingt zunächst sehr vielversprechend, bringt aber auch eine Herausforderung mit sich. Die Frage ist nicht, ob Deep Learning nun ausgefeilter ist als andere Techniken des maschinellen Lernens, sondern, ob und wie sich der Einsatz der Technologie auf Werbekampagnen auswirkt. Auch hier gilt: Form follows function – lieber den besten Algorithmus für eine Aufgabe als den fortschrittlichsten ohne Bezug zu meiner Arbeit.

Die Implementierung einer Deep-Learning-Architektur in der digitalen Werbung bedeutet zunächst einmal, dass viele Daten in Echtzeit verarbeitet werden. Werbung wird durch Programmatic-Buying-Technologien angetrieben, bei denen die sogenannte Latenz (also die Zeit zwischen Klick und Conversion) wesentlich kritischer ist als bei anderen Deep-Learning-Anwendungen – wir sprechen hier von höchstens einstelligen Millisekunden. Dies erfordert eine enorme Steigerung der Computerleistung, die nur durch signifikante Uplifts gerechtfertigt werden kann. Aus diesem Grund werden Deep-Learning-Architekturen noch nicht direkt beim Bieten verwendet, sondern nur zur Vorberechnung von Features außerhalb dieser kritischen Pfade. Diese allgemeinen Merkmale können dann einem einfacheren, traditionellen Hochgeschwindigkeits-Machine-Learning-Modell zugeführt werden.

In Tests in unserem AI Lab haben wir gesehen, dass dies möglich ist und funktioniert. Allerdings nicht unbedingt besser als herkömmliche logistische Regressionsmodelle, die aus dem überwachten Machine Learning kommen. Dies hat unterschiedliche Gründe: Deep Learning verwendet viele Ebenen, um Rohdaten (wie einzelne Pixel, Textzeichen usw.) zu verarbeiten. Anwender benötigen keine manuell definierten Funktionen, da die Maschine den Job ausführt. Aus den Rohdaten extrahieren die untersten Ebenen zum Beispiel Zeichengruppen für Text, Linien und Winkel für Bilder. Höhere Schichten kombinieren dann Deskriptoren aus der niedrigen Ebene, um Merkmale auf mittlerer und dann hoher Ebene zu extrahieren. Die letzten Ebenen kodieren das erwartete Ergebnis, die „Geschäftslogik“ und klassifizieren Bilder von Katzen gegen Hunde oder prognostizieren Klicks und Verkäufe. Es erfordert also eine große Datenmenge, um ein so komplexes System zu trainieren, da die unteren Schichten viele Neuronen enthalten, die trainiert werden müssen, um ihre Aufgabe auszuführen.

Die logistische Regression hingegen ist ein einschichtiges Modell, das manuell mit Daten gespeist wird. Es ist schneller und verbraucht weniger Rechenleistung. Wenn Anwender eine sehr gute Merkmalliste und genügend Daten haben, kann diese Methode mit Deep Learning konkurrieren. Hierbei sollte allerdings beachtet werden, dass die logistische Regression in der Tiefe nur eine Ebene hat. Der Unterschied besteht also darin, wie Funktionen berechnet werden: anhand (vieler) Rohdaten von einem tiefen Modell gelernt oder manuell mithilfe von domainspezifischen Daten. Letztere Methode hat den Vorteil, dass sie eine eindeutige Bedeutung hat, von Menschen verstanden und auch verwendet werden kann, um Einblicke in die Leistung verschiedener Zielgruppen zu erhalten.

Fazit

Das leistungsstarke Tool Deep Learning hat grundsätzlich viel Potenzial. Doch lohnt sich der Einsatz für Werbetreibende zum jetzigen Zeitpunkt? Ich rate, sich nicht blindlings auf den Hype zwischen Machine Learning und Deep Learning einzulassen. Deep Learning wird die Werbeleistung in Zukunft mit Sicherheit beeinflussen, jedoch nur im Zusammenhang mit dem gesamten Spektrum des Machine Learning, einschließlich baumbasierter Modelle, Regressionsmodelle, selbstorganisierter KI-Netzwerke und vielem mehr. Bei komplexen Szenarien stößt die Technologie wie das Schweizer Taschenmesser im eingangs genannten Beispiel an seine Grenzen. Die Möglichkeiten von Deep Learning sollten dabei keineswegs ungenutzt bleiben. Datenwissenschaftlern oder -ingenieuren, die in der Werbebranche arbeiten, empfehle ich, die wissenschaftliche Methode zu befolgen und Experimente mit eigenen Daten und eigenen KPIs durchzuführen. So ermitteln sie, welche Lösung von größerem Nutzen ist, unabhängig von der internen Implementierung.

Schlagwörter KI Marketing Intelligence