BLOG

Ohne externe Daten macht Data Science einfach keinen Sinn!

20.09.2017 Hilmar Buchta

In Artikeln zur Digitalisierung wird oft von bahnbrechenden Erkenntnissen und Optimierungen berichtet. Wenn sich diese auf Basis der eigenen Daten nicht einstellen mögen, liegt die Vermutung nahe, dass es an fehlenden externen Daten hapert. Dabei liegt der Fehler mit großer Wahrscheinlichkeit viel eher an einer falschen Herangehensweise oder einer ungenauen oder ungeeigneten Fragestellung – und nicht an fehlenden Daten.

Auch wenn die Überschrift sehr plakativ formuliert ist, hören wir diese These tatsächlich gar nicht so selten. Und wenn es auch Fälle geben mag, in denen die Aussage zutrifft, so kann ich aus der Projekterfahrung nur sagen, dass sie fast immer falsch ist. Bitte nicht falsch verstehen: Externe Daten sind oft sinnvoll und können Einsichten schaffen, die ohne diese nicht möglich wäre. Aber wer Schätze in den eigenen internen Daten nicht hebt, wird sein Heil nicht in noch mehr externen Daten finden. Natürlich wird die Situation durch Berichte über äußerst erfolgreiche Data Analytics Projekte noch verschlimmert. Hier wird über bahnbrechende Erkenntnisse anderer Unternehmen berichtet, die ohne weiteres auf Basis ihrer Daten hohe Optimierungspotentiale realisieren konnten. Gelingt das im eigenen Unternehmen nicht, so liegt es nahe anzunehmen, dass solche Erkenntnisse nun mal in den eigenen Daten schlichtweg nicht vorhanden sind. Mit irgendetwas müssen die eigenen Daten doch korrelieren. Dabei ist es ein Irrglaube, dass Korrelationen selten sind. Kausalitäten sind selten und schwer aufzuspüren – Korrelationen sind es nicht.

Die eigenen Daten, die aus Kunden- und Lieferantenbeziehungen entstanden sind oder die eigenen Prozesse abbilden haben einen entscheidenden Vorteil gegenüber externen Daten: Sie sind einzigartig. Hier liegt die Chance, seine Kunden und die Kundenbeziehung besser zu verstehen, die Qualität der eigenen Prozesse und Produkte zu optimieren oder andere, datengetriebene Vorteile gegenüber dem Wettbewerb zu erschließen. Im Gegensatz dazu stehen Wetterdaten, Marktforschungsdaten und andere externe Datenquellen prinzipiell allen Marktteilnehmern zur Verfügung.

Welche Gründe könnte es also geben, dass keine tiefgreifenden Erkenntnisse in den eigenen Daten gefunden  werden?

Zu wenig Daten?

Das ist sehr unwahrscheinlich. Zwar hält sich das Gerücht hartnäckig, dass Data Science nur auf riesigen Datenbeständen funktioniert, aber der größte Teil der eingesetzten Verfahren operiert mit Daten, die eher im Gigabytebereich, als im Terabytebereich liegen und oft noch im Hauptspeicher verarbeitet werden können. Verkaufsbelege, Daten aus Kontaktpunkten mit Kunden (z.B. Callcenter) oder Logistikdaten stellen einen guten Startpunkt für interessante Analysen dar. Aus Sorge davor, zu wenig Daten zu besitzen, hört man manchmal auch „Wir müssen erst mal Daten sammeln, um interessante Auswertungen erstellen zu können“. Hier besteht die Gefahr, großen Aufwand in das Sammeln von Daten zu stecken, ohne dass ein Nutzen belegt wäre. Vom Datensammeln alleine hat noch niemand Erkenntnisse gewonnen. Und vielfach ist auch unklar in welcher Detaillierung und in welchem Umfang Daten gesammelt werden müssen. Bei einer Maschine kann eine Abtastung mit einem Wert pro Sekunden ausreichend sein. Es kann aber auch sein, dass hochfrequente Vibrationen erst bei 20.000 Sensorwerten pro Sekunde erfasst werden können. Daraus folgt, dass es meist besser ist, in einem kleinen Pilotprojekt mit weniger Daten die notwendigen Erkenntnisse zu generieren, anstatt erst mal im großen Stil Datenkrake zu spielen. Konkret kann das bei einem Händler mit Filialen bedeuten,  erst mal mit wenigen Filialen einen Feldversuch zu unternehmen, bevor die Datenerfassung auf alle Filialen ausgeweitet wird. Oder im Falle der Produktion erst mal wenige Maschinen zu betrachten, bevor direkt die gesamte Produktionsstrecke aufgenommen wird.

Datenqualität nicht ausreichend?

Auch das ist wenig wahrscheinlich. Zwar ist Datenqualität ein nicht zu unterschätzendes Problem, aber im Bereich Data Analytics geht es eher darum,  hinter den Daten liegende Muster oder Regeln zu finden. Das geht nach dem Motto: „Die Ausnahme bestätigt die Regel“ oder anders gesagt: Ausnahmen und Ausreißer behindern das Vorgehen in aller Regel nicht. Es wird praktisch immer der Fall sein, dass wir mit Daten nur einen Teil der Realität beobachten können. So kann eine „Kunden, die dies kauften, kauften auch das“ Prognose falsch liegen, weil zum Beispiel der betreffende Interessent das vorgeschlagene Produkt längst von einem anderen Anbieter erworben hat. Solange die Prognose in ausreichend vielen Fällen richtig liegt, wird das Modell den Geschäftserfolg verbessern, auch wenn die Prognose manchmal daneben liegt. In diesem Sinne sind auch vereinzelte Fehler in den Daten kein Beinbruch, wenn es um Data Analytics geht.

Frage an die Daten nicht klar genug formuliert?

Das klingt schon eher wahrscheinlich. In manchen Fällen fehlt die Frage sogar ganz. Dabei macht es wenig Sinn, Daten in einen schlauen Algorithmus zu kippen ohne zu wissen, mit welcher Zielsetzung man tatsächlich sucht. Bei gleichen Grunddaten hängt die Vorbereitung der Daten und die Herangehensweise an ein Problem sehr von der Fragestellung ab, zum Beispiel ob man Kundenabwanderung verhindern, den optimalen Preis für seine Produkte bestimmen oder Warenlieferung so optimieren möchte, dass immer genug Waren zum Verkauf angeboten werden. Eine vorhandene These kann man relativ leicht auf Basis von Daten und Fakten bestätigen oder verwerfen, aber ohne eine solche Idee, weiß man nicht, wo man anfangen soll.

Heißt das, dass externe Daten keine Rolle spielen? Sicher nicht! Heute stehen eine Vielzahl freier oder kommerzieller externer Datenquellen zur Verfügung mit denen sich eigene Analysen verbessern lassen. Man muss da nicht immer reflexartig an Wetterdaten denken. Es ist jedoch ein Alarmsignal, wenn vorschnell die eigenen Daten für unbedeutend erklärt werden und der Ruf nach externen Daten laut wird. Wenn sich zu einer Aufgabenstellung schon keine Hinweise auf Muster in den eigenen Daten finden lassen, ist es erfahrungsgemäß eher unwahrscheinlich, dass externe Daten hier zu einem Durchbruch verhelfen. Vielmehr können externe Daten oft genutzt werden, um Algorithmen und Modelle auf Basis der internen Daten noch genauer und wirkungsvoller zu machen.

So wird ein Modell zur Kundenabwanderung sicherlich von Wettbewerbskonditionen profitieren können. Wenn es aber ohne diese Daten komplett scheitert, liegt der Fehler mit an Sicherheit grenzender Wahrscheinlichkeit an anderer Stelle.

Eine Konsequenz aus der Wertschätzung der eigenen Daten liegt natürlich auch darin, wichtige eigene Daten zum Beispiel zur Kundenbeziehung nicht outzusourcen. Ein Beispiel hierfür wäre ein Webshop, der über Klickpfade sehr viel über das Suchverhalten und die Interessen der Besucher verrät (wie lange hat sich jemand auf einer Seite aufgehalten oder was wurde dann als nächstes angeklickt). Den lästigen Betrieb eines solchen Webshops einem Partner zu überlassen, erhöht eventuell die Distanz zu den eigenen Endkunden und gibt jemand anderem wertvolle Informationen zur Kundenbeziehung. Es lohnt sich also bei Verträgen genau hinzuschauen, ob neben kernkompetenzfernen Themen nicht gleich noch echte Zukunftschancen mit abgenommen werden.

Your email address will not be published. Required fields are marked *

Join #teamoraylispeople

Gestalte mit uns
die Welt der Daten