Interview: „Data Science ist für viele Unternehmen eine enorme Herausforderung“
Laurenz Wuttke ist seit rund zehn Jahren im Bereich Data Science tätig und hat schon einige Unternehmen dabei unterstützt, Data Science Plattformen aufzubauen. Mit seinem Unternehmen datasolut GmbH hat er sich darauf spezialisiert, Marketing mit künstlicher Intelligenz zu optimieren. Im Interview mit uns erklärt der Gründer und Autor, wie Unternehmen Data Science bestmöglich skalieren und worauf Sie dabei achten müssen.
Warum muss Data Science eigentlich skalierbar sein?
Kurz gesagt – damit Unternehmen ihre Daten nutzen und ihre Prozesse verbessern können. Allerdings haben viele Unternehmen unheimliche Probleme, Data Science wirklich skalierbar zu machen, weil häufig einzelne Teams allein an ihren Themen arbeiten. Dem gegenüber stehen immer mehr Anwendungsfälle, größere Datenmengen und komplexere Modelle. Hinzu kommen Deep-Learning-Techniken. Gleichzeitig wollen auch die Endanwender immer öfter Zugriff auf die Data-Science-Technologie beziehungsweise die Ergebnisse haben. Und all das muss bereitgestellt werden. Außerdem müssen die Daten generell häufig bearbeitet werden und entsprechend auch die Ergebnisse der analytischen Modelle immer möglichst aktuell sein.
Welche Möglichkeiten haben Unternehmen, um ihre Data Science zu skalieren?
Eine mögliche Lösung, um alle diese Anforderungen zu erfüllen, ist eine Data-Science-Plattform. Das ist eine unternehmensweite Entwicklungsumgebung, in der Data-Science-Mitarbeiter und Machine Learning Engineers arbeiten können. Sie ermöglicht ihnen die Datenverarbeitung, die Modellierung, die Bewertung und das Deployment, aber auch das Monitoring von Modellen und macht alles dokumentierbar. Weil diese Prozesse so wichtig sind, muss eine Data-Science-Plattform in unterschiedliche Dimensionen und Richtungen skalierbar sein, über eine höhere Anzahl von Modellen hinaus.
Was gehört zu einer Data-Science-Plattform?
Der Machine-Learning-Prozess und das ganze Drumherum sind extrem technisch. Laut einer Studie von Google von 2016 macht der Machine-Learning-Code nur 5 % des ganzen Prozesses aus. Das heißt, die restliche Zeit wird damit verbracht, ganz andere Dinge zu tun, wie Data Handling, Data Configuration, Feature Extraction, die die Merkmale für das Machine Learning bilden, sowie die Verification, also die Qualitätskontrolle. Diese Tätigkeiten gehören alle zum Data-Bereich.
Und dieser Bereich macht nur einen Teil der Plattform aus?
Genau. Der Machine-Learning-Prozess ist grundsätzlich relativ komplex, ähnlich wie die Softwareentwicklung, aber auf Basis von Live-Daten. Hinzu kommen also noch weitere wichtige Disziplinen wie das Machine Resource Management und die Serving Infrastructure, die die Prozesse steuert, die neuen Daten regelmäßig bewertet und Scorings durchführt. Und natürlich sollen diese Prozesse, die wir da planen, auch monitorbar sein. Zusammen mit den Analysetools bilden diese Disziplinen das Plattform-Handling, das sich auf Prozessmanagement und Qualitätskontrolle konzentriert und wo der Maschinencode am Ende auch wirklich angewandt wird. Der Kern des Ganzen ist der Machine-Learning-Code, der von den Entwicklern beziehungsweise Data Scientists programmiert wird. Die Prozesse um diesen Kern herum bilden die Data-Science-Plattform – und sind daher ein wichtiger Ansatzpunkt, um diese Plattform zu skalieren.
Sind Data Science Plattformen weit verbreitet in der Tech-Branche?
Auf jeden Fall. Viele große Firmen setzen schon auf Data Science Plattformen. Vorneweg natürlich Google, Uber, Sales Force, LinkedIn, Airbnb und Facebook. All diese Firmen haben sehr viel Geld und sehr viele Ressourcen investiert, um Data Science Plattformen aufzubauen, um ihre Data Science wirklich skalierbar zu machen für alle ihre Anwendungen. Vor allem Uber hat sehr tiefe Einblicke in verschiedenste Techniken gewährt, mit denen sie ihr Data Science skalieren.
Wie lässt sich Data Science denn nun skalieren? Was müssen Unternehmen dabei beachten?
Ich habe in den vergangenen Jahren schon einige Data-Science-Projekte begleitet und habe ein paar Lessons Learned mitgenommen, um Data Science richtig zu skalieren – etwa integrierte, statt abgekapselte Prozesse, Feature Stores und AutoML-Funktionalitäten, die richtigen Modelle, um alles tracken und dokumentieren zu können, und eine Cloud-Infrastruktur. Wenn man auf einige Details achtet, kann sich der Aufbau einer Data-Science-Plattform langfristig lohnen.
Vielen Dank, Laurenz für diese Insights.
In diesem Gastbeitrag lesen Sie, welche 5 Prinzipien einer skalierbaren Data Science Plattform zugrunde liegen sollten: Data-Science-Plattformen skalieren: Teil 2.
Bildquelle: Adobe Stock