Data-Science- und Machine-Learning-Plattformen

Seit einigen Jahren verspricht eine Reihe von Software-Anbietern die (Teil-)Automatisierung von Data-Science-Projekten mit sogenannten Auto-ML-Programmen (automatic machine learning). Mitarbeiter aus den Fachbereichen sollen dadurch in die Lage versetzt werden, selber erfolgreich Machine-Learning-Modelle zu entwickeln und produktiv zu nutzen. Ein tiefergehendes Verständnis der Algorithmen und Methoden ist dafür nicht erforderlich. Häufig wird hierfür der Begriff Citizen Data Scientist verwendet.

Die Vorteile dieses Ansatzes liegen auf der Hand:

„Echte“ Data Scientists sind schwer zu bekommen. Das Potential der eigenen Mitarbeiter zu nutzen wirkt diesem Problem entgegen
Mitarbeiter profitieren von ihrem Domänenwissen und brauchen dieses nicht erst weiterzuvermitteln
Mitarbeiter können agil, d.h. proaktiv und flexibel, entwickeln, ohne von Datenanalysten abhängig zu sein.

In diesem Blogbeitrag werfen wir einen Blick auf die grundsätzlichen Vor- und Nachteile des Citizen Data Scientist-Konzepts und evaluieren, wo die Stärken und Schwächen der Auto-ML-Programme liegen.

Name	Hersteller	Lizenz	Gartner-Einstufung Q1 2019	Beschreibung
Alteryx	Alteryx	Kommerziell	Challenger	Einfache Bedienung und hohe Customer Experience Schlüssige End-to-End-Plattform Besonders geeignet für Citizen Data Scientists ohne Programmierkenntnisse
Dataiku	Dataiku	Kommerziell	Challenger	Einfache Bedienung Kollaboration durch Rollen (z.B. Data Engineer, Data Scientist, Data Citizen) Viele Deployment-Optionen erleichtern Operationalisierung Besonders geeignet für Citizen Data Scientists ohne Programmierkenntnisse
DataRobot	DataRobot	Kommerziell	Visionary	Einfache Bedienung und hohe Customer Experience Besonders geeignet für Citizen Data Scientists ohne Programmierkenntnisse
H2O Driverless AI	H2O.ai	Kommerziell	Visionary	Hoch-performante ML-Komponenten H2O integrierbar in andere Plattformen Besonders geeignet für codeaffine Data Scientists
KNIME Analytics Platform	KNIME	Open Source	Leader	Viele ausgereifte Funktionen Sowohl für Citizen Data Scientists als auch fortgeschrittene Data Scientists geeignet
MLFlow	MLFlow	Open Source	-	Framework für schnelle Experimente, Versionierung und Deployment Besonders geeignet für erfahrene Data Scientists
Rapid Minder	RapidMiner	Kommerziell	Leader	Überdurchschnittliche Benutzeroberfläche Schlüssige End-to-End-Plattform Besonders geeignet für Citizen Data Scientists ohne Programmierkenntnisse

Tabelle 1 Bekannte Auto-ML-Tools 2019

Zunächst stellt sich die Frage, was unter dem Begriff Auto-ML-Tool, auch bekannt als Data-Science- und Machine-Learning-Plattform, verstanden wird. Laut dem Marktforschungsinstitut Gartner bezeichnet der Begriff eine Softwareanwendung, die auf einer einzigen Plattform die Grundbausteine des Machine-Learning-Workflows bereitstellt und eine einfache Operationalisierung mit ansprechendem „look and feel“ ermöglicht. Als Anwendungsfall klingt dies erst einmal sehr allgemein. Wann also kann ein Auto-ML-Tool sinnvoll eingesetzt werden? Zur Beantwortung dieser Frage bietet sich die Unterteilung eines Data-Science-Projekts in den bekannten Prozesszyklus an:

Definition des Geschäftsproblems
Auswahl geeigneter Datenquellen und Datenbeschaffung
Analyse und Bereinigung der Daten
Auswahl geeigneter Variablen
Modellerstellung und ‑optimierung
Bereitstellung des Modells und Performance-Monitoring

Vor- und Nachteile von Data-Science- und Machine-Learning-Plattformen Bild2 — **Grafik 1** Auto-ML in der Analytics Pipeline

Definition des Geschäftsproblems sowie Auswahl geeigneter Datenquellen und Datenbeschaffung

Jedes Projekt beginnt mit einem Geschäftsproblem und einer Datenbeschaffung. Dafür werden betriebswirtschaftliche Ziele formuliert und mit geeigneten Datensätzen in Verbindung gebracht. Entscheidend für die spätere Projektevaluation ist auch die Quantifizierung des Problems mit Hilfe einer Erfolgsmetrik. Diese Prozessschritte erfordern in erster Linie Domänenwissen und Kenntnisse über die Unternehmensdatenbanken und der verfügbare externe Datenquellen. Somit ist die toolgestützte Automatisierung an dieser Stelle wenig zielführend.

Analyse und Bereinigung der Daten

Anders im dritten Prozessschritt. Für die Aufbereitung und explorative Datenanalyse bieten die verschiedenen Auto-ML-Tools ein unterschiedliches Maß an Unterstützung und Analysemöglichkeiten, z.B. die Berechnung von statistischen Kennzahlen oder die Erstellung einfacher Plots. Insgesamt zählt dies aber nicht zu den Kernfunktionalitäten. An dieser Stelle verbirgt sich daher auch eine zentrale Schwäche des Citizen-Data-Scientist-Ansatzes und damit zusammenhängend der Auto-ML-Tools. Insbesondere die kommerziellen Programme erwecken durch ihre Benutzerführung den Eindruck, dass mit den importierten Daten ohne weitere Aufbereitung direkt Modelle trainiert werden können, die auch später in der Produktion gute Ergebnisse liefern.

Nach unserer Erfahrung weisen Datensätze aber nur in den seltensten Fällen die dafür erforderliche Qualität auf. Durch eine sorgfältige Analyse der Daten im Vorfeld des Modelltrainings lässt sich sowohl die Genauigkeit als auch die Robustheit des späteren Modells deutlich verbessern.

Auswahl geeigneter Variablen

Die nächste Herausforderung liegt in der Auswahl geeigneter Eingangsvariablen für das Modell. Auto-ML-Tools nutzen teilweise Korrelationsanalysen, um stark korrelierte Features zu identifizieren. Häufig werden jedoch alle im Datensatz vorhandenen Features direkt als Eingangsvariablen an das Modell durchgereicht.
Bei geringer Feature-Anzahl funktioniert dieser Ansatz recht gut. Werden die Datensätze komplexer, besteht auch hier wieder die Gefahr, durch suboptimale Featureauswahl unbemerkt Modellperformance zu verlieren. Um diesem Problem zu begegnen, bieten fast alle Auto-ML-Tools die Möglichkeit, manuell in die Feature-Auswahl einzugreifen und auch den Datensatz um abgeleitete Features zu ergänzen.

Ein einfaches Beispiel: Gegeben sei eine Tabelle die unter anderem Start- und Endzeitpunkt eines Bearbeitungsprozesses enthält. Es ist selten sinnvoll, diese zwei Zeitpunkte als zwei separate Features in ein Modell einzuspeisen. Typischerweise bildet man das abgeleitete Feature “Dauer”, indem man die Zeitdifferenz berechnet und nur das so neu erzeugte Feature “Dauer” als Feature an das Modell weitergibt.

Diese Notwendigkeit des manuellen Eingreifens wird bei der Nutzung von Auto-ML-Programmen allerdings gerne einmal vergessen oder übersehen.

Modellerstellung und ‑optimierung

Sind die Daten aufbereitet und um weitere abgeleitete Features ergänzt, werden im fünften Schritt verschiedene Modelle auf dem Datensatz trainiert. Dieser Schritt ist sozusagen die Kerndomäne der Auto-ML-Tools.

Basierend auf der Art der Daten und den durch den Benutzer gewählten Optionen kann ein ganzer Zoo von Modellen einer systematischen Suche nach optimalen Hyperparametern unterzogen werden. Bei einem gut gewähltem Auto-ML-Tool profitieren hiervon nicht nur die Mitarbeiter der Fachabteilungen (die Citizen Data Scientists), sondern insbesondere auch die “hauptamtlichen” Data Scientists. Selbst mit Erfahrung bedeutet das Suchen eines geeigneten Modells viel Arbeit, die aus dem mechanischen Abarbeiten der immer gleichen Schritte besteht. Auto-ML-Tools können hier durch das automatische Absuchen der Hyperparameter und den Optionen zur Parallelisierung helfen, einiges an Arbeitszeit einzusparen. Sollte das Problem eine komplexere Modellierungen erfordern, müssen Auto-ML-Tools auch entsprechende Konfigurationsmöglichkeiten oder eine Einbindung aktueller Pakete anbieten. Nur so kann ein Wechsel zwischen Plattformen und Skripten vermieden werden.
Bei der Modellerstellung besonders vorteilhaft sind Auto-ML-Tools, die eine Versionierung der Modelle sowie der verwendeten Datenquellen unterstützen. Hierdurch lässt sich sicherstellen, dass Ergebnisse auch reproduzierbar sind.

Bereitstellung des Modells und Monitoring

Im letzten Schritt, der Produktivsetzung und dem Monitoring des Modells können Auto-ML-Tools ebenfalls hilfreich sein. Aktuell fehlt es noch an etablierten Standards und Templates, wie beispielsweise mit Python entwickelte Modelle am besten in einer produktiven Umgebung eingebunden werden können. Insbesondere die kommerziellen Vertreter der Auto-ML-Programme bieten stark automatisierte Deploymentmethoden. Mit wenigen Klicks kann man so z.B. einen Webserver erstellen, der das Modell über eine API verfügbar macht oder auch ein bereits genutztes Modell aktualisieren. Außerdem sind häufig Monitoring-Systeme mit eingebunden, mit denen die Modellperformance überwacht werden kann.

Fazit

AutoML-Tools sind eine nützliche Hilfe, um nach der Datenaufbereitung verschiedenste Modelle zu testen. Sie können Hinweise darauf zu geben, welcher Algorithmentyp und welche Hyperparameter für die gegebene Aufgabenstellung geeignet sind. Ein weiterer großer Vorteil ist die Einfachheit, mit der fertige Modelle als API zur Verfügung gestellt werden können. Ein bestechendes Argument für AutoML-Tools ist die benutzerfreundliche Oberfläche mit einfachen und schnellen Visualisierungsmöglichkeiten.

AutoML-Tools können jedoch keine sorgfältige Datenanalyse und Variablenkonstruktion ersetzen. Bei komplexeren Fragestellungen stoßen solche Tools an ihre Grenzen. Deshalb decken AutoML-Tools auch nicht den gesamten Prozesszyklus ab, können aber nach einer Datenaufbereitung den Prozessschritt Modellierung gewinnbringend standardisieren und unterstützen.

Nicht zu unterschätzen ist bei den kommerziellen Tools der Faktor Lizenzkosten. Bereits für etwas größere Installationen können sich die reinen Lizenzkosten schnell im mittleren sechsstelligen Bereich bewegen. Daher sollte vor der Einführung eines kommerziellen AutoML-Tools sorgfältig geprüft werden, ob es im Unternehmen hinreichend viele Anwendungsfälle gibt, die von einem AutoML-Tool profitieren könnten.

Ein wichtiger Punkt, der ebenfalls Vorfeld geklärt werden muss, sind die technischen Einschränkungen der jeweiligen Tools. Typischerweise sind dies:

Die maximale Größe eines einzelnen Datensatzes, der noch verarbeitet werden kann
Bei Klassifikationaufgaben: maximale Zahl der Kassen, in die die Daten eingeteilt werden können
Unterstütze Aufgabenklassen (Regressionsanalysen, Klassifikationsaufgaben, Textmining, Zeitreihenanalysen, Bilderkennung, etc.)

Insgesamt kann ein Unternehmen von der Einführung eines oder bei Bedarf sogar mehrerer Auto-ML-Programme durchaus profitieren. Erforderlich ist jedoch eine sorgfältige Kosten/Nutzen-Abwägung insbesondere bei den kommerziellen Vertretern dieser Produktgattung sowie bei den Mitarbeitern das Wissen um Eigenheiten und Grenzen dieser Programme.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Vor- und Nachteile von Data-Science- und Machine-Learning-Plattformen

Definition des Geschäftsproblems sowie Auswahl geeigneter Datenquellen und Datenbeschaffung

Analyse und Bereinigung der Daten

Auswahl geeigneter Variablen

Modellerstellung und ‑optimierung

Bereitstellung des Modells und Monitoring

Fazit

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

NeMo Guardrails, das ultimative Open-Source LLM Sicherheits-Toolkit

Kommende Webinare

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Bringing GenAI to Production

Snowflake Basics

Einführung in Kafka Streams

Snowflake Advanced

Einführung in Snowpark

POCing Snowflake

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

NeMo Guardrails, das ultimative Open-Source LLM Sicherheits-Toolkit

Synchronisierung eines DWH mit einem Quellsystem nach fehlerhafter Datenlieferung

Die 5 Geheimnisse des Machine Learnings

Verständnis der verfassungsrechtlichen KI

Wir verwenden Cookies

Defi­ni­tion des Geschäfts­pro­blems sowie Aus­wahl geeig­ne­ter Daten­quel­len und Datenbeschaffung

Ana­lyse und Berei­ni­gung der Daten

Aus­wahl geeig­ne­ter Variablen

Modell­er­stel­lung und ‑opti­mie­rung

Bereit­stel­lung des Modells und Monitoring

Fazit

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

NeMo Guar­drails, das ulti­ma­tive Open-Source LLM Sicherheits-Toolkit

Kommende Webinare

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

Brin­ging GenAI to Production

Snow­flake Basics

Ein­füh­rung in Kafka Streams

Snow­flake Advanced

Ein­füh­rung in Snowpark

POCing Snow­flake

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Ein­füh­rung in CI/CD mit Azure DevOps

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

NeMo Guar­drails, das ulti­ma­tive Open-Source LLM Sicherheits-Toolkit

Syn­chro­ni­sie­rung eines DWH mit einem Quell­sys­tem nach feh­ler­haf­ter Datenlieferung

Die 5 Geheim­nisse des Machine Learnings

Ver­ständ­nis der ver­fas­sungs­recht­li­chen KI

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Definition des Geschäftsproblems sowie Auswahl geeigneter Datenquellen und Datenbeschaffung

Analyse und Bereinigung der Daten

Auswahl geeigneter Variablen

Modellerstellung und ‑optimierung

Bereitstellung des Modells und Monitoring

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

NeMo Guardrails, das ultimative Open-Source LLM Sicherheits-Toolkit

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Bringing GenAI to Production

Snowflake Basics

Einführung in Kafka Streams

Snowflake Advanced

Einführung in Snowpark

POCing Snowflake

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

NeMo Guardrails, das ultimative Open-Source LLM Sicherheits-Toolkit

Synchronisierung eines DWH mit einem Quellsystem nach fehlerhafter Datenlieferung

Die 5 Geheimnisse des Machine Learnings

Verständnis der verfassungsrechtlichen KI

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts