Data Science Deployment Plattform FastScore

Mit FastScore stellt das Unternehmen Open Data Group ein Deploymentwerkzeug bereit, das die Entwicklung, das Testen, die Produktivsetzung und Überwachung von Modellen zusammen bringt und es auf Basis von Microservices bereit stellt. Mit Modellen sind in diesem Kontext Analyse- und Auswertungsverfahren gemeint, die auf Datenströme Anwendung finden, um daraus einen informationsbezogenen Mehrwert zu generieren. Dieser Aufbaut ist, laut der OpenDataGroup, ein Konzept für die Zukunft, in der der Modellierungsprozess permanenten Anpassungen unterliegt. Dieser Anwendungsbereich wird mehr und mehr an Bedeutung gewinnen. Darum soll der Anpassungsprozess am Modell möglichst flexibel gestaltet werden. Beim Deploymentprozess soll auf folgende Aspekte im Hinblick auf Systemaufbau und Organisationstruktur Wert gelegt werden:

Autark und Skalierbar
Überwachung/Monitoring
Organisation/Governance/Zuordnung von Zuständigkeiten

Einzelne Systemkomponenten sollen autark und skalierbar sein, d.h. Ressourcen sollen unkompliziert erweitert oder reduziert werden können, sowie Ausfälle oder Störungen leicht isoliert und beseitigt. Dem entsprechend wird die Systemstruktur als Microservices aufgebaut, um derart möglichst große Flexibilität und Ausfallsicherheit sicher zu stellen.

Im Idealfall soll der modulare Systemaufbau auf die Softwareebene übertragen werden, sodass Implementationen in Einheiten entwickelt werden, die sich auf spezifische Aufgaben- und Systembereiche beschränken. Als ein weiter wichtiger Punkt wird die Überwachung des Verarbeitungsprozesses gesehen, um zum Einen die Testphase effizient zu gestallten und zum Anderen im Produktivstrang Unregelmäßigkeiten und Störungen schnell identifizieren zu können. Nicht zuletzt soll die Zuständigkeit und die Organisationsstruktur hinter den einzelnen Komponenten transparent sein und wohldefinierten Abläufen folgen.

Diese Leitlinien und Organisationsstruktur zum Vorbild nehmend, ist FastScore modular aufgebaut und die einzelnen Module stehen als (Docker)-Container zur Verfügung. Wichtige zu nennende Komponenten sind:

Engine (core-Instanz)
Dashboard (Web-Interface)
Model-Manager (Verwaltung der Modelle)
Composer (Aufbau und Steuerung von Verarbeitungsketten)
Deploy (SDK für Jupyther)
Access (Benutzerverwaltung)
Lineage (Metadatenverwaltung der Prozessabläufen)

Die einzelnen Komponenten sind im Folgenden näher beschrieben:

Eine Engine-Instanz ist die zentrale Einheit, auf der die Verarbeitung und Auswertung des Modells ausgeführt wird. Ein Verarbeitungsprozess wird jeweils einer Engine-Instanz zugeteilt. Auf diesem Weg werden die Verarbeitungsprozesse voneinander isoliert und können individuell mit den benötigten Ressourcen ausgestattet werden. Generell setzt sich ein Verarbeitungsprozess aus dem eigentlichen Modell, aus zwei Streams und Schemata zusammen. Über die Streams werden die Datenquelle (Eingangsstream) und das Ziel (Ausgangsstream) definiert. Die Schnittstellen zwischen Eingangsstream-Modell und Modell-Ausgangsstream werden über Schemata festgelegt, vgl. Abb. 1.

Produktvorstellung Data Science Deployment Plattform FastScore von der Open Data Group Bild1 — **Abbildung 1** Festlegung der Schnittstellen durch Schemata

Die drei Komponenten, Modell, Stream und Schema, werden in fastscore als unabhängige Komponenten angelegt, müssen jedoch in einem aufgesetzten Verarbeitungsprozess konsistent sein. Über die Abkapselung der einzelnen Verarbeitungsprozesse kann die Separation zwischen Produktions‑, Test- und Entwicklungseinheiten erfolgen. Darüber lässt sich der Transfer zwischen den Einheiten unkompliziert gestalten.

Produktvorstellung Data Science Deployment Plattform FastScore von der Open Data Group Bild2 — **Abbildung 2** FastScore Dashboard

Die Dashboard-Instanz stellt eine grafische Weboberfläche für die Erstellung, Steuerung und Überwachung von Verarbeitungsprozessen bereit. Darüber kann die Zuteilung der Verarbeitungsprozesse zu den Engine-Instanzen erfolgen, dazu steht eine Übersicht über alle Engins bereit. Das Webinterface bietet ebenso die Möglichkeit den Quellcode für das Modell und das Schema anzupassen. Alle Möglichkeiten, die das Dashboard bietet, lassen sich ebenfalls über ein CLI, APIs und SDKs ansteuern. Für die Implementierung eines Modells steht eine breite Auswahl an gängigen Programmiersprachen bereit.

Die Model-Manager-Instanz übernimmt die Verwaltung und Versionierung der Verarbeitungsprozesskomponenten. Dies kann derzeit über eine Anbindung an eine MySQL Datenbank, github oder bitbucket erfolgen.

Produktvorstellung Data Science Deployment Plattform FastScore von der Open Data Group Bild3 — **Abbildung 3** Workflow Editor

Mit der Composer-Instanz können Workflows erstellt, verwalten und eingesetzt werden. Die Access-Instanz ist eine Basisbenutzerverwaltung mit Zugriffsbeschränkungen. Die Deploy-Instanz ist ein Jupyter Notebook Server mit integriertem Deployment Toolkit (SDK). Mit der Lineage-Instanz werden die Metadaten zu Verarbeitungsabläufen bereitgestellt. Diese können über eine REST API abgegriffen werden.

Fazit

Generell ist FastScore ein interessantes Produkt im Feld von DataScience Deployment Plattformen. Es hält die selbst gesetzten Paradigmenvorgaben und ist ohne großen Aufwand aufzusetzen und zu verwalten. Die Ressourcenzuteilung kann komplett über Docker gesteuert werden. Zudem ist es flexibel in Bezug auf den Einsatz und Zusammenspiel von unterschiedlichen Programmiersprachen. Derzeit ist FastScore ein recht neues Produkt und wird intensiv weiterentwickelt. Dies wird an einigen Stellen über geringen Funktionsumfang und Konfigurationsmöglichkeiten deutlich. Andererseits können, laut Open Data Group Webseite, eigene Implementierungswünsche an das FastScore Entwicklerteam heran getragen werden.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Produktvorstellung: Data Science Deployment Plattform FastScore von der Open Data Group

Fazit

Links

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Synchronisierung eines DWH mit einem Quellsystem nach fehlerhafter Datenlieferung

Kommende Webinare

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Bringing GenAI to Production

Snowflake Basics

Einführung in Kafka Streams

Snowflake Advanced

Einführung in Snowpark

POCing Snowflake

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Snowflake vs. BigQuery

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Synchronisierung eines DWH mit einem Quellsystem nach fehlerhafter Datenlieferung

Die 5 Geheimnisse des Machine Learnings

Verständnis der verfassungsrechtlichen KI

Aufkommende UX-Muster in generativen KI-Erlebnissen

Wir verwenden Cookies

Fazit

Links

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

Syn­chro­ni­sie­rung eines DWH mit einem Quell­sys­tem nach feh­ler­haf­ter Datenlieferung

Kommende Webinare

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

Brin­ging GenAI to Production

Snow­flake Basics

Ein­füh­rung in Kafka Streams

Snow­flake Advanced

Ein­füh­rung in Snowpark

POCing Snow­flake

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Ein­füh­rung in CI/CD mit Azure DevOps

Snow­flake vs. BigQuery

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Syn­chro­ni­sie­rung eines DWH mit einem Quell­sys­tem nach feh­ler­haf­ter Datenlieferung

Die 5 Geheim­nisse des Machine Learnings

Ver­ständ­nis der ver­fas­sungs­recht­li­chen KI

Auf­kom­mende UX-Mus­­ter in gene­ra­ti­ven KI-Erlebnissen

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Synchronisierung eines DWH mit einem Quellsystem nach fehlerhafter Datenlieferung

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Bringing GenAI to Production

Snowflake Basics

Einführung in Kafka Streams

Snowflake Advanced

Einführung in Snowpark

POCing Snowflake

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Snowflake vs. BigQuery

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Synchronisierung eines DWH mit einem Quellsystem nach fehlerhafter Datenlieferung

Die 5 Geheimnisse des Machine Learnings

Verständnis der verfassungsrechtlichen KI

Aufkommende UX-Muster in generativen KI-Erlebnissen

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts