Produktvorstellung: Data Science Deployment Plattform FastScore von der Open Data Group

Mit FastScore stellt das Unternehmen Open Data Group ein Deploymentwerkzeug bereit, das die Entwicklung, das Testen, die Produktivsetzung und Überwachung von Modellen zusammen bringt und es auf Basis von Microservices bereit stellt. Mit Modellen sind in diesem Kontext Analyse- und Auswertungsverfahren gemeint, die auf Datenströme Anwendung finden, um daraus einen informationsbezogenen  Mehrwert zu generieren. Dieser [...]

Website Optimierung mit Advanced Analytics – Teil 2: Sequential Pattern

Im ersten Teil der Blogserie wurden bereits die grundlegenden Komponenten und deren Umsetzung mittels Open-Source-Software vorgestellt. Dabei wurde auch deren generelles Zusammenspiel erläutert. Die wesentliche Arbeit der Datenanalyse übernehmen dabei Batch und Streaming Layer, aber was passiert eigentlich hinter den Kulissen und wie kann die Website auf deren Grundlage optimiert werden? Die Lösung liegt in [...]

Website Optimierung mit Advanced Analytics – Teil 1: Systemarchitektur

Während Vorreiter Amazon in bestimmten Absatzgebieten heute bereits mit einer Wahrscheinlichkeit von 80% vorhersagen kann, welche Produkte ein Kunde morgen bestellen wird, sind vor allem deutsche Unternehmen nach wie vor skeptisch gegenüber der Kunst der modernen statistischen Datenanalyse. Obwohl die Erkenntnis wächst, schätzt ein Großteil der IT-Verantwortlichen der D-A-CH Region, dass Predictive Analytics erst innerhalb [...]

R als Tool für Data Science

Neben klassischer Software für statistische Analysen wie SAS, SPSS und Stata gewinnt seit einiger Zeit insbesondere R an Beliebtheit, da es als Freeware verfügbar ist und eine breite Unterstützung durch Foren und detaillierte Dokumentation genießt. R und das ebenfalls kostenlos verfügbare R Studio als IDE (integrated development environment) zur komfortableren Programmierung basieren auf der Programmiersprache [...]

Wie Maschinen mit Menschen kommunizieren – Aktuelle Trends im Natural Language Processing

Natural Language Processing (NLP) beschreibt das Feld der Computerwissenschaften, welches sich mit der Interaktion zwischen Computerprogrammen und menschlicher Sprache beschäftigt. Durch die aktuellen Entwicklungen in den Bereichen der künstlichen Intelligenz und speziell des maschinellen Lernens in jüngerer Zeit hat die automatisierte Verarbeitung von Text- und Sprachdaten bereits Einzug in verschiedene Unternehmensbranchen gefunden. So werden in [...]

Vielversprechende Tools und Frameworks für 2019 – Teil 1

Pünktlich zum Jahresstart stellt saracus einige vielversprechende Tools, Plattformen und Frameworks vor, die auch Ihnen das Leben erleichtern können. Hier ist der Teil 1. Debezium Die Methode Change Data Capture (CDC) hat viele Anwendungsfälle u. a. das Replizieren von Daten in andere Datenbanken, die Versorgung von Analytics-Systemen, das Extrahieren von Microservices von Monolithen und die [...]

The New Age of Data – GDPR Compliance und Data Analytics – Teil 2

Die jüngsten Fortschritte im Bereich des maschinellen Lernens haben ein wirtschaftliches Interesse erzeugt, die neuen Technologien in Geschäftsprozessen zu integrieren. Das belegen die ansteigenden Investitionen in ML-Tools und der rapide Aufbau von Analytics-Abteilungen. Gleichzeitig wurden Fragen nach Datenschutz und einer digitalen Ethik laut. Als rechtliche Antwort auf diese Entwicklungen hat die Europäische Union im Mai [...]

Java verwenden in der Azure Data Factory

Microsofts Azure Data Factory (ADF) ist ein Datenintegrationsdienst, in dem man komplexe Arbeitsabläufe in Form von Pipelines erstellen und ausführen kann. Seit Ende Juni 2018 gibt es ADF V2, in der man Pipelines bequem in einer grafischen Oberfläche im Browser entwickeln kann - ähnlich wie mit SQL Server Integration Services. Dabei hat man für die [...]

Performance-Metriken des überwachten Lernens für Klassifikationsprobleme

Die Daten wurden aufbereitet, neue Features abgeleitet und verschieden Machine-Learning-Modelle trainiert. Doch wie bewertet man die Performance dieser Modelle? Wie entscheidet man sich z.B. zwischen einem neuronalen Netz, Random Forest oder Gradient Boosting Classifier? Hierfür verwendet man im Machine-Learning-Bereich sogenannte Performance-Metriken. Diese werden auf einem Testdatensatz (Hold-Out Set) evaluiert, welches nicht zum Training des Modells [...]

Ausführung von SSIS-Paketen in der Azure Cloud mit der Azure Data Factory

Bei der Ausführung bzw. Migration von SSIS-Paketen in die Azure Cloud gibt es gemäß Forrester vier verschiedene Möglichkeiten: Lift & Shift Lift & Extend Hybrid Extension Full Rebuild Lift & Shift bezeichnet hierbei eine mehr oder weniger direkte Migration mit lediglich geringen erforderlichen Anpassungen der bisherigen Infrastruktur zu einer Cloudumgebung. Bei Lift & Extend werden [...]