Machine-Learning mit unausgewogenen Datensätzen: imbalanced-learn (Python-Package)

Eine große Herausforderung im Bereich Machine-Learning stellt der Umgang mit unausgewogenen (engl. unbalanced) Datensätzen bei der Klassifizierung dar. Dabei bezeichnet man einen Datensatz als unausgewogen, wenn eine Klasse des Datensatzes gegenüber den anderen deutlich über-/unterrepräsentiert ist. In diesem Zusammenhang stellt Betrugsentdeckung (engl. Fraud Detection) ein besonderes Beispiel dar: Ein großer Teil der Daten des Datensatzes, [...]

Website Optimierung mit Advanced Analytics – Teil 3: Random Forest

Nachdem im letzten Teil ein Data Mining Algorithmus als Bestandteil eines Recommendation Systems erläutert wurde, soll der Algorithmus dieses Beitrages in der Lage sein Predictions (dt. Vorhersagen) über das Nutzerverhalten zu treffen. Dafür betrachten wir Random Forest und die Vorzüge gegenüber Decision Trees. Für einen Einstieg in Decision Trees empfehlen wir vor dem Weiterlesen folgenden [...]

Tensorflow.js – Machine Learning im Browser

Nachdem das Google Brain Team 2015 die beliebte open-source Bibliothek TensorFlow zum Entwickeln und Trainieren von Machine-Learning-Modellen veröffentlicht hat, folgte nun zuletzt die JavaScript-Bibliothek TensorFlow.js. Während TensorFlow zum größten Teil über eine Python API benutzt wird, lassen sich mit TensorFlow.js Machine-Learning-Modelle im Browser oder auch mit Node.js (open-source, cross-platform, JavaScript Laufzeitumgebung) entwickeln, trainieren und auch [...]

Produktvorstellung: Data Science Deployment Plattform FastScore von der Open Data Group

Mit FastScore stellt das Unternehmen Open Data Group ein Deploymentwerkzeug bereit, das die Entwicklung, das Testen, die Produktivsetzung und Überwachung von Modellen zusammen bringt und es auf Basis von Microservices bereit stellt. Mit Modellen sind in diesem Kontext Analyse- und Auswertungsverfahren gemeint, die auf Datenströme Anwendung finden, um daraus einen informationsbezogenen  Mehrwert zu generieren. Dieser [...]

Website Optimierung mit Advanced Analytics – Teil 2: Sequential Pattern

Im ersten Teil der Blogserie wurden bereits die grundlegenden Komponenten und deren Umsetzung mittels Open-Source-Software vorgestellt. Dabei wurde auch deren generelles Zusammenspiel erläutert. Die wesentliche Arbeit der Datenanalyse übernehmen dabei Batch und Streaming Layer, aber was passiert eigentlich hinter den Kulissen und wie kann die Website auf deren Grundlage optimiert werden? Die Lösung liegt in [...]

Website Optimierung mit Advanced Analytics – Teil 1: Systemarchitektur

Während Vorreiter Amazon in bestimmten Absatzgebieten heute bereits mit einer Wahrscheinlichkeit von 80% vorhersagen kann, welche Produkte ein Kunde morgen bestellen wird, sind vor allem deutsche Unternehmen nach wie vor skeptisch gegenüber der Kunst der modernen statistischen Datenanalyse. Obwohl die Erkenntnis wächst, schätzt ein Großteil der IT-Verantwortlichen der D-A-CH Region, dass Predictive Analytics erst innerhalb [...]

R als Tool für Data Science

Neben klassischer Software für statistische Analysen wie SAS, SPSS und Stata gewinnt seit einiger Zeit insbesondere R an Beliebtheit, da es als Freeware verfügbar ist und eine breite Unterstützung durch Foren und detaillierte Dokumentation genießt. R und das ebenfalls kostenlos verfügbare R Studio als IDE (integrated development environment) zur komfortableren Programmierung basieren auf der Programmiersprache [...]

Wie Maschinen mit Menschen kommunizieren – Aktuelle Trends im Natural Language Processing

Natural Language Processing (NLP) beschreibt das Feld der Computerwissenschaften, welches sich mit der Interaktion zwischen Computerprogrammen und menschlicher Sprache beschäftigt. Durch die aktuellen Entwicklungen in den Bereichen der künstlichen Intelligenz und speziell des maschinellen Lernens in jüngerer Zeit hat die automatisierte Verarbeitung von Text- und Sprachdaten bereits Einzug in verschiedene Unternehmensbranchen gefunden. So werden in [...]

Vielversprechende Tools und Frameworks für 2019 – Teil 1

Pünktlich zum Jahresstart stellt saracus einige vielversprechende Tools, Plattformen und Frameworks vor, die auch Ihnen das Leben erleichtern können. Hier ist der Teil 1. Debezium Die Methode Change Data Capture (CDC) hat viele Anwendungsfälle u. a. das Replizieren von Daten in andere Datenbanken, die Versorgung von Analytics-Systemen, das Extrahieren von Microservices von Monolithen und die [...]

The New Age of Data – GDPR Compliance und Data Analytics – Teil 2

Die jüngsten Fortschritte im Bereich des maschinellen Lernens haben ein wirtschaftliches Interesse erzeugt, die neuen Technologien in Geschäftsprozessen zu integrieren. Das belegen die ansteigenden Investitionen in ML-Tools und der rapide Aufbau von Analytics-Abteilungen. Gleichzeitig wurden Fragen nach Datenschutz und einer digitalen Ethik laut. Als rechtliche Antwort auf diese Entwicklungen hat die Europäische Union im Mai [...]