Machine-Learning mit unausgewogenen Datensätzen: imbalanced-learn (Python-Package)

Eine große Herausforderung im Bereich Machine-Learning stellt der Umgang mit unausgewogenen (engl. unbalanced) Datensätzen bei der Klassifizierung dar. Dabei bezeichnet man einen Datensatz als unausgewogen, wenn eine Klasse des Datensatzes gegenüber den anderen deutlich über-/unterrepräsentiert ist. In diesem Zusammenhang stellt Betrugsentdeckung (engl. Fraud Detection) ein besonderes Beispiel dar: Ein großer Teil der Daten des Datensatzes, [...]

Website Optimierung mit Advanced Analytics – Teil 3: Random Forest

Nachdem im letzten Teil ein Data Mining Algorithmus als Bestandteil eines Recommendation Systems erläutert wurde, soll der Algorithmus dieses Beitrages in der Lage sein Predictions (dt. Vorhersagen) über das Nutzerverhalten zu treffen. Dafür betrachten wir Random Forest und die Vorzüge gegenüber Decision Trees. Für einen Einstieg in Decision Trees empfehlen wir vor dem Weiterlesen folgenden [...]

Tensorflow.js – Machine Learning im Browser

Nachdem das Google Brain Team 2015 die beliebte open-source Bibliothek TensorFlow zum Entwickeln und Trainieren von Machine-Learning-Modellen veröffentlicht hat, folgte nun zuletzt die JavaScript-Bibliothek TensorFlow.js. Während TensorFlow zum größten Teil über eine Python API benutzt wird, lassen sich mit TensorFlow.js Machine-Learning-Modelle im Browser oder auch mit Node.js (open-source, cross-platform, JavaScript Laufzeitumgebung) entwickeln, trainieren und auch [...]

Website Optimierung mit Advanced Analytics – Teil 2: Sequential Pattern

Im ersten Teil der Blogserie wurden bereits die grundlegenden Komponenten und deren Umsetzung mittels Open-Source-Software vorgestellt. Dabei wurde auch deren generelles Zusammenspiel erläutert. Die wesentliche Arbeit der Datenanalyse übernehmen dabei Batch und Streaming Layer, aber was passiert eigentlich hinter den Kulissen und wie kann die Website auf deren Grundlage optimiert werden? Die Lösung liegt in [...]

R als Tool für Data Science

Neben klassischer Software für statistische Analysen wie SAS, SPSS und Stata gewinnt seit einiger Zeit insbesondere R an Beliebtheit, da es als Freeware verfügbar ist und eine breite Unterstützung durch Foren und detaillierte Dokumentation genießt. R und das ebenfalls kostenlos verfügbare R Studio als IDE (integrated development environment) zur komfortableren Programmierung basieren auf der Programmiersprache [...]

Wie Maschinen mit Menschen kommunizieren – Aktuelle Trends im Natural Language Processing

Natural Language Processing (NLP) beschreibt das Feld der Computerwissenschaften, welches sich mit der Interaktion zwischen Computerprogrammen und menschlicher Sprache beschäftigt. Durch die aktuellen Entwicklungen in den Bereichen der künstlichen Intelligenz und speziell des maschinellen Lernens in jüngerer Zeit hat die automatisierte Verarbeitung von Text- und Sprachdaten bereits Einzug in verschiedene Unternehmensbranchen gefunden. So werden in [...]

Vielversprechende Tools und Frameworks für 2019 – Teil 1

Pünktlich zum Jahresstart stellt saracus einige vielversprechende Tools, Plattformen und Frameworks vor, die auch Ihnen das Leben erleichtern können. Hier ist der Teil 1. Debezium Die Methode Change Data Capture (CDC) hat viele Anwendungsfälle u. a. das Replizieren von Daten in andere Datenbanken, die Versorgung von Analytics-Systemen, das Extrahieren von Microservices von Monolithen und die [...]

The New Age of Data – GDPR Compliance und Data Analytics – Teil 2

Die jüngsten Fortschritte im Bereich des maschinellen Lernens haben ein wirtschaftliches Interesse erzeugt, die neuen Technologien in Geschäftsprozessen zu integrieren. Das belegen die ansteigenden Investitionen in ML-Tools und der rapide Aufbau von Analytics-Abteilungen. Gleichzeitig wurden Fragen nach Datenschutz und einer digitalen Ethik laut. Als rechtliche Antwort auf diese Entwicklungen hat die Europäische Union im Mai [...]

Performance-Metriken des überwachten Lernens für Klassifikationsprobleme

Die Daten wurden aufbereitet, neue Features abgeleitet und verschieden Machine-Learning-Modelle trainiert. Doch wie bewertet man die Performance dieser Modelle? Wie entscheidet man sich z.B. zwischen einem neuronalen Netz, Random Forest oder Gradient Boosting Classifier? Hierfür verwendet man im Machine-Learning-Bereich sogenannte Performance-Metriken. Diese werden auf einem Testdatensatz (Hold-Out Set) evaluiert, welches nicht zum Training des Modells [...]

Imbalanced Learning

1. Einführung Was haben Datensätze in Bereichen wie Betrugserkennung im Banking, Echtzeitgebote im Marketing oder Intrusion Detection in Netzwerken gemeinsam? Daten, die in diesen Bereichen verwendet werden, weisen oft weniger als 1% seltener, aber "interessanter" Ereignisse auf (z. B. Betrüger, die Kreditkarten verwenden, Nutzer klicken auf Werbung oder beschädigte Server scannen ihr Netzwerk). Die meisten [...]