Vor- und Nachteile von Data-Science- und Machine-Learning-Plattformen

Seit einigen Jahren verspricht eine Reihe von Software-Anbietern die (Teil-)Automatisierung von Data-Science-Projekten mit sogenannten Auto-ML-Programmen (automatic machine learning). Mitarbeiter aus den Fachbereichen sollen dadurch in die Lage versetzt werden, selber erfolgreich Machine-Learning-Modelle zu entwickeln und produktiv zu nutzen. Ein tiefergehendes Verständnis der Algorithmen und Methoden ist dafür nicht erforderlich. Häufig wird hierfür der Begriff Citizen [...]

Machine-Learning mit unausgewogenen Datensätzen: imbalanced-learn (Python-Package)

Eine große Herausforderung im Bereich Machine-Learning stellt der Umgang mit unausgewogenen (engl. unbalanced) Datensätzen bei der Klassifizierung dar. Dabei bezeichnet man einen Datensatz als unausgewogen, wenn eine Klasse des Datensatzes gegenüber den anderen deutlich über-/unterrepräsentiert ist. In diesem Zusammenhang stellt Betrugsentdeckung (engl. Fraud Detection) ein besonderes Beispiel dar: Ein großer Teil der Daten des Datensatzes, [...]