Imbalanced Learning

Einführung

Was haben Datensätze in Bereichen wie Betrugserkennung im Banking, Echtzeitgebote im Marketing oder Intrusion Detection in Netzwerken gemeinsam?

Daten, die in diesen Bereichen verwendet werden, weisen oft weniger als 1% seltener, aber “interessanter” Ereignisse auf (z. B. Betrüger, die Kreditkarten verwenden, Nutzer klicken auf Werbung oder beschädigte Server scannen ihr Netzwerk). Die meisten Algorithmen zum maschinellen Lernen funktionieren jedoch nicht gut mit unausgewogenen Datensätzen. Die folgenden sieben Techniken können Ihnen dabei helfen, einen Klassifikator so zu trainieren, dass er die abnormale Klasse erkennt.

Imbalanced Learning Bild1 — **Abbildung 1** Unausgewogene Zielvariable

Die richtige Metriken verwenden

Die Anwendung unangemessener Bewertungsmetriken für Modelle, die mit unausgewogenen Daten generiert werden, kann gefährlich sein. Gehen wir davon aus, dass die Trainingsdaten so sind wie in der obigen Grafik. Wenn Genauigkeit (Accuracy) verwendet wird, um die Güte eines Modells zu messen, wird ein Modell, das alle Testproben in “0” klassifiziert, eine ausgezeichnete Genauigkeit (99,8%) aufweisen, aber offensichtlich wird dieses Modell keine wertvollen Informationen für uns liefern.

In diesem Fall können andere alternative Bewertungsmetriken angewendet werden wie: Präzision / Spezifität: Wie viele ausgewählte Instanzen sind relevant. Recall / Sensitivity: Wie viele relevante Instanzen sind ausgewählt. F1-Ergebnis: harmonisches Mittel der Präzsion und des Abrufs. MCC: Korrelationskoeffizient zwischen den beobachteten und vorhergesagten binären Klassifikationen. AUC: Beziehung zwischen der echt positiven Rate und der falsch positiven Rate.

Resampeln des Trainingssatz

Neben der Verwendung verschiedener Bewertungskriterien kann auch daran gearbeitet werden, unterschiedliche Datensätze zu erhalten. Zwei Ansätze, um einen ausgewogenen Datensatz aus einem unausgewogenen Datensatz herauszufiltern, sind Under-sampling und Over-sampling.

Under-Sampling gleicht den Datensatz aus, indem die Größe der reichlich vorhandenen Klasse reduziert wird. Diese Methode wird verwendet, wenn die Datenmenge ausreicht. Indem alle Stichproben in der seltenen Klasse gehalten werden und zufällig eine gleiche Anzahl von Stichproben in der reichlich vorhandenen Klasse ausgewählt wird, kann ein ausgewogener neuer Datensatz zur weiteren Modellierung abgerufen werden.

Im Gegensatz dazu wird Over-sampling verwendet, wenn die Datenmenge nicht ausreicht. Es versucht, den Datensatz auszugleichen, indem die Größe seltener Proben erhöht wird. Anstatt reichlich vorhandene Proben zu entfernen, werden neue seltene Proben erzeugt, durch Methoden wie Bootstrapping oder MOTE (Synthetic Minority Over-Sampling Technique)

Zu beachten ist, dass es keinen absoluten Vorteil einer Resampling-Methode gegenüber einer anderen gibt. Die Anwendung dieser beiden Methoden hängt vom Anwendungsfall und dem Datensatz selbst ab. Eine Kombination von Über- und Unterstichproben ist oft auch erfolgreich.

K‑fold Kreuzvalidierung nutzen

Es ist anzumerken, dass die Kreuzvalidierung ordnungsgemäß angewendet werden sollte, während die Over-sampling zur Lösung von Ungleichgewichtsproblemen eingesetzt wird. Auch zu beachten ist, dass bei Over-sampling seltene Stichproben beobachtet werden und Bootstrapping angewendet wird, um neue Zufallsdaten basierend auf einer Verteilungsfunktion zu generieren. Wenn die Kreuzvalidierung nach Überabtastung angewendet wird, überarbeiten wir unser Modell im Grunde auf ein bestimmtes künstliches Bootstrapping-Ergebnis. Aus diesem Grund sollte eine Überprüfungsvalidierung immer durchgeführt werden, bevor die Daten überabgetastet werden, ebenso wie die Merkmalauswahl implementiert werden sollte. Nur durch wiederholtes Abtasten der Daten kann eine Zufälligkeit in den Datensatz eingeführt erden, um sicherzustellen, dass kein Überfüllungsproblem auftritt.

Verschiedene neu abgetastete Datensätze erzeugen

Der einfachste Weg, ein Modell erfolgreich zu verallgemeinern, ist die Verwendung von mehr Daten. Das Problem besteht darin, dass Out-of-the-Box-Klassifizierer wie logistische Regression oder zufällige Gesamtstruktur dazu neigen, zu verallgemeinern, indem die seltene Klasse verworfen wird. Eine einfache best Practice ist die Erstellung von n Modellen, die alle Stichproben der seltenen Klasse und n- verschiedene Stichproben der reichlich vorhandenen Klasse verwenden. Wenn man 10 Modelle zusammenstellen möchte, würde man z.B. die 1.000 Fälle der seltenen Klasse und zufällig 10.000 Fälle der reichlich vorhandenen Klasse. Dann teilen Sie einfach die 10.000 Fälle in 10 Stücke und trainieren 10 verschiedene Modelle.

Dieser Ansatz ist einfach und perfekt horizontal skalierbar, wenn man viele Daten hat, da man seine Modelle einfach auf verschiedenen Clusterknoten trainieren und ausführen können. Ensemble-Modelle tendieren auch dazu, besser zu verallgemeinern, was diesen Ansatz leicht zu handhaben macht.

Die reichlich vorhandene Klasse Clustern

Anstatt sich auf Zufallsstichproben zu verlassen, um die Vielfalt der Trainingsstichproben abzudecken, ann man, die reichlich vorhandene Klasse in r Gruppen zu gruppieren, wobei r die Anzahl der Fälle in r ist. Für jede Gruppe wird nur das Medoid (Zentrum des Clusters) aufbewahrt. Das Modell wird dann nur mit er seltenen Klasse und den Medoiden trainiert.

Eigene Modelle entwerfen

Alle bisherigen Methoden konzentrieren sich auf die Daten und behalten die Modelle als feste Komponente bei. In der Tat ist es nicht erforderlich, die Daten neu zu erfassen, wenn das Modell für nausgeglichene Daten geeignet ist. Der berühmte XGBoost ist bereits ein guter Startpunkt, wenn die lassen nicht zu stark verzerrt werden, weil es intern dafür sorgt, dass die Taschen, auf denen es trainiert, nicht unausgeglichen sind. Aber dann werden die Daten neu abgetastet, es passiert nur heimlich.

Durch das Entwerfen einer Kostenfunktion, die eine falsche Klassifizierung der seltenen Klasse mehr bestraft als falsche Klassifizierungen der reichlich vorhandenen Klasse, ist es möglich, viele Modelle zu entwerfen, die sich natürlich zugunsten der seltenen Klasse verallgemeinern. Zum Beispiel, eine SVM zu optimieren, um falsche Klassifizierungen der seltenen Klasse mit demselben Verhältnis zu bestrafen, in dem diese Klasse unterrepräsentiert ist.

Quintessenz

Dies ist keine exklusive Liste von Techniken, sondern eher ein Ausgangspunkt für den Umgang mit unausgewogenen Daten. Es gibt keinen besten Ansatz oder ein Modell, das für alle Probleme geeignet ist, und es wird dringend empfohlen, verschiedene Techniken und Modelle auszuprobieren, um zu bewerten, was am besten funktioniert. Kreativ zu sein und verschiedene Ansätze kombinieren ist die beste Lösung. Es ist auch wichtig zu wissen, dass in vielen Bereichen (z. B. Betrugserkennung, Echtzeitgebote), wo unausgeglichene Klassen auftreten, sich die “Marktregeln” ständig ändern. Es ist also wichtig zu überprüfen, ob frühere Daten veraltet sein könnten.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Einführung

Die richtige Metriken verwenden

Resampeln des Trainingssatz

K‑fold Kreuzvalidierung nutzen

Verschiedene neu abgetastete Datensätze erzeugen

Die reichlich vorhandene Klasse Clustern

Eigene Modelle entwerfen

Quintessenz

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Einführung in LLM-Agenten mit Langchain: Wenn RAG nicht genug ist

Kommende Webinare

Einführung in Snowpark

360°-Sicht auf das Personalmanagement durch Dashboards für Führungskräfte

POCing Snowflake

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Change Management aus der IT-Perspektive

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Einführung in LLM-Agenten mit Langchain: Wenn RAG nicht genug ist

Aufbau einer LLMOPs-Pipeline

Stammdaten-Schatz: Wie Sie Ihre Daten zum wertvollsten Asset verwandeln

10 KI-Trends für 2024

Wir verwenden Cookies

Ein­füh­rung

Die rich­tige Metri­ken verwenden

Resam­peln des Trainingssatz

K‑fold Kreuz­va­li­die­rung nutzen

Ver­schie­dene neu abge­tas­tete Daten­sätze erzeugen

Die reich­lich vor­han­dene Klasse Clustern

Eigene Modelle entwerfen

Quint­essenz

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

Ein­füh­rung in LLM-Agen­­ten mit Lang­chain: Wenn RAG nicht genug ist

Kommende Webinare

Ein­füh­rung in Snowpark

360°-Sicht auf das Per­so­nal­ma­nage­ment durch Dash­boards für Führungskräfte

POCing Snow­flake

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Ein­füh­rung in CI/CD mit Azure DevOps

Change Manage­ment aus der IT-Perspektive

Dat­ab­ricks: Beschleu­ni­gung von Data Ware­housing und ETL mit PySpark

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Ein­füh­rung in LLM-Agen­­ten mit Lang­chain: Wenn RAG nicht genug ist

Auf­bau einer LLMOPs-Pipeline

Stam­m­­da­­ten-Schatz: Wie Sie Ihre Daten zum wert­volls­ten Asset verwandeln

10 KI-Trends für 2024

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Einführung

Die richtige Metriken verwenden

Resampeln des Trainingssatz

K‑fold Kreuzvalidierung nutzen

Verschiedene neu abgetastete Datensätze erzeugen

Die reichlich vorhandene Klasse Clustern

Quintessenz

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Einführung in LLM-Agenten mit Langchain: Wenn RAG nicht genug ist

Einführung in Snowpark

360°-Sicht auf das Personalmanagement durch Dashboards für Führungskräfte

POCing Snowflake

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Change Management aus der IT-Perspektive

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Einführung in LLM-Agenten mit Langchain: Wenn RAG nicht genug ist

Aufbau einer LLMOPs-Pipeline

Stammdaten-Schatz: Wie Sie Ihre Daten zum wertvollsten Asset verwandeln

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts