Performance-Metriken des überwachten Lernens für Klassifikationsprobleme

Die Daten wurden aufbereitet, neue Features abgeleitet und verschieden Machine-Learning-Modelle trainiert. Doch wie bewertet man die Performance dieser Modelle? Wie entscheidet man sich z.B. zwischen einem neuronalen Netz, Random Forest oder Gradient Boosting Classifier? Hierfür verwendet man im Machine-Learning-Bereich sogenannte Performance-Metriken. Diese werden auf einem Testdatensatz (Hold-Out Set) evaluiert, welches nicht zum Training des Modells [...]

Überblick über Text-Mining und Informationsextraktion

Texte, ob geschrieben oder gesprochen, sind im Vergleich zu den üblichen Datenstrukturen, welche bei der Datenverarbeitung Verwendung finden, sehr unstrukturiert, enthalten aber meist doch eine Menge Information. Gerade bei längeren und umfangreicheren Texten möchte man die Informationen automatisiert extrahieren. Aber auch bei vielen kleinen Texten ist eine automatisierte Informationsextraktion sinnvoll, so können z.B. Unterlagen für [...]

Big Data Use Cases im Retail Banking

Die Identifizierung und schnelle Umsetzung von Big Data Use Cases entscheidet über den Erfolg von Big Data Initiativen. Business Know-how, die Bereitschaft Geschäftsprozesse vom Kunden her zu denken, analytische und methodische Fähigkeiten, Pragmatismus und Kreativität sind wichtige Faktoren auf dem beschwerlichen Weg der digitalen Transformation. Und nicht zu vergessen, ein bisschen Inspiration. Deshalb möchten wir [...]