R als Tool für Data Science

Neben klassischer Software für statistische Analysen wie SAS, SPSS und Stata gewinnt seit einiger Zeit insbesondere R an Beliebtheit, da es als Freeware verfügbar ist und eine breite Unterstützung durch Foren und detaillierte Dokumentation genießt. R und das ebenfalls kostenlos verfügbare R Studio als IDE (integrated development environment) zur komfortableren Programmierung basieren auf der Programmiersprache [...]

Performance-Metriken des überwachten Lernens für Klassifikationsprobleme

Die Daten wurden aufbereitet, neue Features abgeleitet und verschieden Machine-Learning-Modelle trainiert. Doch wie bewertet man die Performance dieser Modelle? Wie entscheidet man sich z.B. zwischen einem neuronalen Netz, Random Forest oder Gradient Boosting Classifier? Hierfür verwendet man im Machine-Learning-Bereich sogenannte Performance-Metriken. Diese werden auf einem Testdatensatz (Hold-Out Set) evaluiert, welches nicht zum Training des Modells [...]

Überblick über Text-Mining und Informationsextraktion

Texte, ob geschrieben oder gesprochen, sind im Vergleich zu den üblichen Datenstrukturen, welche bei der Datenverarbeitung Verwendung finden, sehr unstrukturiert, enthalten aber meist doch eine Menge Information. Gerade bei längeren und umfangreicheren Texten möchte man die Informationen automatisiert extrahieren. Aber auch bei vielen kleinen Texten ist eine automatisierte Informationsextraktion sinnvoll, so können z.B. Unterlagen für [...]

Big Data Use Cases im Retail Banking

Die Identifizierung und schnelle Umsetzung von Big Data Use Cases entscheidet über den Erfolg von Big Data Initiativen. Business Know-how, die Bereitschaft Geschäftsprozesse vom Kunden her zu denken, analytische und methodische Fähigkeiten, Pragmatismus und Kreativität sind wichtige Faktoren auf dem beschwerlichen Weg der digitalen Transformation. Und nicht zu vergessen, ein bisschen Inspiration. Deshalb möchten wir [...]