Wie Maschinen mit Menschen kommunizieren – Aktuelle Trends im Natural Language Processing

Natural Language Processing (NLP) beschreibt das Feld der Computerwissenschaften, welches sich mit der Interaktion zwischen Computerprogrammen und menschlicher Sprache beschäftigt. Durch die aktuellen Entwicklungen in den Bereichen der künstlichen Intelligenz und speziell des maschinellen Lernens in jüngerer Zeit hat die automatisierte Verarbeitung von Text- und Sprachdaten bereits Einzug in verschiedene Unternehmensbranchen gefunden. So werden in […]

Vielversprechende Tools und Frameworks für 2019 – Teil 1

Pünktlich zum Jahresstart stellt saracus einige vielversprechende Tools, Plattformen und Frameworks vor, die auch Ihnen das Leben erleichtern können. Hier ist der Teil 1. Debezium Die Methode Change Data Capture (CDC) hat viele Anwendungsfälle u. a. das Replizieren von Daten in andere Datenbanken, die Versorgung von Analytics-Systemen, das Extrahieren von Microservices von Monolithen und die […]

The New Age of Data – GDPR Compliance und Data Analytics – Teil 2

Die jüngsten Fortschritte im Bereich des maschinellen Lernens haben ein wirtschaftliches Interesse erzeugt, die neuen Technologien in Geschäftsprozessen zu integrieren. Das belegen die ansteigenden Investitionen in ML-Tools und der rapide Aufbau von Analytics-Abteilungen. Gleichzeitig wurden Fragen nach Datenschutz und einer digitalen Ethik laut. Als rechtliche Antwort auf diese Entwicklungen hat die Europäische Union im Mai [...]

Java verwenden in der Azure Data Factory

Microsofts Azure Data Factory (ADF) ist ein Datenintegrationsdienst, in dem man komplexe Arbeitsabläufe in Form von Pipelines erstellen und ausführen kann. Seit Ende Juni 2018 gibt es ADF V2, in der man Pipelines bequem in einer grafischen Oberfläche im Browser entwickeln kann - ähnlich wie mit SQL Server Integration Services. Dabei hat man für die [...]

Performance-Metriken des überwachten Lernens für Klassifikationsprobleme

Die Daten wurden aufbereitet, neue Features abgeleitet und verschieden Machine-Learning-Modelle trainiert. Doch wie bewertet man die Performance dieser Modelle? Wie entscheidet man sich z.B. zwischen einem neuronalen Netz, Random Forest oder Gradient Boosting Classifier? Hierfür verwendet man im Machine-Learning-Bereich sogenannte Performance-Metriken. Diese werden auf einem Testdatensatz (Hold-Out Set) evaluiert, welches nicht zum Training des Modells [...]

Ausführung von SSIS-Paketen in der Azure Cloud mit der Azure Data Factory

Bei der Ausführung bzw. Migration von SSIS-Paketen in die Azure Cloud gibt es gemäß Forrester vier verschiedene Möglichkeiten: Lift & Shift Lift & Extend Hybrid Extension Full Rebuild Lift & Shift bezeichnet hierbei eine mehr oder weniger direkte Migration mit lediglich geringen erforderlichen Anpassungen der bisherigen Infrastruktur zu einer Cloudumgebung. Bei Lift & Extend werden [...]

Überblick über Text-Mining und Informationsextraktion

Texte, ob geschrieben oder gesprochen, sind im Vergleich zu den üblichen Datenstrukturen, welche bei der Datenverarbeitung Verwendung finden, sehr unstrukturiert, enthalten aber meist doch eine Menge Information. Gerade bei längeren und umfangreicheren Texten möchte man die Informationen automatisiert extrahieren. Aber auch bei vielen kleinen Texten ist eine automatisierte Informationsextraktion sinnvoll, so können z.B. Unterlagen für [...]

Imbalanced Learning

1. Einführung Was haben Datensätze in Bereichen wie Betrugserkennung im Banking, Echtzeitgebote im Marketing oder Intrusion Detection in Netzwerken gemeinsam? Daten, die in diesen Bereichen verwendet werden, weisen oft weniger als 1% seltener, aber "interessanter" Ereignisse auf (z. B. Betrüger, die Kreditkarten verwenden, Nutzer klicken auf Werbung oder beschädigte Server scannen ihr Netzwerk). Die meisten [...]

Einführung in Decision Trees

I. Einführung Die Klassifikation beschreibt das Zuordnen von Objekten oder Daten in vordefinierte Kategorien. Die Anwendungen reichen dabei von der Erkennen von Spam E-Mails, Kategorisieren von Spezies bis hin zur Astronomie und der Detektion von Neutrinos. Ein decision tree (zu Deutsch Entscheidungsbaum) ist eines von mehreren Beispielen für einen automatischen Klassifizierer, der sich unter anderem [...]

Anwendungsfälle Neo4J – Versicherungsbetrug

Teil II Nachdem die wesentlichen Unterschiede zwischen den klassischen RDBMS und den Graph-Datenmodellen in dem vorherigen Blog beleuchtet wurden, stellt sich die Frage nach dem Business Case-Nutzen. Wie kann Graph- Technologie in die bestehende Software- und Datenarchitektur eingefügt werden? Denkt man an Graphdatenbanken und insbesondere an Neo4J als einen seiner prominentesten Vertreter, so werden einem [...]