Bibliothek

Überblick über Text-Mining und Informationsextraktion

Texte, ob geschrieben oder gesprochen, sind im Vergleich zu den üblichen Datenstrukturen, welche bei der Datenverarbeitung Verwendung finden, sehr unstrukturiert, enthalten aber meist doch eine Menge Information. Gerade bei längeren und umfangreicheren Texten möchte man die Informationen automatisiert extrahieren. Aber auch bei vielen kleinen Texten ist eine automatisierte Informationsextraktion sinnvoll, so können z.B. Unterlagen für [...]
neuronales Netz

Imbalanced Learning

1. Einführung Was haben Datensätze in Bereichen wie Betrugserkennung im Banking, Echtzeitgebote im Marketing oder Intrusion Detection in Netzwerken gemeinsam? Daten, die in diesen Bereichen verwendet werden, weisen oft weniger als 1% seltener, aber "interessanter" Ereignisse auf (z. B. Betrüger, die Kreditkarten verwenden, Nutzer klicken auf Werbung oder beschädigte Server scannen ihr Netzwerk). Die meisten [...]
Darwinfinke

Einführung in Decision Trees

I. Einführung Die Klassifikation beschreibt das Zuordnen von Objekten oder Daten in vordefinierte Kategorien. Die Anwendungen reichen dabei von der Erkennen von Spam E-Mails, Kategorisieren von Spezies bis hin zur Astronomie und der Detektion von Neutrinos. Ein decision tree (zu Deutsch Entscheidungsbaum) ist eines von mehreren Beispielen für einen automatischen Klassifizierer, der sich unter anderem [...]

Vergleich von Sicherheitsanwendungen im Hadoop-Umfeld

Apache Ranger vs. Apache Sentry Management Summary Bei großen Hadoop-Umgebungen ist die Verwaltung von einzelnen Zugriffsrechten aufwändig. Sowohl Sentry als auch Ranger sind eine Lösung, um solche Rechte zentral zu administrieren. Beide Anwendungen haben eine unterschiedliche Vorgehensweise bei der Abbildung der zentral vergebenen Rechte in die einzelnen Programme. Hierbei zeigt sich, dass die Architektur von [...]

White Paper Dynamische Prozesse mit dem Informatica Developer

Dieses Whitepaper stellt das Informatica Developer Tool vor, das seit der Version 9 als Teil der Informatica ETL-Suite zur Verfügung steht. Der Fokus der Betrachtung liegt auf der Verwendung der dynamischen Eigenschaften und deren Einsatzgebieten. Um den wachsenden Bedürfnissen von Automatisierung und Generik gerecht zu werden, müssen klassische ETLWerkzeuge mehr und mehr dynamische Ansätze zur […]

data-management

White Paper Masterdata Management mit Informatica MDM Hub

Die Stammdaten (englisch Master Data) umfassen die Basisinformationen eines Unternehmens. Sie sind Kerndaten der Geschäftspartner wie Kunden und Lieferanten, aber auch Finanzen, Produkte und Standorte und bilden die Grundlage für sämtliche Unternehmensprozesse und -funktionen. Name, Adresse eines Versicherten, Kontonummer und -beschreibung sind Beispiele für Stammdaten. Die Stammdaten sind von den Bewegungs- und Bestandsdaten zu unterscheiden. […]

database-schema

Anwendungsfälle Neo4J – Versicherungsbetrug

Teil II Nachdem die wesentlichen Unterschiede zwischen den klassischen RDBMS und den Graph-Datenmodellen in dem vorherigen Blog beleuchtet wurden, stellt sich die Frage nach dem Business Case-Nutzen. Wie kann Graph- Technologie in die bestehende Software- und Datenarchitektur eingefügt werden? Denkt man an Graphdatenbanken und insbesondere an Neo4J als einen seiner prominentesten Vertreter, so werden einem [...]
visualisierungstools

Open Source-Visualisierungstools

Wenn es um den Erkenntnisgewinn durch Daten geht, ist ein Blick auf die Rohdaten meist wenig gewinnbringend, da ohne weitere Analyse keine Schlussfolgerungen aus diesen gezogen werden können. Abhilfe können hierbei Visualisierungstools schaffen, welche eine flexible und schnelle Veranschaulichung der Daten ermöglichen. Dadurch können Muster und Zusammenhänge innerhalb der Datensätze für den Betrachter erkennbar gemacht [...]

Hyperopt – Optimierung der Hyperparameter für Machine Learning- Modelle in Python

Den gesamten sogenannten Hyperparameterraum nach einer optimalen Parameterkonfiguration abzusuchen ist in der Regel nicht realisierbar. Gewöhnlich nutzen Data Scientists hierfür ihre Erfahrung und führen nur einen kleinen Gridsearch über einen Teil des Raums aus. Meistens ist diese Methode selbst für erfahrene Data Scientists nicht sehr effizient und führt oft zu einem falschen lokalen Minimum der Verlustfunktion. Beispielsweise ist bei der Einstellung der [...]
pro-contra

Vergleich von Hadoop Distributionen

Cloudera CDH vs. Hortonworks HDP Das Hadoop Framework ermöglicht die verteilte Verwaltung und Berechnung großer Datenmengen mithilfe von Clustern, indem die auszuführenden Transformationen auf die Server verteilt und dort parallel ausgeführt werden. Hadoop und das dazugehörige Ökosystem sind durch die Vielzahl an verknüpften Tools sehr komplex und erfordern deshalb die Entwicklung und Wartung durch Spezialisten. [...]