Vergleich von Sicherheitsanwendungen im Hadoop-Umfeld

Apache Ranger vs. Apache Sentry Management Summary Bei großen Hadoop-Umgebungen ist die Verwaltung von einzelnen Zugriffsrechten aufwändig. Sowohl Sentry als auch Ranger sind eine Lösung, um solche Rechte zentral zu administrieren. Beide Anwendungen haben eine unterschiedliche Vorgehensweise bei der Abbildung der zentral vergebenen Rechte in die einzelnen Programme. Hierbei zeigt sich, dass die Architektur von [...]

White Paper Dynamische Prozesse mit dem Informatica Developer

Dieses Whitepaper stellt das Informatica Developer Tool vor, das seit der Version 9 als Teil der Informatica ETL-Suite zur Verfügung steht. Der Fokus der Betrachtung liegt auf der Verwendung der dynamischen Eigenschaften und deren Einsatzgebieten. Um den wachsenden Bedürfnissen von Automatisierung und Generik gerecht zu werden, müssen klassische ETLWerkzeuge mehr und mehr dynamische Ansätze zur […]

data-management

White Paper Masterdata Management mit Informatica MDM Hub

Die Stammdaten (englisch Master Data) umfassen die Basisinformationen eines Unternehmens. Sie sind Kerndaten der Geschäftspartner wie Kunden und Lieferanten, aber auch Finanzen, Produkte und Standorte und bilden die Grundlage für sämtliche Unternehmensprozesse und -funktionen. Name, Adresse eines Versicherten, Kontonummer und -beschreibung sind Beispiele für Stammdaten. Die Stammdaten sind von den Bewegungs- und Bestandsdaten zu unterscheiden. […]

database-schema

Anwendungsfälle Neo4J – Versicherungsbetrug

Teil II Nachdem die wesentlichen Unterschiede zwischen den klassischen RDBMS und den Graph-Datenmodellen in dem vorherigen Blog beleuchtet wurden, stellt sich die Frage nach dem Business Case-Nutzen. Wie kann Graph- Technologie in die bestehende Software- und Datenarchitektur eingefügt werden? Denkt man an Graphdatenbanken und insbesondere an Neo4J als einen seiner prominentesten Vertreter, so werden einem [...]
visualisierungstools

Open Source-Visualisierungstools

Wenn es um den Erkenntnisgewinn durch Daten geht, ist ein Blick auf die Rohdaten meist wenig gewinnbringend, da ohne weitere Analyse keine Schlussfolgerungen aus diesen gezogen werden können. Abhilfe können hierbei Visualisierungstools schaffen, welche eine flexible und schnelle Veranschaulichung der Daten ermöglichen. Dadurch können Muster und Zusammenhänge innerhalb der Datensätze für den Betrachter erkennbar gemacht [...]

Hyperopt – Optimierung der Hyperparameter für Machine Learning- Modelle in Python

Den gesamten sogenannten Hyperparameterraum nach einer optimalen Parameterkonfiguration abzusuchen ist in der Regel nicht realisierbar. Gewöhnlich nutzen Data Scientists hierfür ihre Erfahrung und führen nur einen kleinen Gridsearch über einen Teil des Raums aus. Meistens ist diese Methode selbst für erfahrene Data Scientists nicht sehr effizient und führt oft zu einem falschen lokalen Minimum der Verlustfunktion. Beispielsweise ist bei der Einstellung der [...]
pro-contra

Vergleich von Hadoop Distributionen

Cloudera CDH vs. Hortonworks HDP Das Hadoop Framework ermöglicht die verteilte Verwaltung und Berechnung großer Datenmengen mithilfe von Clustern, indem die auszuführenden Transformationen auf die Server verteilt und dort parallel ausgeführt werden. Hadoop und das dazugehörige Ökosystem sind durch die Vielzahl an verknüpften Tools sehr komplex und erfordern deshalb die Entwicklung und Wartung durch Spezialisten. [...]
database-schema

Vergleich der Graphdatenbank Neo4J mit relationalen Datenbanken

Teil I Die fortschreitende Entwicklung in den Bereichen Big Data, Internet of Things, Machine Learning  etc. und der Einsatz von entsprechenden Tools in Unternehmen sind nicht mehr wegzudiskutieren. Wird unsere Welt in dem Bereich analytischer Systeme - so wie wir sie kennen - komplett auf den Kopf gestellt? Müssen wir zwangsläufig neue Technologien in diesen [...]

Data Wrangling mit Trifacta

Die rasante Entwicklung hin zu immer größeren und komplexeren Datenmengen in Unternehmen bringt einige neue Anforderungen an das Verarbeiten dieser Daten mit sich. Bedingt durch die Masse an Daten und die Komplexität der Datenstrukturen, ist die Analyse sowie Bereinigung der Daten ohne leistungsstarke Software Tools häufig nicht mehr möglich. Insbesondere die Strukturierung und Bereinigung nimmt [...]

Tool-basierte Generierung von Big Data Use Cases

Die Anforderungen verschiedener Unternehmen hinsichtlich Big Data können sich stark unterscheiden. Um die für ein spezifisches Unternehmen erforderlichen Anforderungen möglichst schnell und zuverlässig identifizieren zu können, hat saracus consulting den saracus Big Data Use Case Konfigurator  (BDUK) entwickelt. Mithilfe einer Datenbank, die den Zugriff auf über 600 vordefinierte  Basis-Use-Cases ermöglicht, kann der Konfigurator die Definition [...]