Der Data & Analytics Blog von saracus consulting
- Alle zeigen
- Blog
- Success Stories
- White Paper
- Big Data Engineering
- Data Governance
- Data Science
- Data Strategy & Architecture
- DWH/Datenmanagement
Website Optimierung mit Advanced Analytics – Teil 3: Random Forest

Nachdem im letzten Teil ein Data Mining Algorithmus als Bestandteil eines Recommendation Systems erläutert wurde, soll der Algorithmus dieses Beitrages in der Lage sein Predictions (dt. Vorhersagen) über das Nutzerverhalten zu treffen. Dafür betrachten wir Random Forest und die Vorzüge gegenüber Decision Trees. Für einen Einstieg in Decision Trees empfehlen wir vor dem Weiterlesen folgenden...
Tensorflow.js – Machine Learning im Browser


Nachdem das Google Brain Team 2015 die beliebte open-source Bibliothek TensorFlow zum Entwickeln und Trainieren von Machine-Learning-Modellen veröffentlicht hat, folgte nun zuletzt die JavaScript-Bibliothek TensorFlow.js. Während TensorFlow zum größten Teil über eine Python API benutzt wird, lassen sich mit TensorFlow.js Machine-Learning-Modelle im Browser oder auch mit Node.js (open-source, cross-platform, JavaScript Laufzeitumgebung) entwickeln, trainieren und auch...
Dynamische Maskierung mit Lookup-Tabellen


Das Wort der Pseudonymisierung hat Konjunktur - spätestens seit der europäischen Datenschutzgrundverordnung (GDPR). Gemeint ist eine einfache Trennung von Identifikationsmerkmalen und Daten. „Einfach“, weil das Ziel klar ist. Die praktische Umsetzung kann jedoch stark variieren und im schlimmsten Fall den Datenfluss einschränken. Dabei müssen auch sensible Daten innerhalb von Geschäftsprozessen zur richtigen Zeit, am richtigen...
Produktvorstellung: Data Science Deployment Plattform FastScore von der Open Data Group


Mit FastScore stellt das Unternehmen Open Data Group ein Deploymentwerkzeug bereit, das die Entwicklung, das Testen, die Produktivsetzung und Überwachung von Modellen zusammen bringt und es auf Basis von Microservices bereit stellt. Mit Modellen sind in diesem Kontext Analyse- und Auswertungsverfahren gemeint, die auf Datenströme Anwendung finden, um daraus einen informationsbezogenen Mehrwert zu generieren. Dieser...
Website Optimierung mit Advanced Analytics – Teil 2: Sequential Pattern



Im ersten Teil der Blogserie wurden bereits die grundlegenden Komponenten und deren Umsetzung mittels Open-Source-Software vorgestellt. Dabei wurde auch deren generelles Zusammenspiel erläutert. Die wesentliche Arbeit der Datenanalyse übernehmen dabei Batch und Streaming Layer, aber was passiert eigentlich hinter den Kulissen und wie kann die Website auf deren Grundlage optimiert werden? Die Lösung liegt in...
White Paper DevOps mit Jenkins für die ETL-Entwicklung im SAS-Umfeld


In Zeiten der Digitalisierung und der stetigen Änderung an IT-Anforderungen aller Unternehmen an das eigene Umfeld, ob es nun Kunden oder Regularien sind, ist es dringend notwendig, schnell und effizient die IT-Anwendungen anpassen zu können. Eine Vorgehensweise, um dieser Herausforderung zu begegnen, ist der DevOps-Ansatz. Dieser nutzt aus der agilen Softwareentwicklung entstandene Best-Practices wie Continuous...
Website Optimierung mit Advanced Analytics – Teil 1: Systemarchitektur


Während Vorreiter Amazon in bestimmten Absatzgebieten heute bereits mit einer Wahrscheinlichkeit von 80% vorhersagen kann, welche Produkte ein Kunde morgen bestellen wird, sind vor allem deutsche Unternehmen nach wie vor skeptisch gegenüber der Kunst der modernen statistischen Datenanalyse. Obwohl die Erkenntnis wächst, schätzt ein Großteil der IT-Verantwortlichen der D-A-CH Region, dass Predictive Analytics erst innerhalb...
Der Informatica Enterprise Data Catalog


Als zweiten Teil der Serie zu Metadatenkatalogen geht es heute um den Enterprise Data Catalog (EDC) von Informatica. Der EDC ist nur eines von vielen Produkten Informaticas und fügt sich nahtlos in das Ökosystem ein. Auch einzeln ein vollständiges, sinnvoll nutzbares Produkt, so ergeben sich doch Synergien beim Einsatz mehrerer Komponenten: Verbindungen können aus der...
R als Tool für Data Science


Neben klassischer Software für statistische Analysen wie SAS, SPSS und Stata gewinnt seit einiger Zeit insbesondere R an Beliebtheit, da es als Freeware verfügbar ist und eine breite Unterstützung durch Foren und detaillierte Dokumentation genießt. R und das ebenfalls kostenlos verfügbare R Studio als IDE (integrated development environment) zur komfortableren Programmierung basieren auf der Programmiersprache...
Der Alation Data Catalog


In großen Unternehmen existiert oft eine Vielzahl von Datenbanken in verschiedenen Systemen. Leicht verliert man den Überblick, welche Information an welcher Stelle gespeichert und wie sie zu interpretieren ist. Metadatenkataloge können helfen, die Struktur der gespeicherten Daten zu dokumentieren und sie den richtigen Entitäten zuzuordnen. In diesem und dem kommenden Blogbeitrag stellen wir zwei konkrete...
Self-Joins mit Talend Enterprise Data Integration


Was ist Talend? Talend als Data Integration Tool Talend bietet mit Open Studio for Data Integration (Open-Source-Version) und Talend Enterprise Data Integration (Enterprise-Version) zwei Tools zur Datenintegration an. Die freie Variante eignet sich für kleine Projekte mit geringeren Ansprüchen an die Integrationslösung oder dem Wunsch eigenen Code zu entwickeln. Die Enterprise-Version bringt zusätzliche Komponenten und...
Wie Maschinen mit Menschen kommunizieren – Aktuelle Trends im Natural Language Processing


Natural Language Processing (NLP) beschreibt das Feld der Computerwissenschaften, welches sich mit der Interaktion zwischen Computerprogrammen und menschlicher Sprache beschäftigt. Durch die aktuellen Entwicklungen in den Bereichen der künstlichen Intelligenz und speziell des maschinellen Lernens in jüngerer Zeit hat die automatisierte Verarbeitung von Text- und Sprachdaten bereits Einzug in verschiedene Unternehmensbranchen gefunden. So werden in...
Vielversprechende Tools und Frameworks für 2019 – Teil 1


Pünktlich zum Jahresstart stellt saracus einige vielversprechende Tools, Plattformen und Frameworks vor, die auch Ihnen das Leben erleichtern können. Hier ist der Teil 1. Debezium Die Methode Change Data Capture (CDC) hat viele Anwendungsfälle u. a. das Replizieren von Daten in andere Datenbanken, die Versorgung von Analytics-Systemen, das Extrahieren von Microservices von Monolithen und die...
The New Age of Data – GDPR Compliance und Data Analytics – Teil 2



Die jüngsten Fortschritte im Bereich des maschinellen Lernens haben ein wirtschaftliches Interesse erzeugt, die neuen Technologien in Geschäftsprozessen zu integrieren. Das belegen die ansteigenden Investitionen in ML-Tools und der rapide Aufbau von Analytics-Abteilungen. Gleichzeitig wurden Fragen nach Datenschutz und einer digitalen Ethik laut. Als rechtliche Antwort auf diese Entwicklungen hat die Europäische Union im Mai...
White Paper DevOps im DWH – am Beispiel von Informatica-Produkten


Die Qualität und Geschwindigkeit heutiger IT-Entwicklungsprojekte sind wesentliche Entscheidungsfaktoren für die Wettbewerbsfähigkeiten einzelner Unternehmen. Gerade durch die größere Menge an verfügbaren Daten und der stetig wachsenden Menge an heterogenen Datenquellen trifft dies insbesondere auch für Datenintegrationsprojekte zu. Eine Vorgehensweise um dieser Herausforderung zu begegnen ist der DevOps-Ansatz. Dieser nutzt aus der agilen Softwareentwicklung entstandene Best-Practices...
Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML)


Das ansteigende Datenvolumen und die Komplexität der zu verarbeiteten Datenstrukturen in großen Unternehmen erfordert nicht nur häufig den Einsatz neuer Tools aus dem Big Data Bereich, sondern auch ein Umdenken im Datenmanagement (Data Governance). Dies umfasst beispielsweise die Sicherung der Konsistenz der Daten, die Erhaltung der Datenqualität, Pflege der Stammdaten und die Einhaltung gesetzlicher Vorgaben und...
Java verwenden in der Azure Data Factory


Microsofts Azure Data Factory (ADF) ist ein Datenintegrationsdienst, in dem man komplexe Arbeitsabläufe in Form von Pipelines erstellen und ausführen kann. Seit Ende Juni 2018 gibt es ADF V2, in der man Pipelines bequem in einer grafischen Oberfläche im Browser entwickeln kann - ähnlich wie mit SQL Server Integration Services. Dabei hat man für die...
Performance-Metriken des überwachten Lernens für Klassifikationsprobleme


Die Daten wurden aufbereitet, neue Features abgeleitet und verschieden Machine-Learning-Modelle trainiert. Doch wie bewertet man die Performance dieser Modelle? Wie entscheidet man sich z.B. zwischen einem neuronalen Netz, Random Forest oder Gradient Boosting Classifier? Hierfür verwendet man im Machine-Learning-Bereich sogenannte Performance-Metriken. Diese werden auf einem Testdatensatz (Hold-Out Set) evaluiert, welches nicht zum Training des Modells...
Microsoft integriert Spark in SQL Server 2019


Mit der kürzlich erschienen SQL Server 2019 Preview bricht Microsoft mit der klassischen Versionierung nach Kalenderjahren um ihren One-Stop-Ansatz für die Verarbeitung und Analyse großer Datenmengen, die in verschiedenen SQL- und NonSQL-Datenhaltungssystemen gespeichert sind (Data Virtualization) per SQL zu ermöglichen. Die folgenden Aussagen beziehen sich auf nicht Azure SQL sondern auf die SQL Server on...
Ausführung von SSIS-Paketen in der Azure Cloud mit der Azure Data Factory


Bei der Ausführung bzw. Migration von SSIS-Paketen in die Azure Cloud gibt es gemäß Forrester vier verschiedene Möglichkeiten: Lift & Shift Lift & Extend Hybrid Extension Full Rebuild Lift & Shift bezeichnet hierbei eine mehr oder weniger direkte Migration mit lediglich geringen erforderlichen Anpassungen der bisherigen Infrastruktur zu einer Cloudumgebung.Bei Lift & Extend werden die...
Das passende Tool für den Job: AZURE DATA FACTORY V2 vs. SQL Server INTEGRATION SERVICES


Da die Funktionen von Azure Data Factory V2 in den letzten Monaten allgemein verfügbar geworden sind, insbesondere die Azure-SSIS Integration Runtime, stellt sich in unserer Praxis immer wieder die Frage, welches Datenintegrationstool für ein bestimmtes Team und Projekt am besten geeignet ist. Sowohl Azure Data Factory V2 (ADF) als auch SQL Server Integration Services (SSIS)...
Metadata to the Rescue! GDPR Compliance und Datenmanagement – Teil 1



Europa hat einen neuen Datenschutz. Mit der General Data Protection Regulation (GDPR) wird seit dem 25. Mai 2018 der Umgang mit personenbezogenen Daten geregelt. Das bedeutet für die europäische Wirtschaft Handlungsbedarf. Viele IT-Landschaften sind immer noch nicht für das digitale Zeitalter gerüstet. Dabei steigen mit der GDPR die Anforderungen, dass Unternehmen ihre Datenverarbeitung aktiv steuern....
Überblick über Text-Mining und Informationsextraktion


Texte, ob geschrieben oder gesprochen, sind im Vergleich zu den üblichen Datenstrukturen, welche bei der Datenverarbeitung Verwendung finden, sehr unstrukturiert, enthalten aber meist doch eine Menge Information. Gerade bei längeren und umfangreicheren Texten möchte man die Informationen automatisiert extrahieren. Aber auch bei vielen kleinen Texten ist eine automatisierte Informationsextraktion sinnvoll, so können z.B. Unterlagen für...
Imbalanced Learning


1. Einführung Was haben Datensätze in Bereichen wie Betrugserkennung im Banking, Echtzeitgebote im Marketing oder Intrusion Detection in Netzwerken gemeinsam? Daten, die in diesen Bereichen verwendet werden, weisen oft weniger als 1% seltener, aber "interessanter" Ereignisse auf (z. B. Betrüger, die Kreditkarten verwenden, Nutzer klicken auf Werbung oder beschädigte Server scannen ihr Netzwerk). Die meisten...
Einführung in Decision Trees


I. Einführung Die Klassifikation beschreibt das Zuordnen von Objekten oder Daten in vordefinierte Kategorien. Die Anwendungen reichen dabei von der Erkennen von Spam E-Mails, Kategorisieren von Spezies bis hin zur Astronomie und der Detektion von Neutrinos. Ein decision tree (zu Deutsch Entscheidungsbaum) ist eines von mehreren Beispielen für einen automatischen Klassifizierer, der sich unter anderem...
Vergleich von Sicherheitsanwendungen im Hadoop-Umfeld


Apache Ranger vs. Apache Sentry Management Summary Bei großen Hadoop-Umgebungen ist die Verwaltung von einzelnen Zugriffsrechten aufwändig. Sowohl Sentry als auch Ranger sind eine Lösung, um solche Rechte zentral zu administrieren. Beide Anwendungen haben eine unterschiedliche Vorgehensweise bei der Abbildung der zentral vergebenen Rechte in die einzelnen Programme. Hierbei zeigt sich, dass die Architektur von...
White Paper Dynamische Prozesse mit dem Informatica Developer


Dieses Whitepaper stellt das Informatica Developer Tool vor, das seit der Version 9 als Teil der Informatica ETL-Suite zur Verfügung steht. Der Fokus der Betrachtung liegt auf der Verwendung der dynamischen Eigenschaften und deren Einsatzgebieten. Um den wachsenden Bedürfnissen von Automatisierung und Generik gerecht zu werden, müssen klassische ETLWerkzeuge mehr und mehr dynamische Ansätze zur...
White Paper Masterdata Management mit Informatica MDM Hub


Die Stammdaten (englisch Master Data) umfassen die Basisinformationen eines Unternehmens. Sie sind Kerndaten der Geschäftspartner wie Kunden und Lieferanten, aber auch Finanzen, Produkte und Standorte und bilden die Grundlage für sämtliche Unternehmensprozesse und -funktionen. Name, Adresse eines Versicherten, Kontonummer und -beschreibung sind Beispiele für Stammdaten. Die Stammdaten sind von den Bewegungs- und Bestandsdaten zu unterscheiden....
Anwendungsfälle Neo4J – Versicherungsbetrug


Teil II Nachdem die wesentlichen Unterschiede zwischen den klassischen RDBMS und den Graph-Datenmodellen in dem vorherigen Blog beleuchtet wurden, stellt sich die Frage nach dem Business Case-Nutzen. Wie kann Graph- Technologie in die bestehende Software- und Datenarchitektur eingefügt werden? Denkt man an Graphdatenbanken und insbesondere an Neo4J als einen seiner prominentesten Vertreter, so werden einem...
Open Source-Visualisierungstools


Wenn es um den Erkenntnisgewinn durch Daten geht, ist ein Blick auf die Rohdaten meist wenig gewinnbringend, da ohne weitere Analyse keine Schlussfolgerungen aus diesen gezogen werden können. Abhilfe können hierbei Visualisierungstools schaffen, welche eine flexible und schnelle Veranschaulichung der Daten ermöglichen. Dadurch können Muster und Zusammenhänge innerhalb der Datensätze für den Betrachter erkennbar gemacht...
Hyperopt – Optimierung der Hyperparameter für Machine Learning- Modelle in Python


Den gesamten sogenannten Hyperparameterraum nach einer optimalen Parameterkonfiguration abzusuchen ist in der Regel nicht realisierbar. Gewöhnlich nutzen Data Scientists hierfür ihre Erfahrung und führen nur einen kleinen Gridsearch über einen Teil des Raums aus. Meistens ist diese Methode selbst für erfahrene Data Scientists nicht sehr effizient und führt oft zu einem falschen lokalen Minimum der Verlustfunktion. Beispielsweise ist bei der Einstellung der...
Success Story Fiducia & GAD AG – Ablösung einer Softwareeigenentwicklung


Im Rahmen des Projekts wurde für einen Kunden der Fiducia & GAD eine neue Reporting-Umgebung entwickelt. Primäre Zielsetzung war die notwendige Ablösung einer Softwareeigenentwickung des Kunden durch die Integration in die etablierte BI-Landschaft der Fiducia & GAD. Die Fiducia & GAD IT AG ist der Dienstleister für Informationstechnologie innerhalb der genossenschaftlichen FinanzGruppe. Das Unternehmen beschäftigt...
Vergleich von Hadoop Distributionen – Cloudera vs. Hortonworks


Das Hadoop Framework ermöglicht die verteilte Verwaltung und Berechnung großer Datenmengen mithilfe von Clustern, indem die auszuführenden Transformationen auf die Server verteilt und dort parallel ausgeführt werden. Hadoop und das dazugehörige Ökosystem sind durch die Vielzahl an verknüpften Tools sehr komplex und erfordern deshalb die Entwicklung und Wartung durch Spezialisten. Aus dieser Marktlücke sind einige...
Vergleich der Graphdatenbank Neo4J mit relationalen Datenbanken


Teil I Die fortschreitende Entwicklung in den Bereichen Big Data, Internet of Things, Machine Learning etc. und der Einsatz von entsprechenden Tools in Unternehmen sind nicht mehr wegzudiskutieren. Wird unsere Welt in dem Bereich analytischer Systeme - so wie wir sie kennen - komplett auf den Kopf gestellt? Müssen wir zwangsläufig neue Technologien in diesen...
Data Wrangling mit Trifacta


Die rasante Entwicklung hin zu immer größeren und komplexeren Datenmengen in Unternehmen bringt einige neue Anforderungen an das Verarbeiten dieser Daten mit sich. Bedingt durch die Masse an Daten und die Komplexität der Datenstrukturen, ist die Analyse sowie Bereinigung der Daten ohne leistungsstarke Software Tools häufig nicht mehr möglich. Insbesondere die Strukturierung und Bereinigung nimmt...
Tool-basierte Generierung von Big Data Use Cases


Die Anforderungen verschiedener Unternehmen hinsichtlich Big Data können sich stark unterscheiden. Um die für ein spezifisches Unternehmen erforderlichen Anforderungen möglichst schnell und zuverlässig identifizieren zu können, hat saracus consulting den saracus Big Data Use Case Konfigurator (BDUK) entwickelt. Mithilfe einer Datenbank, die den Zugriff auf über 600 vordefinierte Basis-Use-Cases ermöglicht, kann der Konfigurator die Definition...
Einsatz eines Open Source Clickstream-Collectors


Begriffe wie Customer Experience, Omnichannel Management, Customer Journey, Customer Analytics, Personalisierung und kontextbasierte Kundeninteraktionen stehen bei vielen Unternehmen ganz oben auf der Agenda. Für das Ausspielen von personalisiertem Content in Echtzeit über digitale Kanäle (z.B. zur Steigerung der Conversion-Rate) werden aktuelle Daten über den Interessenten bzw. Kunden benötigt. Dazu gehören z.B. demographische Daten, die bisherige...
Call Center Optimierung durch Speech to Text und Advanced Analytics


Die Zufriedenheit eines Kunden hängt oftmals nicht nur von der Qualität des gekauften Produkts ab, sondern auch vom Service des Anbieters. Ein positives Kundenerlebnis kann darüber entscheiden, ob aus einem zufriedenen Kunden ein loyaler Kunde wird und er sich eventuell sogar zu einem “Botschafter der Marke” entwickelt. In diesem Blog möchten wir Ihnen unsere umgesetzte...
Generische Verarbeitung komplexer XML-Strukturen


Die generische Verarbeitung komplexer XML-Strukturen in einer relationalen Datenbank oder einem Data Lake (auf Hadoop-Basis) ist eine anspruchsvolle Herausforderung für Software-Entwickler. saracus consulting hat seine Data Warehouse Automatisierungs-Software DWautomatic um diese Funktionalität erweitert. An folgendendem Beispiel soll die Funktionalität und Arbeitsweise dargestellt werden. In der Logistikbranche ist das Tracking von Transportsendungen unverzichtbar für das Erreichen...
Big Data Use Cases im Retail Banking


Die Identifizierung und schnelle Umsetzung von Big Data Use Cases entscheidet über den Erfolg von Big Data Initiativen. Business Know-how, die Bereitschaft Geschäftsprozesse vom Kunden her zu denken, analytische und methodische Fähigkeiten, Pragmatismus und Kreativität sind wichtige Faktoren auf dem beschwerlichen Weg der digitalen Transformation. Und nicht zu vergessen, ein bisschen Inspiration. Deshalb möchten wir...
White Paper Benchmark SAP HANA versus Hadoop


Der Einsatz von Hadoop-Technologien ist kostengünstiger als etablierte proprietäre Software-Produkte, aber ist Hadoop auch bei interaktiven SQL-Abfragen eine Option? Die saracus hat einen Benchmark durchgeführt, um die Eignung von Hadoop-Technologien als interaktiver Datenspeicher für SAP-Daten zu prüfen; anstatt die Daten in SAP HANA, Sybase IQ, DB2 oder Oracle abzulegen.
White Paper Generische Datenbewirtschaftung


Dieses White Paper zeigt die Vor- und Nachteile von generischen Ansätzen und erklärt Wege, die Einsatzmöglichkeiten von generischen Prozessen zu prüfen. Ein modernes ETL Umfeld wird aktuell unter anderem durch Begriffe wie Standardisierung, Automatisierung, integrierte Metadaten oder generische Prozesse geprägt. All diese Ansätze sind Teile vom Agilen Data Warehousing. Mittels generischer Prozesse und dem Ansatz...
White Paper Data Science – Wissen schaffen mit Technologie und Talent


In diesem White Paper erfahren Sie, wie Big Data Technologie zu diesen Zweck sinnvoll eingesetzt werden kann und wie die Datenauswertung und -veredelung gelingt. Seit vielen Jahren ist in den meisten Unternehmen klar, dass einer ihrer wichtigen Rohstoffe die eigenen Daten sind. Mit der fortschreitenden Digitalisierung und mit Big Data Technologie wurde nun etwas möglich,...
Success Story Bundesamt für Landwirtschaft (BLW) -Vereinheitlichung von Auswertungsprozessen


Zentrale Maßgabe war es, ein Data Warehouse aufzubauen, in dem sukzessive sämtliche landwirtschaftlichen Themen der Schweiz aufgenommen und integriert werden können. Wichtige Aspekte, die dabei berücksichtigt werden sollten: • Aufbau einer einheitlichen Business-Intelligence-Kompetenz im Bundesamt für Landwirtschaft • Vereinfachung und Automatisierung der bestehenden Aufbereitungs- und Reportingprozessen • Ablösung von manuell erstellten SQL-basierten Auswertungen durch eine...
Success Story Suva – Quelldatenmigration


Nach mehr als 20 Jahren musste ein neues Schaden- und Prämiensystem eingeführt werden. Mit diesem Umstieg von dem selbstentwickelten, auf Cobol basierendem Versicherungssystem auf eine für die Suva erweiterte Branchenlösung (AdCubum Syrius) änderte sich für das DWH das Datenfundament grundlegend. Das DWH musste auf die neuen Voraussetzungen mit der folgenden Zielsetzung angepasst werden: • Migration...
Success Story Knappschaft Bahn See – Einführung eines Data Warehouse


Primäre Zielsetzung des Data Warehouse ist der Aufbau einer konsolidierten Datenbasis für controllingrelevante Fragestellungen im Sinne einer ‚single-source-of-truth’. Während hierbei zunächst der Bereich der Krankenversicherung Priorität hatte, ist in einem weiteren Schritt die unternehmensweite Ausdehnung geplant. Die aufgebauten Datenmodelle decken die heutigen und zukünftigen Analyse- und Reporting-Bedürfnisse der Knappschaft ab und stellen aussagekräftige, aktuelle und...