Data Warehousing mit saracus


Der Begriff Data Warehouse wird in Theorie und Praxis unterschiedlich definiert.

Weit gefasste Definitionen beziehen Applikationen aus den Bereichen BI und CPM, d.h. Analysen, Reports, Dashboards etc. mit ein, engere Begriffsbestimmungen wiederum beschränken sich auf Themen der Datenintegration und Informationslogistik, die unter der Abkürzung ETL subsumiert werden. saracus folgt der engeren Definition und erweitert diese jedoch um alle Aspekte, die mit Datenhaltungs- und Datenintegrationsthemen in Projekten eng in Verbindung stehen. Hierzu zählen das Projektvorgehen sowie alle Themen, die die Integration, Konsolidierung und Prüfung von Daten beinhalten.

 

Vision, Strategie & Architektur

Die Data Warehouse Vision und die darauf abgeleitete Strategie bildet die allgemeine Grundlage für die Durchführung eines DWH-Programms oder einzelner Projekte. Sie definiert die Zielsetzung und die kritischen Erfolgsfaktoren, beschreibt die allgemeine Architektur des Data Warehouse und fixiert Ablauf sowie Struktur aus organisatorischer Sicht. Sie muss offen, flexibel und skalierbar die heute noch nicht bekannten Anforderungen der Zukunft abdecken können ebenso wie neue Technologien wie beispielsweise In-Memory-Technologien berücksichtigen.

 

Informationslogistik und ETL

Die Informationslogistik beschreibt die Überführung von operativen Unternehmensdaten aus ERP- bzw. OLTP-Systemen in entscheidungsrelevante Informationen aus einer logischen Sicht, was unter der Bezeichnung Extraktion/Transformation/Load oder kurz ETL bekannt ist. Die technische Umsetzbarkeit erfolgt mittels Programmierung, z.B. in SQL-, Shell- und Java-Code oder vieler unterschiedlicher ETL-Werkzeuge von diversen Software-Herstellern.

 

Anwendungen

Das Data Warehouse bildet die Basis für eine Vielzahl unterschiedlicher Anwendungen, sowohl BI-Applikationen wie auch Logistik-Anwendungen im Sinne von Daten-Drehscheiben. Während in der Historie primär die Nutzung zur Datenanalyse und Planung im Vordergrund stand, werden DWH-Systeme in letzter Zeit auch vermehrt zur Verteilung von Daten an andere nachgelagerte IT-Systeme eingesetzt. Dieses führt zur Erweiterung des klassischen Data Warehouse-Gedankens hin zu einer umfassenden Integrationsarchitektur.

 

Datenqualität, Stammdaten- & Metadatenmanagement

Datenqualität ist für jedes Unternehmen wichtig, aber die wenigsten haben entsprechende Maßnahmen und Verfahren implementiert, um eine angemessene Datenqualität sicherzustellen. Unscharfe Daten führen zu erhöhten Kosten oder falschen Entscheidungen und insbesondere zum Misstrauen auf Anwendungsseite. Daher sind die Themen Datenqualität und Data Warehouse untrennbar miteinander verbunden. Stamm- und Metadaten spielen in Data Warehouse-Projekten eine wichtige, nicht zu unterschätzende Rolle. Das Stammdatenmanagement stellt hierbei die Konsistenz unternehmensübergreifender Informationen bezüglich der Anwendungsdimensionalitäten sicher.