Das anstei­gende Daten­vo­lu­men und die Kom­ple­xi­tät der zu ver­ar­bei­te­ten Daten­struk­tu­ren in gro­ßen Unter­neh­men erfor­dert nicht nur häu­fig den Ein­satz neuer Tools aus dem Big Data Bereich, son­dern auch ein Umden­ken im Daten­ma­nage­ment (Data Gover­nance). Dies umfasst bei­spiels­weise die Siche­rung der Kon­sis­tenz der Daten, die Erhal­tung der Daten­qua­li­tät, Pflege der Stamm­da­ten und die Ein­hal­tung gesetz­li­cher Vor­ga­ben und sicher­heits­re­le­van­ter Stan­dards. Der Schlüs­sel dazu ist die kon­sis­tente Hal­tung von Meta­da­ten, die durch Meta­da­ten­ka­ta­lo­gen wie Ala­tion oder dem Infor­ma­tica Enter­prise Data Cata­log erleich­tert wird. Neben dem klas­si­schen ana­ly­ti­schen Anwen­dungs­ge­biet zum Auf­fin­den rele­van­ter Daten für BI-Reports und Machine Lear­ning Modelle nimmt der Daten­ka­ta­log im Zusam­men­hang mit dem Thema Data Gover­nance also auch eine zen­trale stra­te­gi­sche Rolle in vie­len Unter­neh­men ein.

In die­sem Blog­bei­trag wird ein von saracus ent­wi­ckel­tes Meta­da­ten­tool mit dem Namen SVML (saracus Visual Meta­data Layer) vor­ge­stellt, das typi­sche Daten­ka­ta­loge durch neue Fea­tures im Bereich Ana­lyse und Visua­li­sie­rung ergänzt und so Unter­neh­men hilft, die neuen Anfor­de­run­gen in Bezug auf die Nut­zung von Meta­da­ten für ver­schie­dene Nut­zer­grup­pen abzudecken.

Zu den wesent­li­chen Fea­tures die­ses Tools gehört die Visua­li­sie­rung einer Daten­land­karte, die es Busi­ness-Nut­zern ein­fach erlaubt einen Zusam­men­hang zwi­schen fach­li­chen Begrif­fen (Busi­ness-Glos­sar, Taxo­no­mie, Busi­ness Terms) und den tech­ni­schen Daten­ob­jek­ten zu erschlie­ßen. Dies erleich­tert den Ein­blick in die Struk­tur der Meta­da­ten ohne tie­fer­ge­hen­des Ver­ständ­nis der zugrun­de­lie­gen­den tech­ni­schen Details der Daten­hal­tung. Es las­sen sich Fra­gen beant­wor­ten wie: Wel­che Daten im Zusam­men­hang mit einem bestimm­ten Pro­dukt oder einer bestimm­ten Sparte wei­sen eine geringe Daten­qua­li­tät auf oder erfor­dern Ein­griffe in Bezug auf GDPR Com­pli­ance? Wei­ter­hin erlaubt das vor­ge­stellte Tool eine tief­ge­hende Ana­lyse der Meta­da­ten mit der Berech­nung von Meta­da­ten-Aggre­ga­tio­nen und der Berech­nung von Statistiken.

Backend

Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML) Bild1
Abbil­dung 1 Auf­bau des Tools 

Im Fol­gen­den wird ein tech­ni­scher Über­blick über die Grund­züge der Archi­tek­tur des Tools gege­ben. Abbil­dung 1 zeigt den Auf­bau des Tools. Zunächst wird eine Busi­ness-Taxo­no­mie in der Neo4J Graph­da­ten­bank hin­ter­legt. Zusätz­lich wer­den die Ver­knüp­fun­gen zu den tech­ni­schen Daten­ob­jek­ten im Daten­ka­ta­log her­ge­stellt. In die­sem Bei­spiel kommt der Daten­ka­ta­log Ala­tion zum Ein­satz. Wei­tere Meta­da­ten­ka­ta­loge kön­nen durch Imple­men­tie­rung ent­spre­chen­der Schnitt­stel­len bei Bedarf ange­bun­den werden.

Über einen RESTful Web­ser­vice kann der Nut­zer auf das von saracus mit dem Spring Boot Frame­work ent­wi­ckelte Backend zugrei­fen. Die­ses ermög­licht mit dem Taxo­nomy Mana­ger das pro­gram­ma­ti­sche Ein­le­sen einer Busi­ness-Taxo­no­mie in die Graph­da­ten­bank. Die API ist mit dem Open-Source-Soft­ware-Frame­work Open­API doku­men­tiert, wel­ches die pro­gram­ma­ti­sche Ein­bin­dung der API ver­ein­facht. Mit Swag­ger Code­gen kann bei­spiels­weise Cli­ent Code zur Ein­bin­dung der API auto­ma­tisch erzeugt wer­den. Auf diese Weise kann eine Viel­zahl an Quel­len ange­bun­den werden.

Der Daten­ka­ta­log dient als zen­tra­les Ver­zeich­nis für Daten, die von einem Unter­neh­men gespei­chert wer­den. Meta­da­ten, wel­che im Kata­log hin­ter­legt sind, kön­nen als Daten­trans­fer­ob­jekte über die spe­zi­fi­sche API des Kata­logs abge­fragt wer­den. Im Backend wer­den diese Daten wei­ter­ver­ar­bei­tet und bei­spiels­weise in agg­re­gier­ter Form über die REST API für das Front­end ver­füg­bar gemacht. Ein Sche­du­ler und Cache kom­men zum Ein­satz um dabei die Belas­tung für den Daten­ka­ta­log zu minimieren.

Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML) Bild2
Abbil­dung 2 Daten in Neo4J und Alation

Wie in Abbil­dung 2 dar­ge­stellt, exis­tiert nun eine Busi­ness Taxo­no­mie in der Graph­da­ten­bank. Um diese mit den Meta­da­ten-Objek­ten im Daten­ka­ta­log zu ver­bin­den, kom­men Tags zum Ein­satz. Im Daten­ka­ta­log kön­nen diese Tags direkt über das User­in­ter­face ein­ge­tra­gen wer­den. Der Tag Scan­ner des Spring Backends durch­sucht den Daten­ka­ta­log nach den Tags aus der Busi­ness Taxo­no­mie und ord­net den Taxo­no­mie-Ele­men­ten dar­auf­hin kon­krete Meta­da­ten-Objekte aus dem Daten­ka­ta­log zu. Eine Ver­an­schau­li­chung dazu fin­det sich in Abbil­dung 3.

Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML) Bild3
Abbil­dung 3 Zuord­nung über Tags

Nun kön­nen alle wei­te­ren Kenn­grö­ßen der Meta­da­ten­ob­jekte aus dem Meta­da­ten­ka­ta­log abge­ru­fen wer­den, dies umfasst bei­spiels­weise tech­ni­sche Meta­da­ten, fach­li­che Meta­da­ten, Bewer­tun­gen, Nut­zungs­sta­tis­ti­ken oder Queries. Alle diese Infor­ma­tio­nen kön­nen für die Ana­lyse und Visua­li­sie­rung im Front­end vor­be­rei­tet wer­den. Ein Bei­spiel für die Berech­nung einer Aggre­ga­tion ist in Abbil­dung 4 dargestellt.

Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML) Bild4
Abbil­dung 4 Berech­nung von Aggregationen

Front­end

Im Front­end wird dem End­nut­zer eine inter­ak­tive Visua­li­sie­rung ange­zeigt, wel­che die Busi­ness Taxo­no­mie struk­tu­riert dar­stellt und eine Ver­lin­kung zu den kon­kre­ten Daten­ele­men­ten im Daten­ka­ta­log zur Ver­fü­gung stellt.

Tech­nisch basiert das Front­end auf der Java­Script-Soft­ware­bi­blio­thek React, wel­che für die Visua­li­sie­rungs­kom­po­nen­ten durch Biblio­the­ken wie Pixi.js und D3.js ergänzt wird. Dies stellt eine gute Per­for­mance und auch eine Ska­lier­bar­keit auf große Busi­ness-Taxo­no­mien sicher.

Zur Visua­li­sie­rung kann eine soge­nannte hier­ar­chi­sche Voronoi-Map gewählt. Dabei han­delt es sich um eine Art der Dar­stel­lung, die opti­mal den zur Ver­fü­gung ste­hen­den Platz aus­nutzt und opti­mal zur Navi­ga­tion geeig­net ist.

Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML) Bild5
Abbil­dung 5 Voronoi Map

Die nume­ri­schen Werte der Meta­da­ten kön­nen über die Größe der Ele­mente und die Farbe kodiert wer­den (Abbil­dun­gen 6–7). Neben der Voronoi-Map kön­nen auch wei­tere Gra­phik­ty­pen wie Chord-Dia­gramme ver­wen­det werden.

Wei­tere Ana­ly­se­mög­lich­kei­ten wie die Berech­nung von Sta­tis­ti­ken und Aggre­ga­tio­nen kön­nen leicht in die Visua­li­sie­run­gen inte­griert wer­den. In den Abbil­dun­gen 6 und 7 erfolgt dies bei­spiels­weise über eine farb­ko­dierte Dar­stel­lung der agg­re­gier­ten Daten­qua­li­tät. Die­ses Kon­zept kann auf belie­bige nume­ri­sche fach­li­che und tech­ni­sche Meta­da­ten erwei­tert wer­den und ist über das Front­end kon­fi­gu­rier­bar. Auf diese Weise kön­nen Berei­che der Taxo­no­mie iden­ti­fi­ziert wer­den, wel­che bestimm­ten Bedin­gun­gen genü­gen wie z.B. häu­fige Nut­zung der Daten, feh­lende Aktua­li­tät der Daten oder schlechte Datenqualität.

Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML) Bild6
Abbil­dung 6 Oberste Ebene Voronoi Map
Visualisierung einer Metadatenlandkarte mit dem saracus Visual Metadata Layer (SVML) Bild7
Abbil­dung 7 Voronoi Map nach Klick auf ‚Pro­duct & Portfolio‘

Zusam­men­fas­send soll die Visua­li­sie­rungs­kom­po­nente es ermög­li­chen, einen Zusam­men­hang zwi­schen der fach­li­chen Ebene (Busi­ness­ta­xo­no­mie, Glos­sar) und den Meta­da­ten zu erschlie­ßen und kon­krete meta­da­ten­be­zo­ge­nen Fra­ge­stel­lun­gen zu beant­wor­ten. Die Visua­li­sie­rung wird durch kom­plexe Ana­ly­se­mög­lich­kei­ten erwei­tert, die einen zusam­men­fas­sen­den Ein­blick in die gesamte Struk­tur der Meta­da­ten eines Unter­neh­mens ermög­li­chen und damit auch den Weg zu einem Infor­ma­tion Value Manage­ment (Info­no­mics) ebnen.