In gro­ßen Unter­neh­men exis­tiert oft eine Viel­zahl von Daten­ban­ken in ver­schie­de­nen Sys­te­men. Leicht ver­liert man den Über­blick, wel­che Infor­ma­tion an wel­cher Stelle gespei­chert und wie sie zu inter­pre­tie­ren ist. Meta­da­ten­ka­ta­loge kön­nen hel­fen, die Struk­tur der gespei­cher­ten Daten zu doku­men­tie­ren und sie den rich­ti­gen Enti­tä­ten zuzuordnen.

In die­sem und dem kom­men­den Blog­bei­trag stel­len wir zwei kon­krete Imple­men­tie­run­gen von Daten­ka­ta­lo­gen vor.

Ala­tion: Ein Überblick

“The First Data Cata­log Desi­gned For Col­la­bo­ra­tion” heißt es auf der Web­site der kali­for­ni­schen Firma Ala­tion in Bezug auf ihr gleich­na­mi­ges Pro­dukt. In der Tat sind die Mög­lich­kei­ten zur Zusam­men­ar­beit stark aus­ge­prägt, aber dazu spä­ter mehr.

Die Instal­la­tion gestal­tet sich rela­tiv ein­fach als RPM-Paket, mit weni­gen Kom­man­do­zei­len­be­feh­len und einem kur­zen Wizard im Brow­ser. Falls man Ala­tion nicht an ein LDAP ange­schlos­sen hat, erstellt sich jeder Nut­zer ein­fach selbst sei­nen Account – dies gilt ins­be­son­dere auch für das erste Admi­nis­tra­tor­konto. Wem das zu offen ist, kon­fi­gu­riert ein­fach für alle wei­te­ren User die manu­elle Frei­schal­tung durch den Admin.

Die Start­seite ent­hält auf einem Blick ver­schie­dene rele­vante Infor­ma­tio­nen, die von der aktu­el­len Kopf­be­de­ckung des Benut­zers abhän­gen – denn Ala­tion kennt ein Kon­zept namens “Hats” (Hüte). Wer sich als Analyst/Data Sci­en­tist aus­gibt, bekommt einen Link zum “Compose”-Tool, mit dem Queries für die ange­schlos­se­nen Daten­bank­sys­teme erstellt wer­den kön­nen, sowie eine Über­sicht über die letz­ten erstell­ten Abfra­gen. Data Stewards/Governance Offi­ci­ers dage­gen sehen das Gover­nance Dash­board, mit dem sie abschät­zen kön­nen, wie gut die Daten bis­her doku­men­tiert sind. Beide Grup­pen sehen im unte­ren Bereich spe­zi­elle Arti­kel, die mit wich­ti­gen Infor­ma­tio­nen und Anlei­tun­gen gefüllt wer­den können.

Der Alation Data Catalog Bild1
Abbil­dung 1 Die Start­seite als Analyst…
Der Alation Data Catalog Bild2
Abbil­dung 2 … und mit dem Data-Steward-Hut

Unab­hän­gig vom Hut ent­hält die linke Seite eine Über­sicht über die ange­bun­de­nen Quel­len und ein Such­feld. Wer meint, falsch ange­zo­gen zu sein, kann sei­nen Hut im Menü oben rechts jeder­zeit wech­seln – außer der Admin hat diese Funk­tion deaktiviert.

Kol­la­bo­ra­tion
Der Alation Data Catalog Bild3
Abbil­dung 3 Fra­gen an Kol­le­gen stellen

An diver­sen Stel­len des Web­in­ter­faces befin­den sich kleine “i”-Symbole. Hier kann man sich auf unge­wohnt per­sön­li­che Weise Hilfe holen – indem man ein­fach einen Kol­le­gen fragt. Ala­tion ist hier­bei mit einer Intel­li­genz aus­ge­stat­tet, die auto­ma­tisch pas­sende Nut­zer vorschlägt.

Möchte man lie­ber eine offe­nere Dis­kus­sion ansto­ßen, kann man dies mit dem “Conversations”-Feature machen. Ein­träge hier sind für alle Inter­es­sier­ten bestimmt und kön­nen direkt beant­wor­tet und dis­ku­tiert werden.

Quel­len anbinden

Auf obers­ter Ebene der Kata­log­hier­ar­chie ste­hen die Daten­quel­len. Ala­tion unter­schei­det hier­bei zwi­schen “ech­ten” und vir­tu­el­len Quel­len; echte Quel­len sind tat­säch­lich mit dem jewei­li­gen Sys­tem ver­bun­den, was es Ala­tion unter ande­rem erlaubt, Meta­da­ten selbst­stän­dig aus­zu­le­sen. Vir­tu­elle Quel­len hin­ge­gen ste­hen stell­ver­tre­tend für ein nicht ange­schlos­se­nes Sys­tem, des­sen Meta­da­ten auf andere Weise zu Ala­tion hin­zu­ge­fügt wer­den kön­nen, wie dem Import von .csv-Dateien oder der REST-API.

Out-of-the-Box sind Anbin­dun­gen zu eini­gen Daten­bank­sys­te­men und BI-Ser­vern ent­hal­ten; nicht direkt unter­stützte Sys­teme kön­nen unter Umstän­den trotz­dem ange­bun­den wer­den, wenn man einen dazu pas­sen­den JDBC-Trei­ber hat.

Eine Beson­der­heit von Ala­tion stellt die Query Log Inges­tion dar. Wenn die Daten­bank ein Query Log führt, kann Ala­tion dies ana­ly­sie­ren und Lineage-Infor­ma­tio­nen aus den Queries extra­hie­ren, oder auch den Nut­zern anzei­gen, wel­che Queries beson­ders beliebt sind.

Meta­da­ten­ka­ta­loge cachen in der Regel die Struk­tur der ange­schlos­se­nen Sys­teme, um sie ohne Ver­zö­ge­rung durch­such­bar zu machen. Damit die ange­zeig­ten Infor­ma­tio­nen trotz­dem aktu­ell sind, lässt sich das Aus­le­sen der Meta­da­ten und auch die Query Log Inges­tion nach Zeit­plan wiederholen.

Den Kata­log durchsuchen
Der Alation Data Catalog Bild4
Abbil­dung 4 Die erwei­terte Suche

Der Such­funk­tion kommt in jedem Daten­ka­ta­log eine hohe Bedeu­tung zu – wer vor­her schon genau weiß, wel­che Infor­ma­tion er wo fin­det, wird ihn womög­lich gar nicht erst kon­sul­tie­ren! Ala­tion bie­tet jeder­zeit direk­ten Zugriff auf das Such­feld auf der lin­ken Seite. Wer sich ein­fach nur mal die Struk­tur anse­hen möchte, kann sich auch durch die Hier­ar­chie klicken.

Wenn die ein­fa­che Suche nicht aus­reicht, bie­tet die erwei­terte Suche mehr Optio­nen. Hier kann man die Suche auf bestimmte Objekt­ar­ten oder Werte von Cus­tom Fields begrenzen.

Auf die Daten­ban­ken zugrei­fen mit Compose
Der Alation Data Catalog Bild5
Abbil­dung 5 Queries kann man für sich selbst und andere spei­chern und veröffentlichen

Eine wesent­li­che Ziel­gruppe des Kata­logs sind Ent­wick­ler und Ana­lys­ten, die die Meta­da­ten durch­su­chen um Daten­bank­queries schrei­ben zu kön­nen. Mit dem Com­pose-Tool lässt sich dies direkt mit Unter­stüt­zung von Ala­tion tun. Der Edi­tor bie­tet Auto-Com­ple­tion und kann direkt eine Vor­schau auf die Struk­tur des ver­wen­de­ten Objekts geben. Queries kön­nen direkt aus­ge­führt und ihre Ergeb­nisse ange­zeigt wer­den. Ist die Abfrage auch für Kol­le­gen nütz­lich, so kann man sie mit einem Klick auf “Publish” für andere Nut­zer sicht­bar machen – so muss nie­mand das Rad neu erfin­den. Natür­lich ist es auch mög­lich, unnütz­li­che Queries zu veröffentlichen…

Arti­kel und Busi­ness Glossaries

Mit Hilfe von Arti­keln kann man unter ande­rem eine Busi­ness Taxo­no­mie anle­gen, aber auch die Start­sei­ten für ver­schie­dene Hut­trä­ger anpas­sen. Hier­bei ergibt sich eine Hier­ar­chie, wenn man den Arti­keln jeweils Ihren Eltern­ar­ti­kel im ent­spre­chen­den Feld zuord­net. Arti­kel kön­nen aber auch über die Suche gefun­den oder links in der Sei­ten­leiste als Baum ange­zeigt werden.

Es exis­tie­ren ver­schie­dene Mög­lich­kei­ten, Arti­kel und Objekte des Daten­ka­ta­logs mit­ein­an­der zu ver­knüp­fen. Sehr bequem ist die Ein­gabe eines @ gefolgt vom Objekt­na­men im Arti­kel­text – Ala­tion unter­stützt den Autor hier­bei durch Vor­schläge aus der Suche. Eine aus­klapp­bare Vor­schau auf das ver­linkte Objekt wird direkt in den Arti­kel ein­ge­fügt, und umge­kehrt sieht man auf der Seite des Objekts unter der Über­schrift “rele­vant artic­les” alle Arti­kel, von denen auf das Objekt gelinkt wird.

Eine wei­tere Mög­lich­keit ist die Ver­knüp­fung über Cus­tom Fields, wei­ter unten dazu mehr.

Lineage
Der Alation Data Catalog Bild6
Abbil­dung 6 Lineage in Ala­tion zeigt Bezie­hun­gen auf Tabel­len-Ebene. Zu jeder Ver­bin­dungs­li­nie kann ein zuge­hö­ri­ges Query ange­ge­ben werden.

Ala­tion kann Lineage auf Tabel­len­ebene als Graph dar­stel­len. Dazu klickt man von der Tabelle aus ein­fach auf das Lineage-Tab. Ein Klick auf eine der dar­ge­stell­ten Tabel­len zeigt eine Über­sicht über ihre Struk­tur, und ein Klick auf die ver­bin­dende Kante zeigt ein dazu­ge­hö­ri­ges Query oder einen Kommentar.

Woher kom­men die Lineage-Infor­ma­tio­nen? Wird eine Daten­quelle direkt ange­schlos­sen, so kann Ala­tion aus der Defi­ni­tion von Views und aus SQL-State­ments aus der Query-Log-Inges­tion selbst­stän­dig auf Lineage schlie­ßen. Davon abge­se­hen las­sen sich die Infor­ma­tio­nen aber auch über die REST-API ein­pfle­gen, was sich z.B. gut in ETL-Scripte inte­grie­ren lässt.

Cus­tom Fields

Cus­tom Fields bie­ten eine Mög­lich­keit, den Kata­log an die eige­nen Bedürf­nisse anzu­pas­sen. Die Fel­der las­sen sich ver­schie­de­nen Objek­ten zuord­nen, und sie kön­nen ver­schie­den­ar­tige Infor­ma­tio­nen ent­hal­ten – dar­un­ter Frei­text, fest ein­ge­stellte Aus­wahl­mög­lich­kei­ten, oder auch Ver­lin­kun­gen auf andere Objekte. Die Fel­der wer­den nicht nur beim jewei­li­gen Objekt ange­zeigt, son­dern las­sen sich auch in der erwei­ter­ten Suche verwenden.

Wei­tere Zugriffsmöglichkeiten

Neben dem Web­in­ter­face exis­tie­ren noch zwei andere Schnitt­stel­len zu Ala­tion, die ver­schie­dene Auf­ga­ben erfüllen.

Die Ala­tion-Shell dient vor allem der Administration.

Die REST-API bie­tet pro­gram­ma­ti­schen Zugriff auf den Daten­ka­ta­log an sich. Über diese las­sen sich viele Auf­ga­ben auto­ma­ti­sie­ren, bei­spiels­weise könnte man hier­über eine vor­han­dene Samm­lung an Arti­keln (oder Busi­ness-Terms) in kur­zer Zeit impor­tie­ren, statt sie ein­zeln im Web­in­ter­face ein­zu­ge­ben. Meta­da­ten zu vir­tu­el­len Quel­len las­sen sich eben­falls hoch­la­den. Umge­kehrt las­sen sich über diese Schnitt­stelle auch Daten aus­le­sen, um sie in ande­ren Tools wie z.B. dem saracus Visual Meta­data Layer zu verwenden.

Fazit

Ala­tion ermög­licht die Kata­lo­gi­sie­rung der im Unter­neh­men vor­han­de­nen Daten und bie­tet dabei viel­fäl­tige Mög­lich­kei­ten, sie um Infor­ma­tio­nen zu ergän­zen und zu durch­su­chen. Beson­ders her­vor­zu­he­ben sind hier­bei die Query Log Inges­tion, das Com­pose Tool und die Kol­la­bo­ra­ti­ons­mög­lich­kei­ten. Die Pflege des Kata­logs wird so zu einer Gemeinschaftsaufgabe.

Durch geschickte Nut­zung der REST-API lässt sich Ala­tion erwei­tern. So kön­nen Freunde von inter­es­san­ten Visua­li­sie­run­gen mit SVML eine ganz neue Sicht auf ihre Daten bekommen.