Texte, ob geschrie­ben oder gespro­chen, sind im Ver­gleich zu den übli­chen Daten­struk­tu­ren, wel­che bei der Daten­ver­ar­bei­tung Ver­wen­dung fin­den, sehr unstruk­tu­riert, ent­hal­ten aber meist doch eine Menge Infor­ma­tion. Gerade bei län­ge­ren und umfang­rei­che­ren Tex­ten möchte man die Infor­ma­tio­nen auto­ma­ti­siert extra­hie­ren. Aber auch bei vie­len klei­nen Tex­ten ist eine auto­ma­ti­sierte Infor­ma­ti­ons­extrak­tion sinn­voll, so kön­nen z.B. Unter­la­gen für ver­schie­dene Sach­be­ar­bei­ter vor­sor­tiert wer­den. Auch im Bereich der smar­ten Assis­ten­ten gibt es einen sich immer ste­tig stei­gen­den Bedarf an der Infor­ma­ti­ons­extrak­tion aus gespro­che­nen Texten.

Überblick über Text-Mining und Informationsextraktion Bild1
Abbil­dung 1 Das Fluss­dia­gramm zeigt eine typi­sche Vor­ge­hens­weise bei der syn­tak­ti­schen und seman­ti­schen Analyse.

Metho­di­sche Vorgehensweise

Um Infor­ma­tio­nen aus unstruk­tu­rier­ten Tex­ten zu extra­hie­ren unter­schei­det man die Ana­lyse in zwei Berei­che, die “syn­tak­ti­sche” und die “seman­ti­sche” Ana­lyse (vgl. Abb. 1). Für die syn­tak­ti­sche Ana­lyse wird der Text, bzw. der soge­nannte Text­kor­pus, zunächst toke­ni­siert. Inter­punk­tion und Leer­zei­chen die­nen in vie­len west­li­chen Spra­chen dazu, Wör­ter (und damit auch kleinst­mög­li­che Sinn­ein­hei­ten) abzu­gren­zen, wer­den aller­dings in vie­len asia­ti­schen Spra­chen z.B. so nicht ver­wen­det und auch im Deut­schen gibt es das Phä­no­men zusam­men­ge­setz­ter Wör­ter. Als Token wer­den aber nicht nur Wör­ter / Begriffe (terms) benutzt, auch eine Folge von Wör­tern (con­cepts) bis hin zu gan­zen Absät­zen kann als Token in Frage kom­men. Die Idee beim Toke­ni­sie­ren ist es, die Stärke der seman­ti­schen Bedeu­tung zu erhö­hen. Ein lan­ger Abschnitt von Text (bspw. der erste Abschnitt von Gene­sis) kann eine höhere seman­ti­sche Bedeu­tung haben als die darin ent­hal­te­nen Wör­ter, da diese den spe­zi­el­len Kon­text nicht trans­por­tie­ren. Ein wei­te­res Hilfs­mit­tel, das beim Toke­ni­sie­ren übli­cher­weise aus­ge­führt wird, ist das Lem­ma­ti­sie­ren. Dabei wer­den Wör­ter in ihre Grund­for­men redu­ziert, bei Nomen z.B. in den Sin­gu­lar. Auch die Phä­no­mene von Poly­se­mie (Mehr­deu­tig­keit von Wör­tern) und Syn­ony­mie (Gleich­be­deu­tung ver­schie­de­ner Wör­ter) wer­den an die­ser Stelle ange­gan­gen und in ein­deu­tige Lemma auf­ge­löst. Je nach Ana­ly­se­art kann es auch not­wen­dig sein, dass Sätze und Abschnitte durch ein “Part of Speech” tag­ging (dt.: Wort­art) lin­gu­is­tisch klas­si­fi­ziert wer­den müs­sen. Für klas­si­sches Text­mi­ning ist dies nicht not­wen­di­ger­weise erfor­der­lich, sog. POS-tag­ging gewinnt aber im Umfeld moder­ner Ansät­zen zur Infor­ma­ti­ons­extrak­tion und der Sprach­er­ken­nung durch Com­pu­ter zuneh­mend an Bedeutung.

Zur Lösung der meis­ten oben genann­ten Pro­bleme kön­nen digi­tale Wör­ter­bü­cher ver­wen­det wer­den, aber auch sta­tis­ti­sche Ver­fah­ren kön­nen zur Lösung bei­tra­gen. In der Pra­xis wer­den oft Hybrid­ver­fah­ren ver­wen­det. Die Lem­ma­ti­sie­rung von Wör­tern kann über Lexika ebenso erfol­gen wie über soge­nannte Stem­ming-Algo­rith­men. Wohin­ge­gen die Lem­ma­ti­sie­rung der Wör­ter über ein Lexi­kon i.d.R. sehr feh­ler­frei läuft, berück­sich­ti­gen Algo­rith­men den Wort­stamm manch­mal falsch und lie­fern fal­sche Stamm­for­men. Sta­tis­ti­sche Algo­rith­men bie­ten aber den Vor­teil Lemma sofort mit einer Fre­quenz zu ver­se­hen. Wenn der Text die Wör­ter “gehen”, “gegan­gen”, “weg­ge­gan­gen”, “gin­gen” ent­hält, wird spä­ter nur das Wort “gehen” berück­sich­tigt, aber mit einer Fre­quenz von 4. Dies kann ins­be­son­dere bei rela­tiv klei­nen Text­kor­pora zu bes­se­ren Ergeb­nis­sen füh­ren. Um der Mehr- und Dop­pel­deu­tig­keit von Wör­tern zu begeg­nen, müs­sen in der Regel The­sauri benutzt wer­den, die z.T. aber auch erst The­men- und Anwen­dungs­spe­zi­fisch erstellt wer­den müs­sen. Stopp­wör­ter­bü­cher ent­fer­nen Wör­ter aus dem Text­kor­pus, denen keine oder nur geringe Aus­sa­ge­kraft zuge­ord­net wer­den kön­nen, wie z.B Arti­kel oder aber auch häu­fig ver­wen­dete Nomen, die in jedem spe­zi­fi­schen Fall vari­ie­ren kön­nen. So würde bspw. das Lemma “DAX” bei der Aufbereitung aller Wirt­schafts­ar­ti­kel des letz­ten Jah­res keine nen­nens­werte Infor­ma­tion über­tra­gen, bei der Aus­wer­tung der Bericht­erstat­tung über eine ein­zige Firma aber mög­li­cher­weise schon – näm­lich, wenn die Firma im ver­gan­ge­nen Jahr einen Bör­sen­gang hin­ter sich hat und in eben jenem Akti­en­in­dex gelis­tet wird.

Überblick über Text-Mining und Informationsextraktion Bild2
Abbil­dung 2 POS-getagg­ter Satz in Baum­struk­tur. Das POS-tag­ging erfolgte mit Google SyntaxNet

Das Part-of-Speech Tag­ging wurde zuneh­mend durch die Com­pu­ter­lin­gu­is­tik auto­ma­ti­siert, wobei Metho­den des über­wach­ten maschi­nel­len Ler­nens und des unüber­wach­ten maschi­nel­len Ler­nens benutzt wer­den. Das Vor­ge­hen ist hier, den Satz mit­tels einer Baum­struk­tur um das Haupt­verb herum zu ent­wi­ckeln (vgl. Abb. 2). Ist das Verb iden­ti­fi­ziert, folgt damit direkt, dass sich links und rechts davon “Nomens­phra­sen” (Noun­phra­ses, NP) befin­den. Im nächs­ten Schritt kön­nen die Äste links und rechts wei­ter ent­wi­ckelt wer­den und fei­ner in Nomen, Adjek­tive, Arti­kel, etc. unter­teilt wer­den. Die kann auch die Lem­ma­ti­sie­rung unter­stüt­zen. So gibt es den Fall, dass ein Wort sowohl als Nomen als auch als Verb benutzt wer­den kann, aber bei der Lem­ma­ti­sie­rung kann dies einen Unter­schied aus­ma­chen. Beim über­wach­ten Ler­nen wer­den z.B. Hid­den-Mar­kov-Modelle oder Ent­schei­dungs­bäume benutzt. Ein vor­ge­fer­tig­ter Trai­nings­kor­pus mit ent­spre­chen­den Labels wird benutzt um dem Algo­rith­mus das Auf­tre­ten einer bestimm­ten Wort­art in einem über­schau­ba­ren Kor­pus zu demons­trie­ren. Nach­dem das Ler­nen abge­schlos­sen ist, kann der Algo­rith­mus auch Wort­ar­ten in neuen Tex­ten erken­nen. Mathe­ma­tisch funk­tio­niert dies so, dass die Wahr­schein­lich­kei­ten von bestimm­ten Tag-Fol­gen berech­net wer­den. Bei einem neuen, dem Algo­rith­mus unbe­kann­ten Satz, sind einige Tags aus den Trai­nings­da­ten bekannt – dem Algo­rith­mus unbe­kannte Wör­ter wer­den nach der Wahr­schein­lich­keit getaggt. Beim unüber­wach­ten Ler­nen steht das Tagset nicht vor­her fest, son­dern es ent­steht durch sto­chas­ti­sche Ver­fah­ren aus den zu tag­gen­den Sät­zen selbst. Einen steht häu­fig nach lesen oder liest oder häu­fig am Satz­ende. Den steht häu­fig nach liest oder lese aber nie oder nur sel­ten am Satz­ende. Lesen hin­ge­gen steht häu­fig am Satz­ende und nie nach liest oder lese. Der Algo­rith­mus erzeugt daher eine Wort­art, zu der den und eine wei­tere, zu der lesen gehört und sor­tiert einen in beide Wort­ar­ten ein. Dass es in einem gege­be­nen Fall dann als Arti­kel getaggt wird, ergibt sich, wie im Falle des über­wa­chen Ler­nens, dann aus sta­tis­ti­scher Wahrscheinlichkeit.

Nach die­sen umfang­rei­chen Auf­be­rei­tun­gen ist aus einem un- bzw. schwach struk­tu­rier­ten Text eine Menge von par­ti­ell struk­tu­rier­ten Daten gewor­den, auf wel­che die eigent­li­chen Text-Mining – oder Infor­ma­ti­ons­extrak­ti­ons-Ver­fah­ren auf­bauen. Ziel die­ser Ver­fah­ren ist es i.A. Kook­kur­ren­zen (gleich­zei­ti­ges Auf­tre­ten) zwi­schen Wör­tern bzw. con­cepts zu fin­den. (So ist in den Sät­zen “Ich gehe zur Bank” und “Ich sitze auf der Bank” das Nomen Bank nicht zufäl­lig mit den Ver­ben gehen und sit­zen kor­re­lie­rend. Aber auch hier han­delt es sich am Ende nur um eine Frage der Wahr­schein­lich­kei­ten und im Zwei­fel kann die Infor­ma­tion auf Grund von Dop­pel­deu­tig­kei­ten nicht genau gefun­den wer­den, da im ers­ten Satz nicht klar ist, um wel­che Art von Bank es sich han­delt. Das Verb sit­zen besitzt auch keine direkte Abhän­gig­keit zu dem Nomen Bank, aber die Wahr­schein­lich­keit auf einer Bank zu sit­zen ist ungleich höher als auf einem Auto zu sit­zen. Ande­rer­seits ist das Sit­zen in einem Auto wohl in etwa gleich wahr­schein­lich wie auf einer Bank zu sit­zen. Auch hier wer­den häu­fig sta­tis­ti­sche Ver­fah­ren des maschi­nel­len Ler­nen benutzt und wie auch so häu­fig, hängt bei die­sen Ver­fah­ren das Ergeb­nis von der Daten­ba­sis ab.) Klas­si­sches Topic Model­ling unter­sucht die Häu­fig­keit mit der bestimmte Phra­sen zusam­men auf­tre­ten und lei­tet dar­aus einen Zusam­men­hang her. Ob die­ser Zusam­men­hang echt oder nur ein Arte­fakt ist, muss dann aber im Ein­zel­fall der Ana­lyst entscheiden.

Mit­tels Named-entity reco­gni­tion (dt. Eigen­na­mens­er­ken­nung) sol­len Nomens­phra­sen als Eigen­na­men iden­ti­fi­ziert, bzw. klas­si­fi­ziert wer­den. D.h., es soll näher klas­si­fi­ziert wer­den ob es sich bei einer Nome­s­phrase um eine Per­son, eine Firma, oder ähn­li­ches han­delt. Um sol­che Zuord­nun­gen durch maschi­nel­les Ler­nen zu ermög­li­chen sind sehr viele (von Hand erstellte) Trai­nings­da­ten nötig. Sys­teme, die eher klas­si­sche (von Hand erstellte) Tabel­len für die Eigen­na­mens­er­ken­nung benut­zen, haben meist eine höhere Genau­ig­keit sind aber lang­wie­rig und teuer in der Her­stel­lung. Aller­dings gibt es erste Ansätze mit­tels semi­über­wach­tem Ler­nen, die nur eine kleine Anzahl an Trai­nings­da­ten erfor­dern aber im idea­len Falle über­zeu­gende Ergeb­nisse lie­fern können.

Überblick über Text-Mining und Informationsextraktion Bild3
Abbil­dung 3 Bei­spiel­satz zer­legt zum ske­le­ton, um eine Rela­tion der Art (X, α, Y) abzubilden.

Ist eine Enti­tät, bzw. ein Eigen­name gefun­den, gilt es Bezie­hun­gen zu ande­ren Enti­tä­ten zu fin­den. Gesucht wer­den Tri­pel der Art (X, α, Y) wobei X und Y jeweils eine Enti­tät sind und α die Ver­bin­dung zwi­schen die­sen ist (häu­fig han­delt es sich um ein Verb). Abbil­dung 3 zeigt den Satz aus Abb. 2 redu­ziert auf den Zusam­men­hang zwi­schen Galen und Müns­ter, der über herr­schen gebil­det wird in Form eines ske­le­tons (dt. Ske­lett). Aus­ge­hend von die­sem Zusam­men­hang ist es durch maschi­nel­les Ler­nen mög­lich, wei­tere Zusam­men­hänge zwi­schen Enti­tä­ten zu fin­den. Kom­bi­niert mit den oben genann­ten The­sau­ren kön­nen auch Syn­onyme wie regie­renadmi­nis­trie­ren, usw mit in das (X, α, Y) Tri­pel genom­men wer­den. Auch hier hängt der Erfolg des maschi­nel­len Ler­nens maß­geb­lich von der Daten­ba­sis ab, wel­che zum Trai­nie­ren benutzt wird. Die hier beschrie­bene Vari­ante eig­net sich für semi­über­wach­tes Ler­nen, ist aller­dings auch recht expe­ri­men­tell und beschreibt die Bezie­hung eher all­ge­mein als speziell.

Eine andere und gän­gi­gere Mög­lich­keit, Bezie­hun­gen zwi­schen Enti­tä­ten her­aus­zu­ar­bei­ten, ist es Ver­bin­dun­gen durch regu­läre Aus­drü­cke her­zu­stel­len. Dar­un­ter wird eine defi­nierte Zei­chen­folge ver­stan­den, wel­che in unse­rem Bei­spiel herrschte lange Zeit über sein kann. Die Bezie­hung wird durch den Aus­druck natür­lich defi­ni­tiv näher beschrie­ben. Wel­che Regent­schaf­ten damit genau beschrie­ben bzw. gefun­den wer­den kön­nen, hängt auch wie­der von den ver­wen­de­ten Wör­ter­bü­chern oder The­sau­ren ab. Ob die vene­di­schen Medici, wel­che lange Zeit in Vene­dig herrsch­ten, vom Algo­rith­mus ent­deckt wer­den, hängt davon ab, wie gut die Wör­ter­bü­cher, The­sau­ren und Algo­rith­men die Daten auf­be­rei­tet haben und aus bei­den “Phra­sen” die­selbe Bezie­hung ablei­ten kön­nen. Hier wird nun auch deut­lich, warum eine Toke­ni­sie­rung nicht zwangs­läu­fig in ein­zelne Worte, son­dern bes­ser in Phra­sen erfol­gen sollte. Wör­ter wie in und über wer­den infla­tio­när ver­wen­det, gehö­ren aber in dem Bei­spiel fest mit herr­schen zusam­men, wodurch eine Toke­ni­sie­rung als herr­schen in wesent­lich sinn­vol­ler als die Zer­le­gung in Ein­zel­worte ist.

Zusam­men­fas­sung und Ausblick

Über die Jahre ist eine effi­zi­ente Samm­lung an Tools und Metho­den ent­stan­den, die Text-Mining und Infor­ma­ti­ons­extrak­tion zuneh­mend inter­es­san­ter machen und zu neuen Anwen­dun­gen füh­ren kön­nen. Aller­dings ist, wie oben gezeigt, eine ein­deu­tige und gerad­li­nige Ana­lyse nicht mög­lich. Der Ana­lyst muss eini­ger­ma­ßen wis­sen, was er sucht und ggf. die Schritte mehr­mals vari­ie­ren, wie­der­ho­len und abän­dern. Es gibt aber auch noch viel Hand­lungs­be­darf, gerade in dem Bereich der Eigen­na­men­er­ken­nung wel­cher aber auch den wich­tigs­ten Bereich bei der Infor­ma­ti­ons­extrak­tion dar­stellt. Gerade in den ver­gan­ge­nen Jah­ren sind die Mög­lich­kei­ten durch maschi­nel­les Ler­nen und ver­schie­dene Crowd­sour­cing Pro­jekte aber enorm gewach­sen und wei­tere Ver­bes­se­run­gen sind in den nächs­ten Jah­ren noch zu erwarten.