Vie­len ist die klas­si­sche Defi­ni­tion von Wahr­schein­lich­kei­ten bekannt. Ein Ereig­nis trete zufäl­lig auf, dann ist die Wahr­schein­lich­keit des Auf­tre­tens eines Zustan­des A defi­niert als der Quo­ti­ent aus den für das Ereig­nis güns­ti­gen (g) und der Zahl aller mög­li­chen Fälle (m).

Ein­her­ge­hend mit der Defi­ni­tion einer Wahr­schein­lich­keit ist der Ansatz der fre­quen­tis­ti­schen Sta­tis­tik. Im Rah­men von Hypo­the­sen­tests wird über­prüft, ob ein Ereig­nis ein­tritt oder nicht. Es gilt das Prin­zip der long run fre­quency. Ein Test­ergeb­nis gilt als gesi­chert, wenn ein Expe­ri­ment unter den­sel­ben Umstän­den oft wie­der­holt wird. Dann kann eine Aus­sage im Sinne einer Wahr­schein­lich­keit getrof­fen wer­den. Theo­re­tisch wird dabei die Mög­lich­keit des unend­li­chen Wie­der­ho­lens ange­nom­men. Ein ein­fa­ches Bei­spiel ist das Wer­fen einer Münze, bei dem getes­tet wer­den soll, ob es sich um eine faire Münze han­delt. Nur nach mehr­ma­li­gem Wie­der­ho­len wird ein Fre­quen­tist eine Aus­sage im Sinne einer Wahr­schein­lich­keit abge­ben P(Kopf) = 0.5. Sollte bei­spiels­weise die Frage beant­wor­tet wer­den, ob Trump die Wahl zum ame­ri­ka­ni­schen Prä­si­den­ten gewin­nen wird, wäre das für eine fre­quen­tis­ti­sche Sicht keine Fra­ge­stel­lung, die mit einer Wahr­schein­lich­keit (er wird mit einer Wahr­schein­lich­keit von 70% wie­der­ge­wählt) beant­wor­tet wer­den könnte, da es kein wie­der­hol­ba­res Ereig­nis ist. Die Frage kann nur mit ja oder nein beant­wor­tet werden.

Der Ansatz baye­sia­ni­scher Wahr­schein­lich­kei­ten erlaubt es, auch Hypo­the­sen mit Ein­tritts­wahr­schein­lich­kei­ten zu beant­wor­ten, dies beruht auf dem Kon­zept der beding­ten Wahrscheinlichkeit.

Die­ses Kon­zept geht auf Rever­end Tho­mas Bayes (1702 – 1761) zurück, der theo­re­ti­sche Ansätze einer inverse pro­ba­bi­lity nie­der­schrieb, wel­che jedoch erst post­hum 1763 in dem Essay towards sol­ving a pro­blem in the doc­trine of chan­ces ver­öf­fent­licht wurde. Im wei­te­ren Ver­lauf ver­drängt durch die klas­si­sche sta­tis­ti­sche Modelle der linea­ren Regres­sion und der ein­fa­chen Wahr­schein­lich­keits­rech­nung, gelangte erst zu Beginn der 1990er mit stei­gen­der Berech­nungs­ka­pa­zi­tät von Com­pu­tern und stei­gen­dem Bekannt­heits­grad von Mar­kov Chain Monte Carlo Metho­den der baye­sia­ni­sche Ansatz der Infe­renz­sta­tis­tik wie­der zu mehr Relevanz.

Bedingte Wahr­schein­lich­kei­ten kön­nen mit Hilfe des Sat­zes von Bayes berech­net werden:

mit A als inter­es­sie­ren­den Para­me­ter (bei­spiels­weise die Wahr­schein­lich­keit der Wie­der­wahl Trumps) und B als (Stich­pro­ben-) Daten. Gesucht wird also eine durch Daten ange­rei­cherte, prä­zi­sere Bestim­mung des inter­es­sie­ren­den Para­me­ters A, bedingt auf B. P(B) beschreibt die Rand­ver­tei­lung der Daten, die unab­hän­gig vom inter­es­sie­ren­den Para­me­ter und des­halb von unter­ge­ord­ne­tem Inter­esse ist. Die vor­her bestehen­den Annah­men über den inter­es­sie­ren­den Para­me­ter P(A) wer­den auch prior (a priori) Annah­men genannt. A priori Annah­men stam­men klas­si­scher­weise aus bestehen­der Lite­ra­tur oder aus Exper­ten­wis­sen. P(B|A) beschreibt die Likeli­hood, also die Infor­ma­tio­nen, die aus den gesam­mel­ten Daten gewon­nen wer­den kön­nen. Dar­aus ergibt sich die soge­nannte pos­te­rior Ver­tei­lung des inter­es­sie­ren­den Para­me­ters, also eine Kom­bi­na­tion aus vor­her bestehen­den Infor­ma­tio­nen und Infor­ma­tio­nen der Stich­pro­ben­da­ten. In der Hin­zu­nahme des Pri­ors, als wesent­li­cher Unter­schied zur fre­quen­tis­ti­schen Berech­nung von Wahr­schein­lich­kei­ten, kön­nen essen­ti­elle Vor­teile in der Schät­zung erlangt werden.

Dies wird an einem klei­nen Bei­spiel deut­lich. Oft wird hier das Bei­spiel einer Krebs-Test­dia­gnose ver­wen­det. Es gilt bei medi­zi­ni­schen Tests die Annahme, dass ein Test­ergeb­nis auch feh­ler­haft sein kann. Ein posi­ti­ver Test kann dem­nach bedeu­ten, dass man kei­nen Krebs hat, glei­cher­ma­ßen kann ein nega­ti­ver Test bedeu­ten, dass jemand trotz nega­ti­vem Test­ergeb­nis Krebs hat. Es wer­den fol­gende Eck­da­ten betrachtet.

  • 1% aller Frauen haben Brustkrebs
  • 80% aller Tests ent­de­cken, dass Brust­krebs vor­han­den ist – 20% tun es nicht
  • 6% aller Tests dia­gnos­ti­zie­ren Brust­krebs, wenn er nicht vor­han­den ist – 90.4% geben ein kor­rekt nega­ti­ves Ergeb­nis wieder

Unter der Annahme, ein posi­ti­ves Test­ergeb­nis zu erhal­ten, stellt sich das Sze­na­rio nun wie folgt dar.

Brust­krebs (1%)Kein Brust­krebs (99%)
Test posi­tivWahr posi­tiv
1% x 80% = 0.008
Falsch posi­tiv
99% x 9.6% = 0.095
Test nega­tivFalsch nega­tiv
1% x 20% = 0.002
Wahr nega­tiv
99% x 90.4% = 0.89

Wer­den die gan­zen Infor­ma­tio­nen in Bayes For­mel ein­ge­fügt, ergibt sich die For­mel wie folgt Die Wahr­schein­lich­keit eines wahr posi­ti­ven Ereig­nis­ses liegt bei 0.008, die Wahr­schein­lich­keit irgend­ein posi­ti­ves Ereig­nis zurück zu erhal­ten ist die Wahr­schein­lich­keit eines wahr posi­ti­ven plus die Wahr­schein­lich­keit eines falsch posi­ti­ven Tests, also 0.103. Dem­nach ist die Wahr­schein­lich­keit bei einem posi­ti­ven Test­ergeb­nis Krebs zu haben 0.008/0.103 = 0.0776. Ein posi­ti­ves Test­ergeb­nis bedeu­tet also, dass man nur mit einer 7.8%igen Wahr­schein­lich­keit tat­säch­lich Krebs hat. Dies mag intui­tiv falsch klin­gen, wenn man mit der Prä­misse star­tet, dass 80% aller Tests wahr posi­tiv tes­ten. Ver­deut­licht man sich das Bei­spiel jedoch anhand 100 Per­so­nen, wird es ein­leuch­ten­der. Von 100 getes­te­ten Per­so­nen hat nur eine Per­son tat­säch­lich Krebs, die­ser wird mit einer 80%igen Wahr­schein­lich­keit kor­rekt posi­tiv getes­tet. Von den ver­blei­ben­den 99 Per­so­nen wer­den unge­fähr 10% falsch posi­tiv getes­tet, wir erhal­ten also von 100 ca. 11 Leute mit einem posi­ti­ven Ergeb­nis, wovon jedoch nur eine Per­son tat­säch­lich Krebs hat. Dem­nach besteht eine 1/11 Wahr­schein­lich­keit, tat­säch­lich Krebs bei einem posi­ti­ven Test zu haben.

Der Satz von Bayes – bedingte Wahrscheinlichkeiten Bild4

Oder aber Pr(Krebs|positiver Test) = 80% * 1% / ((80%*1%) + (9.6% * 99%)).

Durch den Ein­be­zug zusätz­li­cher Infor­ma­tio­nen, näm­lich der bekann­ten Ver­tei­lung von Brust­krebs in der Bevöl­ke­rung, ist es mög­lich gewor­den, ein Test­ergeb­nis sehr viel prä­zi­ser inter­pre­tie­ren zu kön­nen. Dies beschreibt den wesent­li­chen Vor­teil des Ein­be­zugs von Prior Infor­ma­tio­nen. In den Prior Infor­ma­tio­nen ver­sam­meln sich alle ver­füg­ba­ren Infor­ma­tio­nen bezüg­lich der inter­es­sie­ren­den Parameter.

Im Unter­schied zum ein­gangs genann­ten fre­quen­tis­ti­schen Ansatz zeigt sich also, dass bedingt auf die Infor­ma­tion posi­ti­ver Test und die dazu ver­füg­ba­ren Infor­ma­tio­nen über die Gesamt­ver­tei­lung von Krebs inner­halb der Bevöl­ke­rung, ein aus­sa­ge­kräf­ti­ge­res Ergeb­nis errech­net wer­den kann, als die Infor­ma­tio­nen nur aus den vor­lie­gen­den Daten (durch­ge­führ­ter Krebs­test) zu ziehen.

Die­ses ein­fa­che Bei­spiel zeigt einen wesent­li­chen Vor­teil einer ande­ren Her­an­ge­hens­weise an sta­tis­ti­sche Fra­ge­stel­lun­gen auf. Durch das Inkor­po­rie­ren von Vor­in­for­ma­tio­nen ist es mög­lich, Unge­nau­ig­kei­ten fre­quen­tis­ti­scher Her­an­ge­hens­wei­sen zu lösen und Fra­gen prä­zi­ser zu beant­wor­ten. Eine sol­che Denk­art ermög­licht im Kon­text moder­ner Fra­ge­stel­lun­gen eine exakte Her­an­ge­hens­weise an Pro­bleme des fore­cas­tings mit Hilfe von Zeit­rei­hen­da­ten, an Resam­pling Metho­den wie Boot­strap­ping oder an Mar­kov Chain Monte Carlo Ver­fah­ren zur Dar­stel­lung der Ver­tei­lung von Zufalls­va­ria­blen wie dem Gibbs Sam­pler oder dem Metro­po­lis Has­tings Sampler.