Kunstmatige intelligentie blogreeks: Het theorema van Baye
Welkom bij het vijfde artikel in de blogreeks “Kunstmatige intelligentie”. Het vierde deel gaat over “Is fouten maken menselijk”. In dit deel wordt ingegaan op de de informatie uit hoofdstuk 5: Het theorema van Bayes
5. HET THEOREMA VAN BAYES
Het theorema van Bayes is een beroemde regel in de kansberekening. Deze regel wordt bijvoorbeeld gebruikt om kennis over kansen uit vorig onderzoek op een statistisch onderbouwde manier te gebruiken in nieuw onderzoek. Eén bijzondere toepassing van het theorema is het gebruik in zogeheten Bayesiaanse Netwerken. En deze Bayesiaanse Netwerken liggen weer ten grondslag aan meerdere kunstmatige intelligentie algoritmes.
Wat is de kans dat je ziek bent als je positief test?
Beeld je in dat er in het land een ziekte heerst, die bij 1 op de 1000 mensen voorkomt (prevalentie is 1/1000), en je bent bang dat je deze ziekte hebt. Gelukkig is er een goede diagnostische test beschikbaar, die met behulp van een AI-model jouw data interpreteert en aangeeft of je ziek of gezond bent. Als je de ziekte daadwerkelijk hebt, geeft de test in 100% van de gevallen een positief resultaat. Deze test kan, met behulp van AI, artsen helpen een diagnose te stellen. Maar AI is niet onfeilbaar en ook deze test is niet perfect. Voor gezonde mensen, die de ziekte niet hebben, geeft de test namelijk in 5% van de gevallen per abuis alsnog een positieve uitslag. Stel je voor dat je je hebt laten testen en de test slaat positief uit. Help, dat is allesbehalve positief nieuws!
Nu komt echter de grote vraag: wat is de kans dat je ook daadwerkelijk ziek bent? Veel mensen – en misschien jij ook – zeggen “95%, natuurlijk”. Zo ook toen deze vraag werd voorgelegd aan een groep medicijnstudenten van de vooraanstaande universiteit Harvard, waarvan bijna de helft dit antwoord gaf. Het correcte antwoord zal je wellicht verbazen. De kans dat je echt ziek bent, is gelukkig slechts 2%.
We kunnen deze merkwaardige uitkomst uitleggen in formules, maar ook intuïtief. Laten we beginnen met de toegankelijke intuïtieve aanpak. Stel er zijn 1000 mensen die zich laten testen. Hiervan verwachten we dat 1 persoon de ziekte heeft en 999 personen gezond zijn. De persoon die echt ziek is, zal positief testen. Van de gezonde mensen, zal de test in 5% van de gevallen alsnog positief kleuren. In totaal zullen er dus gemiddeld 1 + (999 x 0,05) ≈ 51 positieve tests zijn – of 50,95 om exact te zijn. Echter, slechts 1 hiervan is ook echt correct! Dus, als slechts 1 van de 51 positieve uitslagen correct is, is de kans dat je echt ziek bent minder dan 2% – of nog preciezer: 1 / 50,95 x 100% = 1,96%. We kunnen dit ook laten zien met behulp van de confusion matrix:
Figuur 7: Confusion matrix in abosulte waarden (A) en in percentages (B). De 2% toont dus de kans dat je daadwerkelijk ziek bent, gegeven dat je een positieve testuitslag hebt.
Het theorema van Bayes
Wat als je nog een test doet?
Een tweedeling in de wereld van de statistiek
Bayesiaanse netwerken
Geïnteresseerd in het boek?
Bestel het hier