Onderzoek gebruik AI-taalmodellen in geneeskunde kan beter
Plaats een reactieDe opmars van taalmodellen (large language models of LLM's) zoals ChatGPT gaat ook in de geneeskunde gestaag voort. Maar worden deze toepassingen wel goed geëvalueerd en zo ja, wat leren we daar dan van?
Suhana Bedi e.a. gingen dit na in een systematische review, die is gepubliceerd in de JAMA. Ze includeerden maar liefst 519 gepubliceerde studies en constateren vervolgens belangrijke omissies in al dat onderzoek. Zo is er momenteel nog te weinig studie gedaan naar de kwaliteit van administratieve taken zoals het schrijven van recepten en natuurlijke taalverwerking, denk aan het maken van samenvattingen bijvoorbeeld. Bovendien blijkt nauwkeurigheid daarbij het voornaamste criterium, met veronachtzaming van belangrijke andere criteria als eerlijkheid en vooringenomenheid (bias). De onderzoekers waarderen daarom de bestaande evaluaties van LLM’s in de gezondheidszorg als te fragmentarisch en onvoldoende. Dat zulk onderzoek noodzakelijk is, blijkt bijvoorbeeld uit een studie die Bedi e.a. includeerden waarin aan het licht kwam dat gebruik van LLM’s bij administratieve taken geen tijdswinst opleverde, maar opmerkelijk genoeg wel leidde tot een vermindering van burn-out onder artsen.
Verder concentreert het bestaande onderzoek naar het gebruik van AI-taalmodellen zich vooral op generieke toepassingen, zoals het maken van samenvattingen, en op toepassingen in de interne geneeskunde, de chirurgie en de oogheelkunde. Andere vakgebieden - nucleaire geneeskunde en klinische genetica bijvoorbeeld – zijn daarentegen ondermaats vertegenwoordigd.
Lees ook- Er zijn nog geen reacties