Nie będzie z niego internista. ChatGPT nie zdał polskiego egzaminu z chorób wewnętrznych. Sztuczna inteligencja ma swoje ograniczenia

Opracowanie:

12 kwietnia 2024, 10:19

Wideo

Sztuczna inteligencja coraz częściej pomaga ludziom w medycynie. Jest w stanie zanalizować dane, których nie przetworzy mózg, i znajdować w nich ważne wzorce. To jednak nie wystarczy, by nawet najbardziej wyrafinowane algorytmy AI mogły zastąpić prawdziwego lekarza. Po tym, jak zaprojektowany przez nich ChatGPT „oblał” polski egzamin z interny, naukowcy z Collegium Medicum UMK wątpią w możliwość diagnozowania chorób bez udziału człowieka.

Spis treści

Sztuczna inteligencja w medycynie
Chat GPT nie zdał polskiego egzaminu z interny
Robot nie będzie internistą, ale może pomóc

Sztuczna inteligencja w medycynie

Rola sztucznej inteligencji (SI, AI) w medycynie jest tematem intensywnych prac. Dzięki postępowi technologicznemu AI jest wykorzystywane do projektowania nowych leków, wspomagania lekarzy w procesie diagnostycznym czy przewidywania pandemii. Istnieją również eksperymenty, w których modele AI zdają egzaminy lekarskie i udzielają porad.

Sztuczna inteligencja i medycyna, ilustracja z człowiekiem na stole operacynym — Sztuczna inteligencja to pomoc dla medyków, ale też zbyt omylne narzędzie, by zdać się na nie w kwestiach diagnozowania i doboru leczenia pacjentów Elnur/123RF

Jak jednak wynika z badań przeprowadzonych przez naukowców z Collegium Medicum UMK im. Ludwika Rydygiera w Bydgoszczy, sztuczna inteligencja jeszcze w stanie zastąpić człowieka w pełnej opiece nad pacjentem, szczególnie w dziedzinie chorób wewnętrznych, czyli interny. Naukowcy poddali egzaminowi z interny ChatGP, który jest popularnym modelem AI. Niestety, rezultaty były dalekie od optymalnych.

Sprawdź też: ChatGPT ułoży dietę, ale nie radzi sobie z menu dla alergików

– Interna nazywana jest królową nauk medycznych. Od lekarzy specjalizujących się w chorobach wewnętrznych wymagana jest rozległa wiedza, a także duża koncentracja i samodyscyplina – napisali autorzy badania opublikowanego w „Polish Archives of Internal Medicine”.

Chat GPT nie zdał polskiego egzaminu z interny

Zespół naukowców postanowił sprawdzić, jak ChatGPT poradzi sobie z polskim egzaminem z chorób wewnętrznych. Ten model AI zdobył bowiem uznanie dzięki zdaniu takich testów, jak amerykański egzamin licencjonowania medycznego (USMLE), europejski egzamin z podstawowej kardiologii czy egzamin z programu oceny wiedzy okulistycznej (OKAP).

– Zgodnie z polskim prawem lekarz może zostać specjalistą chorób wewnętrznych po ukończeniu szkolenia specjalistycznego i złożeniu egzaminu certyfikacyjnego. Zaliczenie składa się z 2 elementów: testu wielokrotnego wyboru składającego się ze 120 pytań z 5 możliwymi odpowiedziami, z których tylko 1 jest prawidłowa, oraz egzaminu ustnego, do którego można przystąpić dopiero po pozytywnym zaliczeniu testu pisemnego (…) – wyjaśnili autorzy badania.

W ramach testu ChatuGPT zaprezentowano mu 1191 pytań, które pojawiły się na egzaminach certyfikacyjnych w latach 2013-2017. Nie zawierały jedynie tych zadań, których nie byłby w stanie rozwiązać, bo np. zawierały ilustracje. Zaklasyfikowano je też do różnych kategorii na postawie liczny poprawnych odpowiedzi, długości i stopnia trudności.

Niestety, wskaźnik poprawnych odpowiedzi, który uzyskał ChatGPT, wyniósł 47,5-53,33 procent, co jest znacznie poniżej minimalnego wymaganego wyniku, wynoszącego 60 procent.

– We wszystkich sesjach wyniki ChatGPT były znacznie gorsze od wyników egzaminowanych ludzi, których wyniki wahały się między 65,21 proc. a 71,95 proc. – zaznaczyli naukowcy. – W odniesieniu do trudności pytań odkryto, że poprawność odpowiedzi ChatuGPT stopniowo spadała wraz ze wzrostem trudności zadania, co także jest zgodne z ludzkimi zachowaniami.

Co ciekawe, sztuczna inteligencja lepiej radziła sobie z najkrótszymi pytaniami, a następnie z długimi i bardzo długimi, a najtrudniejsze okazały się pytania ocenione jako krótkie i średnio długie. U ludzi wyglądało to przy tym bardzo podobnie.

Trafność odpowiedzi na pytania zależała od dziedziny medycyny wewnętrznej. Oto wyniki:

alergologia (71,43 proc.),
choroby zakaźne (55,26 proc.),
endokrynologia (54,64 proc.),
nefrologia(53,51 proc.),
reumatologia (52,83 proc.),
hematologia (51,51 proc.),
gastroenterologia (50,97 proc.),
pulmonologia (46,71 proc.),
diabetologia (45,1 proc.),
kardiologia (43,72 proc.).

Robot nie będzie internistą, ale może pomóc

To było pierwsze badanie na świecie, w którym podjęto się oceny AI w dziedzinie interny. Jego autorzy podsumowują, że pomimo znacznych postępów, możliwości sztucznej inteligencji nadal są mocno ograniczone, jednak „nadal medycyna jest dziedziną, w której wykorzystanie modeli językowych może okazać się korzystne”.

Czytaj też: Wirtualna rzeczywistość lekiem na ból nowotworowy

W przypadku ChatGPT istnieje jego potencjalne zastosowanie w dziedzinie empatii. Badanie porównujące odpowiedzi lekarzy i chatbotów na zapytania medyczne wykazało, że 79 proc. pacjentów uznało odpowiedzi udzielane przez AI za bardziej empatyczne i wszechstronne niż te oferowane przez ludzkich ekspertów.

Należy przy tym wspomnieć, że eksperyment miał kilka ograniczeń. Po pierwsze, egzamin przeprowadzony był w języku polskim, a ChatGPT zaprojektowano po angielsku. Poza tym, model ten podlega regularnym aktualizacjom, więc wersja zastosowana w badaniu nie była tą najnowszą w momencie publikacji. Pomimo tego wiadomo, że konieczny jest dalszy rozwój AI, by takie rozwiązania mogły spełnić oczekiwania.