Spis treści
Sztuczna inteligencja w medycynie
Rola sztucznej inteligencji (SI, AI) w medycynie jest tematem intensywnych prac. Dzięki postępowi technologicznemu AI jest wykorzystywane do projektowania nowych leków, wspomagania lekarzy w procesie diagnostycznym czy przewidywania pandemii. Istnieją również eksperymenty, w których modele AI zdają egzaminy lekarskie i udzielają porad.
Jak jednak wynika z badań przeprowadzonych przez naukowców z Collegium Medicum UMK im. Ludwika Rydygiera w Bydgoszczy, sztuczna inteligencja jeszcze w stanie zastąpić człowieka w pełnej opiece nad pacjentem, szczególnie w dziedzinie chorób wewnętrznych, czyli interny. Naukowcy poddali egzaminowi z interny ChatGP, który jest popularnym modelem AI. Niestety, rezultaty były dalekie od optymalnych.
Sprawdź też: ChatGPT ułoży dietę, ale nie radzi sobie z menu dla alergików
– Interna nazywana jest królową nauk medycznych. Od lekarzy specjalizujących się w chorobach wewnętrznych wymagana jest rozległa wiedza, a także duża koncentracja i samodyscyplina – napisali autorzy badania opublikowanego w „Polish Archives of Internal Medicine”.
Chat GPT nie zdał polskiego egzaminu z interny
Zespół naukowców postanowił sprawdzić, jak ChatGPT poradzi sobie z polskim egzaminem z chorób wewnętrznych. Ten model AI zdobył bowiem uznanie dzięki zdaniu takich testów, jak amerykański egzamin licencjonowania medycznego (USMLE), europejski egzamin z podstawowej kardiologii czy egzamin z programu oceny wiedzy okulistycznej (OKAP).
– Zgodnie z polskim prawem lekarz może zostać specjalistą chorób wewnętrznych po ukończeniu szkolenia specjalistycznego i złożeniu egzaminu certyfikacyjnego. Zaliczenie składa się z 2 elementów: testu wielokrotnego wyboru składającego się ze 120 pytań z 5 możliwymi odpowiedziami, z których tylko 1 jest prawidłowa, oraz egzaminu ustnego, do którego można przystąpić dopiero po pozytywnym zaliczeniu testu pisemnego (…) – wyjaśnili autorzy badania.
W ramach testu ChatuGPT zaprezentowano mu 1191 pytań, które pojawiły się na egzaminach certyfikacyjnych w latach 2013-2017. Nie zawierały jedynie tych zadań, których nie byłby w stanie rozwiązać, bo np. zawierały ilustracje. Zaklasyfikowano je też do różnych kategorii na postawie liczny poprawnych odpowiedzi, długości i stopnia trudności.
Niestety, wskaźnik poprawnych odpowiedzi, który uzyskał ChatGPT, wyniósł 47,5-53,33 procent, co jest znacznie poniżej minimalnego wymaganego wyniku, wynoszącego 60 procent.
– We wszystkich sesjach wyniki ChatGPT były znacznie gorsze od wyników egzaminowanych ludzi, których wyniki wahały się między 65,21 proc. a 71,95 proc. – zaznaczyli naukowcy. – W odniesieniu do trudności pytań odkryto, że poprawność odpowiedzi ChatuGPT stopniowo spadała wraz ze wzrostem trudności zadania, co także jest zgodne z ludzkimi zachowaniami.
Co ciekawe, sztuczna inteligencja lepiej radziła sobie z najkrótszymi pytaniami, a następnie z długimi i bardzo długimi, a najtrudniejsze okazały się pytania ocenione jako krótkie i średnio długie. U ludzi wyglądało to przy tym bardzo podobnie.
Trafność odpowiedzi na pytania zależała od dziedziny medycyny wewnętrznej. Oto wyniki:
- alergologia (71,43 proc.),
- choroby zakaźne (55,26 proc.),
- endokrynologia (54,64 proc.),
- nefrologia(53,51 proc.),
- reumatologia (52,83 proc.),
- hematologia (51,51 proc.),
- gastroenterologia (50,97 proc.),
- pulmonologia (46,71 proc.),
- diabetologia (45,1 proc.),
- kardiologia (43,72 proc.).
Robot nie będzie internistą, ale może pomóc
To było pierwsze badanie na świecie, w którym podjęto się oceny AI w dziedzinie interny. Jego autorzy podsumowują, że pomimo znacznych postępów, możliwości sztucznej inteligencji nadal są mocno ograniczone, jednak „nadal medycyna jest dziedziną, w której wykorzystanie modeli językowych może okazać się korzystne”.
Czytaj też: Wirtualna rzeczywistość lekiem na ból nowotworowy
W przypadku ChatGPT istnieje jego potencjalne zastosowanie w dziedzinie empatii. Badanie porównujące odpowiedzi lekarzy i chatbotów na zapytania medyczne wykazało, że 79 proc. pacjentów uznało odpowiedzi udzielane przez AI za bardziej empatyczne i wszechstronne niż te oferowane przez ludzkich ekspertów.
Należy przy tym wspomnieć, że eksperyment miał kilka ograniczeń. Po pierwsze, egzamin przeprowadzony był w języku polskim, a ChatGPT zaprojektowano po angielsku. Poza tym, model ten podlega regularnym aktualizacjom, więc wersja zastosowana w badaniu nie była tą najnowszą w momencie publikacji. Pomimo tego wiadomo, że konieczny jest dalszy rozwój AI, by takie rozwiązania mogły spełnić oczekiwania.
Źródło: ChatGPT fails the Polish board certification examination in internal medicine: artificial intelligence still has much to learn Polish Archives of Internal Medicine
Źródło: