ChatGPT се провали на важен медицински тест

ИИ допусна 83% грешки в диагностицирането на заболявания при деца

471
ChatGPT

Популярният изкуствен интелект ChatGPT се провали сериозно на важен медицински тест, съобщава онлайн изданието Ars technica. Това напомня, че тези алгоритми все още имат много да учат и да се развиват преди да може да им се има доверие.

Лекари от детския медицински център „Коен“ в Ню Йорк са провели тест, в който да проверят колко точно ChatGPT се справя с диагностицирането на заболявания при деца. Резултатите не са никак добри, като ботът има едва 17% точност и 83% погрешни диагнози. Това е по-лошо представяне спрямо тестовете при диагностициране на заболявания при възрастни. Такива са провеждани от други учени миналата година и откриват едва 39% точност.

Сега грешките са още по-ясно изразени при децата. „Проучването подчертава безценната роля, която има клиничният опит. То също така идентифицира критични слабости, които водят до високия процент грешки на ChatGPT и начините, по които да го преработят, за да се превърне в полезен помощен инструмент“, казват учените в доклада си. Те допълват, че развитието на технологиите и големият интерес към изкуствения интелект показват, че внедряването на такива технологии и в медицината е неизбежно. Това обаче не означава, че те ще заменят лекарите, каквито прогнози има. ИИ ще може да бъде добър помощник на лекарите, но не и техен заместител.

За това проучване учените са използвали 100 педиатрични казуса, които са били публикувани в журналите JAMA Pediatrics и NEJM в периода 2013 г. – 2023 г. Това са специфични казуси, които са предизвикали по-голям интерес сред лекарите. Учените са взели от тях всички данни, нужни да диагностицирането на заболяването и са ги дали на чатбота. Задачата на ChatGPT е била да анализира текста и да каже своето мнение. След това двама специалисти са преглеждали отговорите и са могли да ги класифицират като правилни, грешни или непълни. В крайна сметка ChatGPT правилно диагностицира само 17 случая. В 11 от тях поставя непълна диагноза, а останалите 72 греши напълно. Непълните диагнози също се приемат за провал и така достигаме до общо 83% грешки.

Оказва се, че ChatGPT не успява да намери иначе известни връзки между различни заболявания и симптоми, които лекар знае и може да забележи. Според учените ботът може да бъде обучен допълнително на тези конкретни данни и връзки с помощта на добавяне на релевантна и проверена информация от медицинска литература. Друга полза за бота може да бъде достъп до медицинска информация в реално време, която да позволи на модела да се прецизира и подобрява с нови данни постоянно.

Засега обаче е повече от видно, че чатботовете не трябва да се използват за самолечение и поставяне на диагнози. Те могат да помогнат на лекар да пресее информация, но не и да заменят поставянето на диагноза от специалист.

СПОДЕЛИ