ШІ так само добре діагностує захворювання, як і людина

Перший систематичний огляд та мета-аналіз такого роду виявляє, що штучний інтелект (ШІ) настільки ж хороший у діагностиці захворювання на основі медичного іміджу, як і медичні працівники. Однак необхідні більш якісні дослідження.

Нові дослідження показують, що ШІ та медичні працівники однаково ефективно діагностують захворювання на основі медичних зображень.

Нова стаття досліджує наявні докази, намагаючись визначити, чи може ШІ діагностувати захворювання так ефективно, як медичні працівники.

Наскільки відомо авторам, тобто величезній групі дослідників на чолі з професором Аластером Денністоном з університетських лікарень Бірмінгемського фонду охорони здоров’я у Великобританії, це перший систематичний огляд, який порівнює показники ШІ з медичними працівниками щодо всіх захворювань.

Професор Денністон та команда провели пошук у декількох медичних базах даних усіх досліджень, опублікованих між 1 січня 2012 року та 6 червня 2019 року. Команда опублікувала результати свого аналізу в журналі The Lancet Digital Health.

ШІ нарівні з медичними працівниками

Дослідники шукали дослідження, які порівнювали діагностичну ефективність алгоритмів глибокого навчання з ефективністю медичних працівників, коли вони ставили діагноз на основі медичної візуалізації.

Вони вивчили якість звітів у згаданих дослідженнях, їх клінічну цінність та дизайн досліджень.

Крім того, коли мова заходила про оцінку діагностичних показників ШІ порівняно з показниками медичних працівників, дослідники розглядали два результати: специфічність та чутливість.

“Чутливість” визначає ймовірність того, що діагностичний засіб отримає позитивний результат у людей, які страждають на це захворювання. Специфічність стосується точності діагностичного тесту, який доповнює міру чутливості.

Процес відбору дав лише 14 досліджень, якість яких була достатньо високою для включення в аналіз. Професор Денністон пояснює: "Ми розглянули понад 20 500 статей, але менше 1% з них були досить надійними у своїй розробці та звітуванні про те, що незалежні рецензенти мали високу довіру до своїх вимог".

"Більше того, лише 25 досліджень підтвердили моделі ШІ зовні (з використанням медичних зображень з різної сукупності), а лише 14 досліджень порівнювали результати діяльності ШІ та медичних працівників з використанням одного і того ж тестового зразка".

“В рамках кількох високоякісних досліджень ми виявили, що глибоке навчання справді може виявляти захворювання від раку до очних захворювань так само точно, як і медичні працівники. Але важливо зазначити, що ШІ не суттєво перевершив діагноз людини ".

Професор Аластер Денністон

Більш конкретно, аналіз показав, що ШІ може правильно діагностувати захворювання в 87% випадків, тоді як виявлення медичними працівниками дало коефіцієнт точності 86%. Специфічність алгоритмів глибокого навчання склала 93%, у порівнянні з людиною - 91%.

Упередження можуть перебільшити ефективність штучного інтелекту

Професор Денністон та його колеги також звертають увагу на кілька обмежень, які вони виявили в дослідженнях, що вивчають ефективність діагностики ШІ.

По-перше, більшість досліджень вивчають точність діагностики ШІ та медичних працівників в ізольованих умовах, які не імітують звичайну клінічну практику - наприклад, позбавляючи лікарів додаткової клінічної інформації, яка їм зазвичай потрібна для постановки діагнозу.

По-друге, кажуть дослідники, більшість досліджень порівнювали лише набори даних, тоді як високоякісні дослідження в діагностичних показниках потребували б таких порівнянь у людей.

Крім того, за словами авторів, усі дослідження страждали від поганої звітності, аналіз не враховував інформацію, яка відсутня у зазначених наборах даних. "Більшість [досліджень] не повідомляли, чи відсутні будь-які дані, яку частку це представляло та як обробляли відсутні дані в аналізі", - пишуть автори.

Додаткові обмеження включають суперечливу термінологію, не чітко встановлений поріг для аналізу чутливості та специфічності та відсутність перевірки поза вибіркою.

"Існує невід'ємна напруга між бажанням використовувати нову, потенційно рятувальну діагностику та необхідністю розробити високоякісні докази таким чином, щоб принести користь пацієнтам та системам охорони здоров'я в клінічній практиці", - коментує перший автор доктор Сяосюан Лю з Бірмінгемський університет.

«Ключовим уроком нашої роботи є те, що в ШІ - як і в будь-якій іншій частині охорони здоров’я - важливий хороший дизайн дослідження. Без цього ви можете легко ввести упередженість, яка спотворює ваші результати. Ці упередження можуть призвести до завищених тверджень про хорошу продуктивність інструментів ШІ, які не перетворюються на реальний світ ".

Доктор Сяосюань Лю

"Докази того, як алгоритми штучного інтелекту змінюватимуть результати лікування пацієнтів, повинні виходити з порівнянь з альтернативними діагностичними тестами в рандомізованих контрольованих дослідженнях", - додає співавтор доктор Лівія Фаес з очної лікарні Мурфілдс, Лондон, Великобританія.

"Поки що навряд чи є такі випробування, при яких на основі діагностичних рішень, прийнятих за допомогою алгоритму ШІ, бачиться, що потім трапляється з результатами, які насправді мають значення для пацієнтів, як своєчасне лікування, час виписки з лікарні або навіть рівень виживання".

none:  паліативна допомога - догляд за хоспісом без категорії тропічні хвороби