Применение компьютерного зрения для профилактических исследований на примере маммографии

Читать метаданные

В настоящее время осуществляется активная разработка алгоритмов компьютерного зрения на основе искусственного интеллекта для лучевой диагностики. Для эффективного внедрения в клиническую практику необходимо определить возможности и ограничения данных алгоритмов.

ЦЕЛЬ ИССЛЕДОВАНИЯ

Оценить пороговые значения метрик качества алгоритмов компьютерного зрения на основе искусственного интеллекта для анализа маммографических исследований в сопоставлении с диагностической точностью врача-рентгенолога.

МАТЕРИАЛ И МЕТОДЫ

Исследование с участием группы врачей-рентгенологов проведено на «Веб-платформе для оценки рентгенологических исследований» на размеченном наборе данных из маммографических исследований. Этот же набор данных направлен пяти алгоритмам на основе искусственного интеллекта (ИИ-сервисам). С помощью ROC-анализа получены метрики диагностической точности усредненного врача-рентгенолога и каждого ИИ-сервиса.

РЕЗУЛЬТАТЫ

Показатели диагностической точности врачей-рентгенологов (AUC) статистически значимо превзошли показатели 2 из 5 ИИ-сервисов. Ни один из представленных в исследовании ИИ-сервисов статистически значимо не превзошел по значению AUC «среднего» врача-рентгенолога. Метрики диагностической точности для «среднего» врача-рентгенолога составили: AUC 0,928 (95% ДИ 0,883—0,976), чувствительность 0,792 (95% ДИ 0,677—0,907), специфичность 0,940 (95% ДИ 0,874—1,000).

ЗАКЛЮЧЕНИЕ

При принятии решения о внедрении в практику алгоритмов компьютерного зрения на основе искусственного интеллекта для профилактических маммографических исследований следует руководствоваться минимальным значением AUC, полученным для «среднего» врача-рентгенолога (>0,88).

Ключевые слова:

маммография

искусственный интеллект

компьютерное зрение

профилактическое исследование

скрининг

Авторы:

Арзамасов К.М.

ГБУЗ «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы»

ORCID: 0000-0001-7786-0349

Васильев Ю.А.

ORCID: 0000-0002-0208-5218

Владзимирский А.В.

ГБУЗ «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы»;
ФГАОУ ВО «Первый Московский государственный медицинский университет им. И.М. Сеченова» Минздрава России (Сеченовский университет)

SPIN РИНЦ: 3602-7120
Scopus AuthorID: 8944262100
ResearcherID: D-1447-2017
ORCID: 0000-0002-2990-7736

Омелянская О.В.

ORCID: 0000-0002-0245-4431

Бобровская Т.М.

ORCID: 0000-0002-2746-7554

Семенов С.С.

ORCID: 0000-0003-2585-0864

Четвериков С.Ф.

ORCID: 0000-0002-3097-8881

Кирпичев Ю.С.

ORCID: 0000-0002-9583-5187

Павлов Н.А.

ORCID: 0000-0002-4309-1868

Андрейченко А.Е.

ORCID: 0000-0001-6359-0763

Дата поступления:

20.12.2022

Дата принятия в печать:

29.03.2023

Список литературы:

Рожкова Н.И., Бурдина И.И., Запирова С.Б., Каприн А.Д., Лабазанова П.Г., Мазо М.Л., Микушин С.Ю., Прокопенко С.П., Якобс О.Э. Онкомаммоскрининг в реализации программ активного долголетия. Академический журнал Западной Сибири. 2019;15(2):3-5.
Морозов С.П., Ветшева Н.Н., Овсянников А.Г., Ледихова Н.В., Панина Е.В., Полищук Н.С., Пучкова О.С. Московский скрининг: организация маммографического скрининга как способ повысить выявляемость рака молочной железы на ранних стадиях. Проблемы социальной гигиены, здравоохранения и истории медицины. 2019;27(0):623-629. https://doi.org/10.32687/0869-866X-2019-27-si1-623-629
Schaffter T, Buist DSM, Lee CI, Nikulin Y, Ribli D, Guan Y, Lotter W, Jie Z, Du H, Wang S, Feng J, Feng M, Kim HE, Albiol F, Albiol A, Morrell S, Wojna Z, Ahsen ME, Asif U, Jimeno Yepes A, Yohanandan S, Rabinovici-Cohen S, Yi D, Hoff B, Yu T, Chaibub Neto E, Rubin DL, Lindholm P, Margolies LR, McBride RB, Rothstein JH, Sieh W, Ben-Ari R, Harrer S, Trister A, Friend S, Norman T, Sahiner B, Strand F, Guinney J, Stolovitzky G; and the DM DREAM Consortium; Mackey L, Cahoon J, Shen L, Sohn JH, Trivedi H, Shen Y, Buturovic L, Pereira JC, Cardoso JS, Castro E, Kalleberg KT, Pelka O, Nedjar I, Geras KJ, Nensa F, Goan E, Koitka S, Caballero L, Cox DD, Krishnaswamy P, Pandey G, Friedrich CM, Perrin D, Fookes C, Shi B, Cardoso Negrie G, Kawczynski M, Cho K, Khoo CS, Lo JY, Sorensen AG, Jung H. Evaluation of Combined Artificial Intelligence and Radiologist Assessment to Interpret Screening Mammograms. JAMA Network Open. 2020;3(3):200265-200265. https://doi.org/10.1001/JAMANETWORKOPEN.2020.0265
Lehman CD, Arao RF, Sprague BL, Lee JM, Buist DS, Kerlikowske K, Henderson LM, Onega T, Tosteson AN, Rauscher GH, Miglioretti DL. National Performance Benchmarks for Modern Screening Digital Mammography: Update from the Breast Cancer Surveillance Consortium. Radiology. 2016;283(1):49-58. https://doi.org/10.1148/RADIOL.2016161174
Морозов С.П., Ветшева Н.Н., Диденко В.В., Смирнов И.В., Овсянников А.Г., Ледихова Н.В., Пучкова О.С. Организация программы популяционного скрининга злокачественных новообразований молочной железы среди женского населения. Методические рекомендации. Серия: Лучшие практики лучевой и инструментальной диагностики. М.: ГБУЗ «НПКЦ ДиТ ДЗМ»; 2020. Ссылка активна на 10.05.23. https://tele-med.ai/biblioteka-dokumentov/organizaciya-programmy-populyacionnogo-skrininga-zlokachestvennyh-novoobrazovanij-molochnoj-zhelezy-sredi-zhenskogo-naseleniya
Geijer H, Geijer M. Added value of double reading in diagnostic radiology, a systematic review. Insights into Imaging. 2018;9(3):287-301. https://doi.org/10.1007/S13244-018-0599-0
Herron J, Reynolds JH. Trends in the on-call workload of radiologists. Clinical Radiology. 2006;61(1):91-96. https://doi.org/10.1016/j.crad.2005.07.008
Weber RJ, van Bommel RM, Louwman MW, Nederend J, Voogd AC, Jansen FH, Tjan-Heijnen VC, Duijm LE. Characteristics and prognosis of interval cancers after biennial screen-film or full-field digital screening mammography. Breast Cancer Research and Treatment. 2016;158(3):471-483. https://doi.org/10.1007/S10549-016-3882-0
McKinney SM, Sieniek M, Godbole V, Godwin J, Antropova N, Ashrafian H, Back T, Chesus M, Corrado GS, Darzi A, Etemadi M, Garcia-Vicente F, Gilbert FJ, Halling-Brown M, Hassabis D, Jansen S, Karthikesalingam A, Kelly CJ, King D, Ledsam JR, Melnick D, Mostofi H, Peng L, Reicher JJ, Romera-Paredes B, Sidebottom R, Suleyman M, Tse D, Young KC, De Fauw J, Shetty S. International evaluation of an AI system for breast cancer screening. Nature. 2020;577(7788):89-94. https://doi.org/10.1038/s41586-019-1799-6
Kim HE, Kim HH, Han BK, Kim KH, Han K, Nam H, Lee EH, Kim EK. Changes in cancer detection and false-positive recall in mammography using artificial intelligence: a retrospective, multireader study. Lancet Digital Health. 2020;2(3):138-148. https://doi.org/10.1016/S2589-7500(20)30003-0
Rodriguez-Ruiz A, Lång K, Gubern-Merida A, Broeders M, Gennaro G, Clauser P, Helbich TH, Chevalier M, Tan T, Mertelmeier T, Wallis MG, Andersson I, Zackrisson S, Mann RM, Sechopoulos I. Stand-Alone Artificial Intelligence for Breast Cancer Detection in Mammography: Comparison With 101 Radiologists. JNCI: Journal of the National Cancer Institute. 2019;111(9):916-922. https://doi.org/10.1093/JNCI/DJY222
Leibig C, Brehmer M, Bunk S, Byng D, Pinker K, Umutlu L. Combining the strengths of radiologists and AI for breast cancer screening: a retrospective analysis. Lancet Digital Health. 2022;4(7):507-519. https://doi.org/10.1016/S2589-7500(22)00070-X
Hickman SE, Woitek R, Le EPV, Im YR, Mouritsen Luxhøj C, Aviles-Rivero AI, Baxter GC, MacKay JW, Gilbert FJ. Machine Learning for Workflow Applications in Screening Mammography: Systematic Review and Meta-Analysis. Radiology. 2022;302(1):88-104. https://doi.org/10.1148/RADIOL.2021210391
Liu J, Lei J, Ou Y, Zhao Y, Tuo X, Zhang B, Shen M. Mammography diagnosis of breast cancer screening through machine learning: a systematic review and meta-analysis. Clinical and Experimental Medicine. 2022;October 15. Online ahead of print. https://doi.org/10.1007/S10238-022-00895-0
Lauritzen AD, Rodríguez-Ruiz A, von Euler-Chelpin MC, Lynge E, Vejborg I, Nielsen M, Karssemeijer N, Lillholm M. An Artificial Intelligence—based Mammography Screening Protocol for Breast Cancer: Outcome and Radiologist Workload. Radiology. 2022;304(1):41-49. https://doi.org/10.1148/radiol.210948
Henriksen EL, Carlsen JF, Vejborg IMM, Nielsen MB, Lauridsen CA. The efficacy of using computer-aided detection (CAD) for detection of breast cancer in mammography screening: a systematic review. Acta Radiologica. 2019;60(1):13-18. https://doi.org/10.1177/0284185118770917
Морозов С.П., Владзимирский А.В., Ледихова Н.В., Гомболевский В.А., Андрейченко А.Е., Арзамасов К.М., Логунова Т.А., Блохин И.А. Использование сервисов на основе технологии искусственного интеллекта при проведении описаний рентгенологических снимков. Серия: Лучшие практики лучевой и инструментальной диагностики. М.: ГБУЗ «НПКЦ ДиТ ДЗМ»; 2020. Ссылка активна на 10.05.23. https://tele-med.ai/biblioteka-dokumentov/ispolzovanie-servisov-na-osnove-tehnologii-iskusstvennogo-intellekta-pri-provedenii-opisanij-rentgenologicheskih-snimkov
Евтеева К.Б., Павлов Н.А., Андрейченко А.Е., Арзамасов К.М., Морозов С.П. Платформа экспертного пересмотра: веб-инструмент разметки проекционных методов лучевой диагностики на уровне исследования. Свидетельство о государственной регистрации программы для ЭВМ 2022615948 от 05.04.22. Государственное бюджетное учреждение здравоохранения города Москвы «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы».
Seah JCY, Tang CHM, Buchlak QD, Holt XG, Wardman JB, Aimoldin A, Esmaili N, Ahmad H, Pham H, Lambert JF, Hachey B, Hogg SJF, Johnston BP, Bennett C, Oakden-Rayner L, Brotchie P, Jones CM. Effect of a comprehensive deep-learning model on the accuracy of chest x-ray interpretation by radiologists: a retrospective, multireader multicase study. Lancet Digital Health. 2021;3(8):496-506. https://doi.org/10.1016/S2589-7500(21)00106-0
Sun X, Xu W. Fast implementation of DeLong’s algorithm for comparing the areas under correlated receiver operating characteristic curves. IEEE Transactions on Signal Processing. 2014;21(11):1389-1393. https://doi.org/10.1109/LSP.2014.2337313
Ruopp MD, Perkins NJ, Whitcomb BW, Schisterman EF. Youden Index and Optimal Cut-Point Estimated from Observations Affected by a Lower Limit of Detection. Biometrical Journal. 2008;50(3):419-430. https://doi.org/10.1002/BIMJ.200710415
Pauly M, Asendorf T, Konietschke F. Permutation-based inference for the AUC: A unified approach for continuous and discontinuous data. Biometrical Journal. 2016;58(6):1319-1337. https://doi.org/10.1002/BIMJ.201500105
Морозов С.П., Говорухина В.Г., Диденко В.В., Пучкова О.С., Павлов Н.А., Овсянников А.Г., Андрейченко А.Е., Ледихова Н.В., Владзимирский А.В. Перспективы использования технологий искусственного интеллекта (ИИ) в скрининге рака молочной железы. Вопросы онкологии. 2020;66(6):603-608. https://doi.org/10.37469/0507-3758-2020-66-6-603-608
Romero-Martín S, Elías-Cabot E, Raya-Povedano JL, Gubern-Mérida A, Rodríguez-Ruiz A, Álvarez-Benito M. Stand-Alone Use of Artificial Intelligence for Digital Mammography and Digital Breast Tomosynthesis Screening: A Retrospective Evaluation. Radiology. 2022;302(3):535-542. https://doi.org/10.1148/RADIOL.211590
Sasaki M, Tozaki M, Rodríguez-Ruiz A, Yotsumoto D, Ichiki Y, Terawaki A, Oosako S, Sagara Y, Sagara Y. Artificial intelligence for breast cancer detection in mammography: experience of use of the ScreenPoint Medical Transpara system in 310 Japanese women. Breast Cancer. 2020;27(4):642-651. https://doi.org/10.1007/S12282-020-01061-8
Salim M, Wåhlin E, Dembrower K, Azavedo E, Foukakis T, Liu Y, Smith K, Eklund M, Strand F. External Evaluation of 3 Commercial Artificial Intelligence Algorithms for Independent Assessment of Screening Mammograms. JAMA Oncology. 2020;6(10):1581-1588. https://doi.org/10.1001/JAMAONCOL.2020.3321
Freeman K, Geppert J, Stinton C, Todkill D, Johnson S, Clarke A, Taylor-Phillips S. Use of artificial intelligence for image analysis in breast cancer screening programmes: systematic review of test accuracy. BMJ. 2021;374. https://doi.org/10.1136/BMJ.N1872
Wu N, Phang J, Park J, Shen Y, Huang Z, Zorin M, Jastrzebski S, Fevry T, Katsnelson J, Kim E, Wolfson S, Parikh U, Gaddam S, Lin LLY, Ho K, Weinstein JD, Reig B, Gao Y, Toth H, Pysarenko K, Lewin A, Lee J, Airola K, Mema E, Chung S, Hwang E, Samreen N, Kim SG, Heacock L, Moy L, Cho K, Geras KJ. Deep Neural Networks Improve Radiologists’ Performance in Breast Cancer Screening. IEEE Transactions on Medical Imaging. 2020;39(4):1184-1194. https://doi.org/10.1109/TMI.2019.2945514
Павлович П.И., Бронов О.Ю., Капнинский А.А., Абович Ю.А., Рычагова Н.И. Сравнительное исследование результатов анализа данных цифровой маммографии системы на основе искусственного интеллекта «Цельс» и врачей-рентгенологов. Digital Diagnostics. 2021;2(2S):22-23. https://doi.org/10.17816/DD83184

Закрыть метаданные

Введение

На сегодняшний день рак молочной железы (РМЖ) — одно из самых распространенных, социально-значимых заболеваний во всем мире, в том числе и в России. В связи с этим задачи онкопрофилактики и раннего выявления РМЖ являются приоритетными в сфере здравоохранения нашей страны [1]. Для решения этих задач успешно применяются различные программы скрининга, позволяющие достичь и даже превысить национальные целевые показатели, например «Московский скрининг рака молочной железы» [2]. Для диагностики злокачественных новообразований (ЗНО) молочной железы в первую очередь используется рентгеновская маммография (ММГ), позволяющая выявлять патологический процесс на ранних стадиях, тем самым снизить смертность от онкологических заболеваний [3]. Однако ММГ нельзя считать совершенным методом по причине низкой диагностической точности [4]. С целью повышения метрик диагностической точности метода действующим законодательством Российской Федерации в сфере здравоохранения предусмотрен двойной просмотр результатов, так называемое «двойное чтение» [5]. В систематическом обзоре [6] показано, что двойное чтение в рентгенологии повышает чувствительность метода при снижении его специфичности, поэтому авторы рекомендуют использовать двойное чтение для таких заболеваний, при которых значительная польза достигается за счет раннего выявления, а пропуск патологии может иметь серьезные последствия, например, РМЖ. Как правило, врачи-рентгенологи, специализирующиеся на рентгенографии органов грудной клетки и ММГ, описывают наибольшее количество исследований в смену по сравнению со специалистами других модальностей и областей исследований [7]. В связи с различным уровнем подготовки и опыта рентгенологов при интерпретации ММГ могут встречаться ложные результаты. Поэтому на практике, особенно в период повышенной нагрузки на врачей-рентгенологов (пандемия COVID-19), сложно выделить качественные и достаточные ресурсы для осуществления двойного чтения. Организация скрининговой программы РМЖ также является трудоемкой задачей из-за большого потока пациентов, соответствующих критериям включения и проходящих скрининг [2], а двойное чтение результатов ММГ приводит к дополнительным экономическим затратам; вместе с тем, отказ от такой процедуры чреват выраженным снижением качества и выявления РМЖ.

Более того, есть данные литературы о том, что до 25% видимых на ММГ злокачественных новообразований все еще не выявляются при скрининге [8].

В последние годы отмечается активная разработка алгоритмов на основе искусственного интеллекта (ИИ-алгоритмов), способных анализировать цифровые рентгенологические исследования. Большое количество исследований посвящено валидации алгоритмов по выявлению РМЖ на ММГ [3, 9—11], что обусловлено высокой нагрузкой на врачей-рентгенологов, особенно в скрининговых программах. Проведены исследования, демонстрирующие сопоставимую с диагностической точностью врача-рентгенолога чувствительность отдельного ИИ-алгоритма [12], а также выполнены систематические обзоры [13, 14], которые показывают, что объединенные показатели чувствительности, специфичности и площади под характеристической кривой (далее — AUC от англ. area under curve) ИИ-алгоритмов не имеют статистически значимой разницы по сравнению с врачом-рентгенологом. Отдельные авторы указывают на статистически значимое превосходство диагностической точности ИИ по сравнению с врачом [9]. Зарубежный опыт использования ИИ-алгоритмов при скрининге РМЖ свидетельствует об отсутствии статистически значимых различий между двойным чтением врачами-рентгенологами и применением комбинации врача-рентгенолога с ИИ-алгоритмом [15, 16].

Указанные выше публикации демонстрируют потенциальную эффективность применения ИИ для ММГ, однако для оценки возможности применения ИИ-алгоритмов на практике необходимо определить пороговые значения метрик диагностической точности для допуска алгоритмов к практическому применению. В литературе существует единый стандарт порогового значения для площади под характеристической кривой для всех направлений и модальностей ИИ-алгоритмов — 0,81 [17], но отдельных данных по порогам метрик качества для профилактических исследований по ММГ на данный момент нет.

Цель исследования — оценить пороговые значения метрик качества ИИ-алгоритмов для анализа маммографических исследований в сопоставлении с диагностической точностью врача-рентгенолога.

Материал и методы

Дизайн исследования

Выполнено комбинированное ретро- и проспективное обсервационное когортное исследование, основанное на результатах ранее зарегистрированного и одобренного локальным этическим комитетом исследования «Эксперимент по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы» (далее — Московский Эксперимент). В настоящем исследовании учитывались результаты Московского Эксперимента за период с 2020 по 2021 г. Компании-разработчики предоставляли программные продукты — алгоритмы на основе ИИ, так называемые ИИ-сервисы, которые после прохождения тестирования встраивались в Единый радиологический информационный сервис Единой медицинской информационно-аналитической системы Москвы (ЕРИС-ЕМИАС) и проводили автоматизированный анализ результатов лучевых исследований по различным модальностям и направлениям, включая маммографию. ИИ-сервисы предоставляли результаты анализа, доступные врачам-рентгенологам, в следующем виде: сортировка исследований по приоритетности, разметка патологических находок на изображениях и текстовый протокол описания исследования. Все медицинские данные использовались исключительно в деперсонализированном виде.

ИИ-сервисы

В исследовании использовано 5 ИИ-сервисов для поиска патологии на цифровых маммографических изображениях. Алгоритм принимал на вход исследование в формате DICOM, содержащее изображения двух молочных желез, каждая из которых отсканирована в двух проекциях (CC и MLO). Ответы ИИ-сервисов получены в виде вероятности наличия злокачественных изменений в ММГ-исследовании в целом, а также в виде дополнительных DICOM-серий с графическим оконтуриванием областей интереса. Методология расчета вероятности наличия патологии каждым разработчиком выбиралась самостоятельно и в настоящей работе не являлась предметом изучения. Примеры результатов работы ИИ-сервисов представлены на рис. 1 на цв. вклейке.

Рис. 1. Примеры работы ИИ-алгоритмов (последовательность согласно табл. 1): указаны значения вероятностей наличия злокачественных изменений в графически оконтуренных областях интереса или только локализация патологической находки.

Веб-платформа для сбора оценок, выставленных врачами-рентгенологами

Получение и сохранение оценок от врачей-рентгенологов осуществлялось на специально разработанной для данной задачи цифровой платформе с веб-интерфейсом [18]. Доступ к платформе организован посредством сети Интернет. Отображение исследований осуществлялось интегрированным средством просмотра DICOM-исследований, функционал которого соответствовал общим требованиям для лучевой диагностики. Для каждого исследования предоставлялась информация о возрасте и поле обследованного пациента. Дополнительная клиническая информация отсутствовала, что обеспечивало одинаковые условия для врачей и ИИ. Пример визуализации исследования на платформе приведен на рис. 2 на цв. вклейке.

Рис. 2. Интерфейс платформы экспертного пересмотра.

Для решения задачи сравнения диагностической точности врачей и ИИ использованы оценки наличия патологического процесса во всем исследовании без дополнительной детализации по классификациям и локализациям находок. Для этого предлагалось выбрать один из вариантов ответа для каждого исследования: 1) определенно без патологии; 2) возможно без патологии; 3) затрудняюсь ответить; 4) возможно с патологией; 5) определенно с патологией. Каждый врач-рентгенолог мог проанализировать 20, 50 или 80 исследований [19].

Врачи-рентгенологи

В исследовании добровольно принимали участие врачи-рентгенологи из различных медицинских организаций Российской Федерации. Результаты оценки врачами, не закончившими разметку выбранного количества исследований, не использовались для последующего сравнительного анализа. Таким образом, в исследование включены результаты 113 врачей-рентгенологов, распределение которых по стажу работы по специальности было следующим: 0—1 год — 16 врачей, 1—5 лет — 32 врача, 5—10 лет — 28 врачей и 37 врачей со стажем более 10 лет. Сбор персональных данных врачей не осуществлялся.

Набор данных

В данную работу отбирались ММГ-исследования из ЕРИС-ЕМИАС, подвергнутые анонимизации и размеченные экспертами в рамках Московского Эксперимента. Исследование классифицировалось как патологическое в том случае, если врачом-рентгенологом при интерпретации выставлена одна из следующих категорий BI-RADS по диагностической шкале — 3, 4a, 4b, 4c или BI-RADS 0 по скрининговой шкале.

Исследование классифицировалось как патологическое при выполнении одновременно двух условий:

1. При достижении консенсуса между двумя экспертами с опытом работы более 3 лет по направлению «маммография».

2. Злокачественные новообразования верифицированы гистологическим методом (по результатам трепан-биопсии).

В случае разногласия двух экспертов подключался третий эксперт. Решение о включении исследования в набор данных принималось на основании согласия двух экспертов.

Исследование классифицировалось как нормальное в случае достижения консенсуса между двумя экспертами. В случае разногласия исследование не включалось в набор данных.

Критериями исключения при подготовке набора данных были состояния после оперативных вмешательств, технические дефекты и несоблюдение методики сканирования при выполнении исследования, а также отсутствие гистологической или экспертной валидации. Финальный набор данных состоял из 100 ММГ-исследований: 50 — с целевой патологией, 50 — без целевой патологии.

Оценка «среднего» врача-рентгенолога

На первом этапе для каждого исследования выставлялась оценка от 1 до 5 баллов в соответствии с ответами врачей. Далее для каждого исследования рассчитывалась медиана балльной оценки и приводилась к значению в диапазоне 0—100, после чего осуществлялась дальнейшая оценка методом ROC-анализа.

Статистическая обработка данных

Критерии включения в исследование: наличие ответа от всех ИИ-сервисов и наличие оценки минимум от трех врачей. Оценка диагностической точности врача-рентгенолога и алгоритмов ИИ осуществлялась на основании ROC-анализа, что позволило минимизировать субъективность оценки исследования врачом-рентгенологом. Площадь под характеристической кривой рассчитана с 95% доверительным интервалом (ДИ) методом Делонга (DeLong) [20]. Для определения оптимального порогового значения использован максимум индекса Юдена (Youden) [21], для данного порогового значения определены метрики — чувствительность, специфичность и точность. Все значения приведены с 95% ДИ. Сравнительный анализ AUC проведен с помощью перестановочного теста [22]. Проверена нулевая гипотеза H0 об отсутствии различий между ROC-кривыми против альтернативной H1 о существовании различий. Уровень значимости p<0,05.

Результаты

Для каждого ИИ-сервиса и «среднего» врача-рентгенолога построены характеристические кривые (рис. 3 на цв. вклейке), оптимальные пороговые значения по максимуму индекса Юдена отмечены маркером. ROC-кривые сглажены, точками отмечены значения вероятности наличия патологии, их количество обусловлено дискретностью этих значений.

Рис. 3. Результаты ROC-анализа «среднего» врача-рентгенолога и ИИ-алгоритмов при анализе маммографии для групп «с патологией» и «без патологии».

Увеличенным маркером отмечена точка с оптимальным значением метрик (с максимизацией индекса Юдена).

Метрики диагностической точности ИИ-сервисов и «среднего» врача-рентгенолога на тестовом наборе данных приведены в табл. 1.

Таблица 1. Метрики диагностической точности ИИ-сервисов и «среднего» врача-рентгенолога (95% ДИ)

Параметр	AUC	Чувствительность*	Специфичность*	Точность*
ИИ-1	0,713 (0,613—0,811)	0,812 (0,702—0,923)	0,600 (0,464—0,736)	0,704 (0,614—0,794)
ИИ-2	0,818 (0,736—0,897)	0,583 (0,444—0,723)	0,960 (0,906—1,000)	0,776 (0,693—0,858)
ИИ-3	0,893 (0,826—0,958)	0,750 (0,628—0,872)	0,940 (0,874—1,000)	0,847 (0,776—0,918)
ИИ-4	0,903 (0,841—0,963)	0,833 (0,728—0,939)	0,860 (0,764—0,956)	0,847 (0,776—0,918)
«Средний» врач-рентгенолог	0,928 (0,883—0,976)	0,792 (0,677—0,907)	0,940 (0,874—1,000)	0,867 (0,800—0,935)
ИИ-5	0,958 (0,923—0,994)	0,833 (0,728—0,939)	0,960 (0,906—1,000)	0,898 (0,838—0,958)

Примечание. * — метрики рассчитаны для порогового значения, определенного по максимуму индекса Юдена.

«Средний» врач-рентгенолог обладал следующими минимальными метриками диагностической точности (нижняя граница ДИ): AUC 0,883, чувствительность 0,677, специфичность 0,874, точность 0, 800.

Как следует из представленных данных, максимальной чувствительностью для порогового значения, определенного максимумом индекса Юдена, обладали два ИИ-сервиса: ИИ-4 и ИИ-5, которые по абсолютному значению превзошли результаты «среднего» врача-рентгенолога. Для ИИ-2 и ИИ-5 также получены максимальные значения для специфичности, рассчитанной для того же порогового значения.

Для комплексной оценки баланса чувствительности и специфичности можно использовать метрику точность. По абсолютным значениям этой метрики ИИ-5 превзошел результаты «среднего» врача-рентгенолога, однако превышение было статистически незначимо.

Важно отметить, что проведенное выше сравнение по метрикам не учитывало тот факт, что в границах доверительных интервалов метрики, обозначенных ИИ-сервисов, пересекаются. Для объективного сравнения ИИ-сервисов между собой, а также с результатами «среднего» врача-рентгенолога, использовали AUC — интегральную метрику диагностической точности, не зависящую от выбранного порогового значения, а также перестановочный тест для оценки уровня значимости. Полученные значения приведены в табл. 2.

Таблица 2. Сравнение AUC-алгоритмов искусственного интеллекта

i	j
i	ИИ-1	ИИ-2	ИИ-3	ИИ-4	«Средний» врач-рентгенолог	ИИ-5
ИИ-1	0,71	–0,11	–0,18	–0,19	–0,22	–0,25
ИИ-2	0,11	0,82	–0,07	–0,08	–0,11	–0,14
ИИ-3	0,18	0,07	0,89	–0,01	–0,04	–0,07
ИИ-4	0,19	0,08	0,01	0,90	–0,03	–0,06
«Средний» врач-рентгенолог	0,22	0,11	0,04	0,03	0,93	–0,03
ИИ-5	0,25	0,14	0,07	0,06	0,03	0,96

Примечание. На главной диагонали указаны значения AUC-алгоритмов, в остальных ячейках — разница AUC i—j. Серым цветом и жирным шрифтом выделены статистически значимые различия (p<0,05).

Данные, приведенные в табл. 2, указывают на статистически значимое превосходство диагностической точности «среднего» врача-рентгенолога над ИИ-1 и ИИ-2 и отсутствие статистически значимой разницы с ИИ-3, ИИ-4 и ИИ-5. В тройку с лучшими показателями по AUC помимо «среднего» врача-рентгенолога входят ИИ-4 и ИИ-5, между которыми не получена статистически значимая разница.

Обсуждение

При внедрении в клиническую практику новых методик или технологий необходимо понимание степени влияния на текущий процесс. То же самое применимо и к внедрению технологий на основе ИИ, в том числе в лучевой диагностике: необходимо определить оптимальную точку приложения этой технологии. Для скрининга ЗНО молочной железы оправдано и перспективно применение алгоритмов на основе ИИ [23]. В ряде работ уже продемонстрирована эффективность использования ИИ для первого или второго чтения исследований [11, 24].

В работе [16] авторы показали, что при скрининге РМЖ комбинация диагностической точности врача-рентгенолога и ИИ-алгоритма обладает большей чувствительностью и меньшей специфичностью по сравнению с врачом-рентгенологом, а также не имеют статистически значимой разницы по сравнению с двойным чтением врачами-рентгенологами.

В работе [15] чувствительность скрининга на основе ИИ оказалась не ниже, чем у врачей-рентгенологов без применения ИИ-алгоритмов, а специфичность статистически значимо превысила показатели врачей без ИИ-алгоритмов. При этом авторы использовали следующую схему скрининга: сначала данные анализировали с помощью ИИ-алгоритма, а второе чтение проводил врач-рентгенолог, тем самым повышалась чувствительность метода за счет алгоритма, а специфичность за счет врача.

Для принятия решения о применении конкретного ИИ-алгоритма в клинической практике следует определить приемлемый уровень диагностической точности. Для этих целей удобно использовать метрику, которая учитывает и чувствительность, и специфичность — AUC. С одной стороны, существует фиксированное значение AUC для принятия решения о допуске к клинической апробации сервиса на основе ИИ, равное 0,81 [17]. По этому критерию 4 из 5 ИИ-сервисов, представленные в настоящем исследовании, удовлетворяют требованию и могут быть рекомендованы к практическому использованию. Однако пороговое значение 0,81 для AUC носит рекомендательный характер и не зависит от конкретной модальности или вида исследования. В этом случае необходимо обратиться к научным исследованиям, проводящим оценку эффективности применения ИИ для ММГ. Из обзора литературы следует большой вариатив возможных значений AUC: от 0,706 [25] до 0,956 [26]. Однако систематический обзор, проведенный K. Freeman и соавт. [27], показал, что 34 из 36 ИИ-систем для диагностики РМЖ были менее точные по сравнению с врачом-рентгенологом и все уступали двойному чтению. Наше исследование показало, что ни один из оцениваемых ИИ-сервисов по значениям AUC статистически значимо не превзошел «среднего» врача-рентгенолога. С другой стороны, два ИИ-сервиса показали значения AUC, статистически значимо не отличающиеся от таковых для «среднего» врача-рентгенолога.

Важным результатом настоящей работы является оценка диагностической точности «среднего» врача-рентгенолога по данным 113 врачей-рентгенологов. В литературе можно встретить разные значения AUC для диагностической точности зарубежных врачей-рентгенологов: 0,778 [28], 0,816 [25], 0,87 [11]. При этом в отечественной литературе вопрос диагностической точности врача-рентгенолога при описании ММГ исследований затронут только в одной публикации П.И. Павлович и соавт. [29]. Однако в обозначенной работе проведен анализ работы двух врачей, которые пропустили 1 патологический случай из 49, при этом ROC-анализ не был проведен. Самое масштабное на сегодняшний день исследование по оценке диагностической точности врача-рентгенолога при описании ММГ основано на данных работы 101 врача: AUC составила 0,814 [11]. В нашем исследовании диагностическая точность врачей-рентгенологов оказалась выше, чем во многих зарубежных исследованиях. Целью данного исследования не являлась аналитика расхождения метрик диагностической точности «среднего» врача-рентгенолога с результатами зарубежных исследователей, мы можем лишь предположить, что на это могла повлиять специфика подготовки наших специалистов, а больший объем выборки является залогом статистической значимости результатов.

Полученные нами результаты важны для отечественной лучевой диагностики прежде всего тем, что при практическом внедрении алгоритмов ИИ для анализа ММГ необходимо предъявлять более жесткие требования по метрикам диагностической точности. Так, алгоритмы, описанные в зарубежной литературе, со значениями AUC менее 0,883 (нижняя граница ДИ для усредненного врача-рентгенолога) могут оказаться неэффективными за счет большого числа ложных срабатываний, обесценивая совместную работу пары «врач + ИИ».

Ограничения

К моменту выхода данной публикации в печать возможно появление более актуальных по сравнению с описанными в настоящей работе версий ИИ-сервисов. В настоящей работе мы не проводили оценку эффективности работы пары «врач + ИИ», которая является предметом дальнейших наших изучений.

Заключение

Для практического применения сервисов на основе искусственного интеллекта в условиях отечественной системы здравоохранения мы рекомендуем осуществлять независимую валидацию метрик диагностической точности и сопоставлять их со значениями для врачей-рентгенологов, которые будут работать с результатами этих алгоритмов. В качестве нижнего порога для показателя диагностической точности «площадь под характеристической кривой» рекомендуем использовать значение 0,883.

Участие авторов:

Концепция и дизайн исследования — А.В. Владзимирский, А.Е. Андрейченко, К.М. Арзамасов, Ю.А. Васильев; сбор и обработка материала — С.Ф. Четвериков, С.С. Семенов, К.М. Арзамасов; статистический анализ данных — Ю.С. Кирпичев, Т.М. Бобровская; написание текста — К.М. Арзамасов, Н.А. Павлов; редактирование — С.Ф. Четвериков, С.С. Семенов, Ю.С. Кирпичев, Т.М. Бобровская, О.В. Омелянская.

Источник финансирования:

Данная статья подготовлена авторским коллективом в рамках научно-практического проекта в сфере медицины (№ЕГИСУ: 122112400040-1) «Эталонные наборы данных для устойчивого развития технологий искусственного интеллекта в медицинской диагностике с целью минимизации долгосрочных последствий пандемии коронавирусной инфекции для здоровья населения города Москвы».

Авторы заявляют об отсутствии конфликта интересов.