Рак предстательной железы (РПЖ) — одна из самых распространенных патологий у мужчин старшего возраста [1]. Ежегодно в мире регистрируют более 550 тыс. новых случаев РПЖ. По данным Национального института рака США, РПЖ составляет 9,9% всех новых случаев рака [2].
Программы с использованием искусственного интеллекта (ИИ) успешно применяются в медицине для диагностики заболеваний, разработки протоколов лечения и лекарственных препаратов, персонализированной медицины, мониторинга и ухода за пациентом [3—5]. Клиники по всему миру находятся в постоянном поиске новых технологий ИИ, которые позволят увеличить экономию средств, повысить удовлетворенность пациентов и снизить нагрузку на персонал [6]. Таким образом, в настоящее время применение технологий ИИ в сфере здравоохранения крайне актуально и востребовано.
Базисная диагностика РПЖ включает пальцевое ректальное исследование (ПРИ), определение уровня простатспецифического антигена (ПСА) в сыворотке крови, трансректальное ультразвуковое исследование (ТРУЗИ). Важную роль в постановке диагноза РПЖ играет магнитно-резонансная томография (МРТ). Золотым стандартом диагностики РПЖ является мультифокальная биопсия предстательной железы (ПЖ) под ультразвуковым контролем [7].
Технологии ИИ позволяют значительно сократить время, необходимое для анализа, обеспечить стабильное качество расшифровки данных, свести к минимуму ошибки, связанные с человеческим фактором, и таким образом повысить точность диагностики РПЖ. Поэтому в настоящее время крайне актуальны разработка и внедрение в клиническую практику новых усовершенствованных инструментов ИИ для диагностики РПЖ.
Технологии ИИ применяются для изучения различных РПЖ в следующих аспектах: лабораторная диагностика (например, уровни проформ ПСА), анализ изображений (ТРУЗИ, МРТ) и результатов биопсии ПЖ. Особую роль ИИ играет в оценке результатов послеоперационной гистологии ПЖ.
Искусственный интеллект и лабораторная диагностика рака предстательной железы
Исследователи из Германии создали модель нейронной сети (НС), оценивающую проформы ПСА (-2, -5, -7) и процент свободного ПСА у пациентов с РПЖ и у лиц без доказанной злокачественности новообразования [8]. В работу включены данные 898 пациентов с диагнозом РПЖ и 514 пациентов без доказанного злокачественного процесса из 2 медицинских центров (Арау и Берлин) с показателями ПСА 1—10 мкг/л. Диагноз РПЖ устанавливали на основании результатов биопсии ПЖ под контролем ТРУЗИ. Показатели ПСА были разделены на несколько групп: 1—4, 2—4, 1—10 и 4—10 (4,01—10) мкг/л. Для каждой группы была создана модель НС (всего 12), в скрытом слое которой было 3 нейрона, в выходном — 1. Помимо лабораторных данных учитывали результаты ПРИ и объем ПЖ по данным ТРУЗИ. НС оценивали методом скользящего контроля. По результатам проформы ПСА (-5 и -7) достоверно различались у пациентов с РПЖ и без доказательств злокачественности только в группе с уровнем ПСА 4—10 мкг/л. Внутри группы с ПСА 4—10 мкг/л (группа из Берлина) НС, использующая только 2 переменные (процент свободного ПСА и проПСА) могла достичь той же производительности, что и стандартная НС, использующая такие параметры, как ПСА, процент свободного ПСА, ПРИ, объем ПЖ (AUC обоих НС = 0,84). Однако при 95% чувствительности ни одна НС не смогла улучшить специфичность по сравнению с процентом свободного ПСА. В заключение авторы отмечают, что при низкой концентрации ПСА (до 4 мкл/л только для скрининга) показатели проПСА (-5, -7) показали лучшую производительность в сравнении с процентом свободного ПСА. При уровне ПСА 4—10 мг/л показатели проПСА и процент свободного ПСА могут в будущем использоваться в качестве входных данных в НС вместо объема ПЖ и данных ПРИ. Ограничениями исследования явились разное количество пациентов в двух центрах, а также неодинаковые критерии отбора и условия проведения биопсии в центрах Берлина и Арау.
Искусственный интеллект и МРТ-изображения предстательной железы
Машинное и глубокое обучение широко используются для оценки МРТ-изображений ПЖ. Область применения: от сегментации изображений [9—11] и постановки диагноза РПЖ [12—19] до оценки распространенности РПЖ [20] и динамического наблюдения в ходе лечения [21—23]. Алгоритмы ИИ позволяют обходиться без усиления МРТ-изображений контрастом, это помогает избежать систематического использования контрастных агентов для визуализации ПЖ, что является несомненным плюсом, так как при введении гадолиния все чаще обнаруживаются признаки его накопления в организме [24].
В исследованиях, посвященных возможностям ИИ в медицине, участвуют и огромные корпорации, разрабатывающие технологии визуализации. Например, Национальный институт здоровья США (NIH) и компания NVIDIA в 2018 г. начали совместную деятельность по разработке систем глубокого обучения в области неинвазивной и инвазивной визуализации [25]. Исследования посвящены диагностике РПЖ на основе сегментации изображений мультипараметрической МРТ.
Основная цель — разработать инструмент для более точной оценки как клинических, так и клеточных проявлений заболевания. Врачи-радиологи NIH проанализировали данные 465 мультипараметрических МРТ из нескольких медицинских центров, в которых представлены приборы различных производителей (Siemens, Philips, GE) и используются разные протоколы МРТ, специфичные для каждого центра. Границы ПЖ отслеживались вручную в трех плоскостях на Т2-взвешенной МРТ рентгенологом более чем с 10-летним опытом работы по диагностике МРТ ПЖ. Ученые NVIDIA, использующие оптимизированную платформу Clara Train SDK, разработали 3D-конвейер для глубокого обучения. Использовалась гибридная НС 2D-3D, модель оценена при помощи данных 98 обезличенных пациентов. При использовании этого метода был получен балл по шкале DICE [26], равный 0,922. В то же время балл DICE между заключениями различных радиологов составил 0,919. Таким образом, команда пришла к выводу, что этот подход достигает производительности, аналогичной таковой у квалифицированных радиологов. Одно из преимуществ работы заключается в том, что был разработан метод обобщения домена, основанный на преобразованиях аугментации, которые являются частью обучающей структуры Clara Train Framework. При обучении и тонкой настройке не использовались данные или заключения из тестового домена. Эта технология позволяет обобщать разные протоколы МРТ, полученные на разных устройствах, что снижает риск неточной интерпретации, связанный с особенностями протокола/машины для МРТ.
Золотым стандартом диагностики РПЖ является трансректальная мультифокальная биопсия ПЖ. МРТ в настоящее время не может полностью заменить биопсию ПЖ при постановке окончательного диагноза.
Искусственный интеллект в оценке биопсии предстательной железы
Применение систем ИИ требует оцифровки образцов, полученных при биопсии, тогда как патологоанатомы чаще смотрят гистологические препараты. Для оцифровки изображения, как правило, используют цифровой сканер микропрепаратов — разновидность оптического микроскопа, который получает фотографии образцов высокого разрешения и сохраняет их в виде изображений.
Цифровые сканеры позволяют пользователю имитировать работу с оптическим микроскопом на компьютере: можно анализировать препарат как целиком, так и любую его часть при необходимом увеличении, что значительно улучшает точность диагностики, в том числе РПЖ [27, 28].
Основные преимущества цифрового сканера: качественный и количественный анализ изображений, точный подсчет маркеров патологии, возможность анализа результатов иммуногистохимических реакций, защита от потери или порчи образцов, создание архива оцифрованных препаратов, что особенно важно при использовании технологий ИИ, возможность удаленной работы патоморфолога со снимками образцов, передача и трансляция снимков, обеспечивающая возможность консилиума специалистов. Несмотря на все преимущества применения сканеров, оцифровка изображения повышает затраты, что затрудняет широкое распространение ИИ для оценки биопсии.
Эту проблему попытался решить Google Health, создав микроскоп дополненной реальности (augmented reality microscope — ARM) [29]. ARM накладывает информацию, полученную с помощью алгоритмов ИИ, на изображение образца под микроскопом в режиме реального времени, обеспечивая бесшовную интеграцию ИИ в рутинные рабочие процессы.
Принцип работы ARM заключается в следующем (рис. 1): аппаратные компоненты системы ARM позволяют осуществлять захват области обзора в режиме реального времени и выводить информацию в окуляр микроскопа. Изображения образца захватываются непрерывно. Затем алгоритм глубокого обучения обрабатывает каждое изображение с помощью ускоренного вычислительного устройства. Выходные результаты предоставляются, например, в виде тепловых карт. Наконец, выходные результаты дополнительно обрабатываются для отображения наиболее важной информации, не заслоняя при этом исходное изображение. Например, для облегчения диагностики можно использовать контуры различных цветов, а также выводить на экран текст для измерения размера патологической зоны.
Рис. 1. Принцип работы ARM [29].
Система ARM состоит из 3 компонентов: микроскоп дополненной реальности; компьютер с программным конвейером для получения изображений с микроскопа, запускающий алгоритмы глубокого изучения, отображающие результаты микроскопии в реальном времени; набор обученных алгоритмов глубокого изучения. Включая компьютер, общая стоимость ARM на 1—2 порядка ниже, чем у обычных ползунковых сканеров, без изменений рабочего процесса и задержек, связанных с оцифровкой. Кроме того, благодаря модульной конструкции системы ее можно легко модернизировать для большинства микроскопов.
База данных для создания алгоритма глубокого обучения этой системы состояла из 75 образцов после радикальной простатэктомии, полученных из Атласа ракового генома (The Cancer Genome Atlas — TCGA) и 376 образцов после радикальной простатэктомии из другого источника. Образцы оцифрованы сканером Aperio AT2 (размер пикселя 0,252×0,252 мкм2). Эти цельные образцы были проанализированы патоморфологами — выделены области с доброкачественными процессами и со злокачественными новообразованиями. Количество и опыт патоморфологов не указаны. Для оценки алгоритма глубокого обучения использовано 34 образца ткани ПЖ из двух независимых источников. Все образцы принадлежали разным пациентам. Из них было получено 1360 полей, представляющих разнообразие гистопатологических процессов: доброкачественные, в том числе воспалительные, переходные и различные гистологические варианты злокачественных новообразований. Стандартные эталонные метки для этих слайдов были установлены на основании анализа трех патоморфологов, использующих иммуногистохимическое окрашивание PIN4-коктейлем там, где было возможно. Собрано 20 локализаций (40 полей) в одном изображении, включая максимум 10 локализаций, содержащих опухоли (20 полей) там, где это было доступно. AUC алгоритма составила 0,93 (95% доверительный интервал, 0,91—0,95) при 10-кратном увеличении изображения и AUC 0,99 (95% доверительный интервал, 0,97—0,99) при 20-кратном увеличении. Интересным является тот факт, что дополнительно была разработана система обнаружения изображений «вне фокуса» с использованием InceptionV3-FCN. Проведено обучение по 216 тыс. случайно выбранных фрагментов из 27 тыс. изображений образцов, оцифрованных с помощью Aperio AT2 (размер пикселя 0,252×0,252 мкм2). ARM, по мнению авторов, может найти широкое применение в различных областях медицины.
P. Ström и соавт. [30] считают, что технологии ИИ позволят снизить нагрузку на патоморфологов и улучшить согласованность между различными специалистами при анализе образцов игольчатой биопсии ПЖ. В своем исследовании они оцифровали 6682 образца биопсии ПЖ от 976 участников популяционного исследования STHLM3 для обучения глубоких НС оценке биопсии ПЖ. Оценка работы НС проводилась по прогнозированию наличия злокачественной опухоли, ее размеров и градации по шкале Глисона в независимом тестовом наборе, состоящем из 1631 биопсии 246 мужчин. Дополнительно была проведена оценка присвоения баллов по шкале Глисона на 87 образцах биопсии, индивидуально оцененных 23 опытными урологами-патоморфологами Международного общества урологической патологии. Урологи-патоморфологи, принимавшие участие в исследовании, не имели сведений о клинических характеристиках пациентов. Один патоморфолог оценивал все ядра в образцах биопсии в соответствии с классификацией ISUP и обводил раковые участки маркером.
AUC НС составила 0,997 при дифференцировке между доброкачественными и злокачественными ядрами в образцах биопсии и 0,999 для установления количества имевших или не имевших РПЖ пациентов из 245 мужчин. Корреляция между миллиметровым РПЖ, предсказанным ИИ и патоморфологом, составила 0,96. В оценке опухоли по шкале Глисона ИИ достигал средней пары каппа 0,62, что соответствовало средним показателям оценки экспертов-патоморфологов (от 0,60 до 0,73). Таким образом, эффективность ИИ при выявлении и оценке злокачественности РПЖ по шкале Глисона в образцах игольчатой биопсии в данном исследовании была сопоставима с результатами анализа международных экспертов по патологии ПЖ.
Ограничением исследования авторы считают отсутствие точных пиксельных заключений, так как в заключениях могут быть выделены области, включающие сочетание опухолевых и неопухолевых желез, а также опухолевые железы различной степени дифференцировки. Для решения данной проблемы использовались фрагменты размером достаточно большим, чтобы охватить железистые структуры, но в то же время достаточно малым, чтобы исключить участки опухолевой ткани различной дифференцировки внутри фрагмента.
Команда ученых из Японии во главе с T. Takeuchi [31] разработала собственную НС для повышения точности прогнозирования стадии РПЖ без данных биопсии. В исследовании приняли участие 334 пациента, каждому из которых была выполнена 12-точечная биопсия под контролем мультипараметрической МРТ. Помимо биопсии оценивались еще 22 параметра: возраст пациента, возраст, когда проводилась биопсия ПЖ, количество предыдущих биопсий, рост, масса тела, индекс массы тела, количество лейкоцитов в крови, гемоглобин, альбумин сыворотки, уровень общего холестерина, уровень триглицеридов, глюкоза крови: скорость клубочковой фильтрации, уровень глутаминовой пировиноградной трансаминазы, С-реактивный белок, ПСА до биопсии, объем ПЖ, рассчитанный посредством трансабдоминального УЗИ, PSAD — плотность ПСА, данные ПРИ, периферические зоны ПЖ, переходная зона ПЖ, Т2-взвешенное изображение, диффузно-взвешенное изображение — DWI. Результаты ПРИ и МРТ оценивали как 1 при подозрении на РПЖ, в противном случае — как 0, а также переменные, выбранные по регрессионному анализу методом Lasso и пошаговому регрессионному анализу, были введены в созданную программу НС. 232 пациента вошли в тренировочную группу, данные остальных 102 пациентов использовались для проверки способности НС определять наличие РПЖ и точность его прогнозирования. По результатам НС использовала больше вводных переменных, чем Лассо (12 из 22) и пошаговый логистический анализ (9 из 22), точность прогнозирования РПЖ при использовании НС была на 5—10% выше по сравнению с регрессионным логистическим анализом. AUC НС была значительно больше при использовании вводных данных, выбранных пошаговым анализом, по сравнению с AUC логистического регрессионного анализа. Польза НС была выше регрессионного анализа между точками отсечения вероятности наличия РПЖ 0,38 и 0,6. Ограничения исследования: при прицельном анализе точность НС по сравнению с логистическим анализом была несущественной для предотвращения ненужных биопсий, пропуска случаев РПЖ, отрицательной прогностической ценности. Несущественная разница относилась к РПЖ высокой степени злокачественности, сумма Глисона (7 и более).
Коллаборация исследователей из Южной Кореи и США создала модель сверточной НС, которая устанавливает наличие РПЖ на основании анализа ядерной архитектуры клеток биоптата ПЖ [32]. Образцы тканей с образцами ядер были окрашены гематоксилином и эозином и оцифровывались с помощью сканера с ползунком (Leica Biosystems) при 40-кратном увеличении (пространственное разрешение 0,228 мкм×0,228 мкм2). Любые связанные компоненты или группа пикселей рассматривались исходно в качестве ядра и проверялись: если размер ядра был меньше 5 мкм2, соотношение большой и малой осей больше 5 при площади менее 25 мкм2, данный элемент определялся как артефакт.
Четыре тканевых микроматрицы (four tissue microarrays — TMAs): A, B, C, D были получены из программы исследования тканевых микрочипов в Национальных институтах здоровья США. Каждый образец ткани оценивался опытным специалистом-патоморфологом для выявления опухоли и определения градации РПЖ по системе Глисона. Так, матрица A содержала 162 образца ткани ПЖ (73 доброкачественных и 89 злокачественных), матрица B — 185 (70 доброкачественных и 115 злокачественных), матрица C — 149 (76 доброкачественных и 73 злокачественных), матрица D — 157 (71 доброкачественный и 86 злокачественных) образцов тканей соответственно. НС прошла обучение по матрице A и протестирована по трем оставшимся матрицам. Точность выявления РПЖ разработанной НС была достаточно высока — AUC=0,974 и превышала другие алгоритмы (AUC других алгоритмов не превышала 0,898).
Использование НС только для оценки стромальных ядер не позволило дифференцировать доброкачественные процессы от злокачественных (AUC 0,555). В то же время анализ как эпителиальных, так и стромальных ядер позволил достичь более высокой точности диагностики (AUC 0,947), однако производительность при этом значительно снизилась. Ограничения: НС не всегда могла правильно идентифицировать ядра; по мнению авторов, улучшение распознавания плотно связанных ядер или негомогенных пятен повысит точность работы НС.
Технологии искусственного интеллекта для оценки послеоперационной гистологии предстательной железы
Большой интерес вызывают технологии ИИ в определении градации опухоли по Глисону.
K. Nagpal и соавт. [33] создали двухступенчатую систему глубокого обучения (DLS), позволяющую оценивать образцы после простатэктомии по шкале Глисона (рис. 2). Цель работы — повысить согласованность в определении градации опухоли по Глисону, что позволит улучшить прогнозирование и оптимизировать лечение пациентов.
Рис. 2. Принцип работы DLS [33].
GP (Gleason pattern) — паттерн по шкале Глисона; GG (Gleason grade) — градация по шкале Глисона.
Точность DLS сравнивалась с заключениями патоморфологов (как минимум 3 общих патоморфолога и 1 патоморфолог-уропатолог просматривали каждый слайд; патоморфолог-уропатолог с учетом комментариев общих патоморфологов определял референсный стандарт). Далее сравнивали стратификацию рисков, предоставляемую DLS, группой из патоморфологов, а также эталонным стандартом, определенным экспертом, предсказывающую прогрессирование болезни. Наконец, был изучен потенциал ИИ для обеспечения более высокой детализации оценки градации опухоли и результирующего потенциала для обеспечения более точного прогноза.
Принцип работы DLS: на 1-й стадии изображение разбивается на фрагменты, каждый из которых анализируется с помощью сверточной нейронной сети (InceptionV3 network) и получает свой балл по шкале Глисона. На 2-й стадии анализируются целые изображения, на которых градация отдельных фрагментов продуцируется в виде тепловых карт. На 2-й стадии используется классификатор ближайших соседей, с помощью которого тепловые карты, полученные на 1-й стадии, суммировались и формировалась оценка по Глисону для каждого слайда. Всего было использовано 112 млн фрагментов, полученных из 912 образцов (около 115 тыс. мм2 ткани), что примерно в 4 раза больше по площади, чем тренировочные образцы в широко используемой базе данных Camelyon16. Для анализа всего этого массива потребовалось около 900 ч работы патоморфолога. На втором этапе для обучения были взяты 1159 классификационных образцов, предоставленных патоморфологами. Оценка DLS проводилась на 331 независимом оценочном образце. Оценочные образцы получены из трех источников: публичного хранилища (TCGA, n=397 пациентов), большой клинической больницы (Naval Medical Center San Diego, n=361 пациентов), а также независимой медицинской лаборатории (Marin Medical Laboratories, n=11 пациентов). В исследовании участвовали 35 морфологов, из них 29 общих патоморфологов (сертифицированы в США) и 3 уропатолога (1 сертифицирован в Канаде, 2 — в США). Еще 3 патоморфолога, сертифицированные ранее или за пределами Северной Америки, давали описания к тренировочным и настроечным, но не валидационным наборам данных. Эти 29 патоморфологов имели различный опыт работы (медиана лет после окончания резидентуры по патологической анатомии равна 10, диапазон от 1 до 37 лет) и представляли академические медицинские центры и частную практику 11 штатов США. Среди этих патоморфологов 20 ответили на вопрос о ежемесячном количестве случаев патологии ПЖ: 35% сообщили об анализе 10 и менее случаев, 45% — 10—20 случаев, и 20% сообщили об анализе более 20 случаев в месяц. Независимо от установления эталонного стандарта были собраны дополнительные заключения патоморфологов по набору валидационных данных, чтобы сравнить их с заключениями DLS. Средняя точность среди 29 патоморфологов, классифицирующих каждую слайдовую группу по шкале Глисона, была 0,61 (95% доверительный интервал (ДИ): 0,56—0,66), точность DLS достигла 0,70 (95% ДИ 0,65—0,75), и была достоверно выше, чем у патоморфологов (p=0,002). Подгруппа из 10 патоморфологов, входящих в группу из 29 таких же специалистов, просмотрела весь набор валидационных данных, индивидуальные точности варьировали от 0,53 до 0,73 (среднее значение 0,64). DLS была более точной, чем у 8 из этих 10 патоморфологов. Остальные 19 патоморфологов рассмотрели накладывающиеся подсеты набора валидации и достигли индивидуальных точностей от 0,31 до 0,74 (среднее значение 0,60). В выводах авторы говорят о том, что их система позволяет улучшить точность подсчета баллов Глисона и принимаемых решений в отношении лечения пациентов особенно там, где нет соответствующих экспертов (патоморфологов-уропатологов). В работе есть следующие ограничения: точность работы DLS зависит от количества и качества образцов ПЖ — не все образцы были необходимого качества (были образцы со смешанным баллом Глисона), артефакты, образцы не ПЖ (а, например, семенных пузырьков), предраковых состояний (high-grade PIN) и редких вариантов злокачественных опухолей ПЖ; сложность оценки «нестандартных» случаев; нет возможности получить дополнительное мнение эксперта; сложность интеграции в рабочий процесс. По мнению авторов, увеличение количества и качества образцов может повысить точность работы DLS.
Возможности человеческого разума не безграничны — наверное так подумали исследователи центра RIKEN (Япония) и создали алгоритм глубокого обучения, который проводит анализ изображений биопсии ПЖ после простатэктомии и дает прогноз относительно рецидива [34]. Основная отличительная особенность заключается в том, что для разработки этого алгоритма не использовались заключения патоморфологов.
Прогноз НС относительно биохимического рецидива РПЖ (повышения уровня ПСА после лечения) сравнивали с оценкой по Глисону патоморфологами (образцы оценивались 2 патоморфологами и затем их заключения подтверждались экспертом без использования клинических или биохимических данных о рецидиве). AUC для прогнозирования биохимического рецидива в течение 1 года НС составила 0,820 (95% ДИ: 0,766—0,873), в то время как на основе оценки опухоли по Глисону патоморфологами — 0,744 (95% ДИ: 0,672—0,816). Интересно, что сочетание двух методов прогнозирования (НС и патоморфологи) позволило получить более точный прогноз (AUC, 0,842 (95% ДИ: 0,788—0,896)), чем любой метод поодиночке. Аналогичным образом точность 5-летнего прогноза для НС составила 0,721 (95% ДИ: 0,672—0,769), для оценки патоморфологами — 0,695 (95% ДИ: 0,639—0,750) и для обоих методов — 0,758 (95% ДИ: 0,710—0,806). Таким образом, помощь ИИ патоморфологам может повысить точность прогноза биохимического рецидива РПЖ. Про ограничения данного исследования информации не найдено. В разделе «Обсуждение» авторы анализируют преимущества и недостатки принципов оценки образцов ПЖ патоморфологами и системами ИИ. Кроме того, авторы говорят о необходимости клинических исследований для подтверждения результатов, полученных в данной работе.
Заключение
ИИ позволяет улучшить качество диагностики РПЖ, снизить время, необходимое для постановки диагноза, уменьшить нагрузку на врачей. Однако анализ работающих алгоритмов ИИ показывает, что каждый из них имеет ряд недостатков. В связи с этим актуальной и перспективной задачей представляется разработка новых, более совершенных технологий ИИ.
Авторы заявляют об отсутствии конфликта интересов.