Введение
Злокачественные опухоли органов головы и шеи составляют 20—25% случаев всей онкологической патологии в Российской Федерации. При этом частота обнаружения злокачественных опухолей полости рта составила 27,2 на 100 тыс. населения в 2017 г. [1]. Пик заболеваемости у мужчин и женщин наблюдается в возрасте 59,7—63,9 года [2], что включает трудоспособную группу населения. За последние несколько лет отмечается неуклонный рост числа пациентов с данной патологией. Несмотря на значительный прогресс в лечении онкологических пациентов в целом, 5-летняя безрецидивная выживаемость больных этой группы существенно не изменилась за последние 20 лет и составляет около 45—50% [3]. Такая неблагоприятная тенденция наблюдается не только в нашей стране, но и в странах Европы, и США. Результаты нового исследования Cancer Research UK свидетельствуют, что за последние 20 лет частота развития рака ротовой полости в Великобритании увеличилась на 68%, или с 8 до 13 случаев на 100 тыс. человек. Cогласно полученным данным, рост заболеваемости характерен для представителей обоих полов, причем не только пожилого, но и молодого возраста (Cancer Research UK). Летальность на первом году жизни с момента постановки диагноза в Российской Федерации составила 31,8% [1]. Несмотря на визуальную доступность локализации опухоли, 60—70% больных начинают лечение на III—IV стадии заболевания [1], что свидетельствует о необходимости разработки новых систем выявления злокачественных опухолей этой области. При этом лечебный подход и прогнозирование состояния больного существенно зависят от оценки статуса пациента и наличия регионарных метастазов по системе ТNM. Основополагающими являются правильная оценка распространенности первичной опухоли и выявление регионарных метастазов, что имеет большое прогностическое значение [4, 5].
Цель исследования — разработка алгоритма и программного комплекса для автоматического выявления структур, подозрительных на злокачественные новообразования в области нижней челюсти, методом анализа и сегментации изображений, полученных при компьютерной томографии (КТ) с помощью технологий глубокого обучения.
Задачи исследования
- Произвести отбор данных КТ у больных, имеющих злокачественные новообразования в области нижней челюсти.
- Разработать программный комплекс на основе искусственной нейронной сети для автоматического анализа и сегментации КТ-изображений.
- Выполнить обучение искусственной нейронной сети, используя маркированные учебные примеры, полученные в процессе сегментации и разметки КТ-изображений.
- Экспериментально оценить и установить эффективность применения программного обеспечения на основе искусственной нейронной сети для выявления КТ-изображений, подозрительных на наличие злокачественных изображений области нижней челюсти.
Материал и методы
Для реализации алгоритма применяли сверточную нейронную сеть (CNN) с архитектурой U-net [6]. Она разработана для анализа биомедицинских изображений в условиях ограниченных наборов обучающих примеров, чем обосновано ее использование. Обучающая и контрольная выборки были сформированы из 22 КТ у пациентов с новообразованиями области нижней челюсти, предоставленных Ленинградским областным клиническим онкологическим диспансером (ГБУЗ ЛОКОД). Разметку выполняли квалифицированные врачи-эксперты в программах Dicom-viewer, Adobe Photoshop. Все скрипты были написаны на языке Python 3 в программной среде IDE PyCharm. Обработку и предобработку изображений осуществляли в IDE PyCharm с помощью библиотек OpenCV и PyDicom. Для моделирования нейронной сети применяли библиотеки машинного обучения Keras и TensorFlow. Настроенную модель обучали на виртуальной машине с тензорным процессором TPU Google Colaboratory. Численный анализ результатов производили с помощью метрики перекрытия Intersection over Union (IoU).
Входные данные. Для обучения и контроля сети было отобрано 383 DICOM изображения зоны интереса из 22 КТ. Перед обучением были произведены предобработка изображений и аугментация выборки. Все изображения конвертировали из формата DICOM в PNG посредством библиотеки PyDicom и записывали в отдельную директорию для разметки. Разметка осуществлялась в костном режиме КТ без применения окон (рис. 1). Полученные маски подвергали бинаризации.

а — КТ-изображение области дна полости рта после предобработки; б — разметка: опухоль выделена врачом-экспертом.
Обучение U-net. U-Net считается одной из стандартных архитектур CNN для задач сегментации изображений, когда требуется не только определить класс изображения целиком, но и сегментировать его области по классу, т.е. создать маску, которая будет разделять изображение на несколько подклассов. Архитектура состоит из стягивающего пути для захвата контекста и симметричного расширяющегося пути, который позволяет осуществить точную локализацию.
Сеть обучается сквозным способом на небольшом количестве изображений и превосходит предыдущий наилучший метод (сверточную сеть со скользящим окном) на соревновании ISBI по сегментации нейронных структур в электронно-микроскопическихстеках. Сегментация изображения 512×512 занимает менее секунды на современном графическом процессоре. Для U-Net характерны достижение высоких результатов в различных реальных задачах, особенно для биомедицинских приложений; использование небольшого количества данных для достижения хороших результатов.
Архитектура сети приведена на рис. 2. (содержит ссылку на источник [7]). Она состоит из сужающегося пути (слева) и расширяющегося пути (справа). Сужающийся путь — типичная архитектура сверточной нейронной сети. Он состоит из повторного применения двух сверток 3×3, за которыми следуют функция активации ReLU и операция максимального объединения (2×2 степени 2) для понижения разрешения. На каждом этапе понижающей дискретизации каналы свойств удваиваются. Каждый шаг в расширяющемся пути состоит из операции повышающей дискретизации карты свойств, за которой следуют свертка 2×2, уменьшающая количество каналов свойств; объединение с соответствующим образом обрезанной картой свойств из стягивающегося пути; две 3×3 свертки, за которыми следует ReLU. Обрезка необходима из-за потери граничных пикселей при каждой свертке [6].

Каждый синий квадрат соответствует многоканальной карте свойств. Количество каналов отмечено в верхней части квадрата. Размер x-y указан в нижней части квадрата. Белые квадраты — копии карты свойств, стрелки — различные операции [6, 7].
Для предобработки данных применяли трешхолдинг. Аугментацию осуществляли с помощью генератора изображений, запрограммированного на сдвиг, поворот и увеличение изображений. Увеличение данных необходимо для обучения сети желаемым свойствам инвариантности и устойчивости, когда доступно ограниченное количество обучающих примеров. Обучение сети производили посредством сервиса Google Colaboratory. Сеть обучается методом стохастического градиентного спуска на основе входных изображений и соответствующих им карт сегментации. На рис. 3 представлен график зависимости коэффициента IoU от числа эпох для обучающей и валидационных выборок. По оси X отложены эпохи. На каждой эпохе через сеть пропускается все обучающее множество и на основании этих данных производится коррекция весов. По оси Y отложена метрика для оценки качества сегментации IoU, которая вычисляется по формуле:
,
где k — количество классов, ti — количество пикселей класса «Не опухоль», nii — число правильно классифицированных пикселей, nji — число пикселей, неверно не отнесенных к классу «Опухоль». Согласно формуле 1, чем выше значение коэффициента IoU, тем меньше число пикселей, неверно отнесенных к классу «Опухоль», и тем выше точность сегментации. Из графика следует, что с каждой эпохой коэффициент IoU растет, что свидетельствует об адекватном обучении нейронной сети.

На рис. 4 представлен график зависимости потерь от числа эпох для обучающей и валидационной выборок. Вероятностные карты преобразовывали в бинарные маски и накладывали на исходное изображение (рис. 5). Решение задачи преобразования маски в контур не входила в задачи исследования.


Оценка эффективности. Основными преимуществами алгоритма работы нейронных сетей являются способность к самообучению, реализованная наоснове анализа прецедентов, а также высокая точность результата [8].
Экспериментальную оценку эффективности применения разработанного программного обеспечения на основе искусственной нейронной сети проводили методом предъявления обученной искусственной нейронной сети КТ-изображений, не задействованных при обучении.
Необходимо также отметить, что в области дна ротовой полости в тесном соприкосновении находятся важные топографо-анатомические образования, имеющие значение как при операциях по поводу удаления первичной опухоли, так и при реконструктивных операциях: язычная артерия, язычный нерв, подъязычная и поднижнечелюстные слюнные железы и их протоки [9, 10, 11]. Большая частьКТ-изображений не позволяет детально визуализировать эти структуры, а соответственно — определять их синтопию по отношению к опухоли. Таким образом, практическое значение разработанного программного обеспечения можно ограничить лишь выявлением первичной опухоли, определением ее размеров и скелетотопии. Кроме того, по косвенным признакам (смещение мягких тканей) можно предположить компрессию или инвазию в окружающие структуры (рис. 6).

1 — нижняя челюсть; 2 — подъязычная кость; 3 — подъязычная слюнная железа; 4 — поднижнечелюстная слюнная железа; 5 — подбородочно-подъязычная мышца; 6 — челюстно-подъязычная мышца; 7 — язычный нерв; 8 — язычная артерия.
Результаты
На контрольной выборке (50 изображений) алгоритм показал попадание в зону новообразования в 98% случаев; со средней точностью контурирования 0,68 по метрике IoU. Оценка специфичности и чувствительности методики не входила в задачи настоящего исследования. Итоговый результат работы тестирования алгоритма представлен в нижеприведенных иллюстрациях. Для сравнения также представлены результаты ручной разметки КТ-изображений, которые использовали при проведении «контроля», а соответственно, не предъявляли ранее ИНС (рис. 7—9).

1 — КТ-изображение после предобработки; 2 — разметка: опухоль выделена врачом-экспертом; 3 — опухоль выделена обученной искусственной нейронной сетью.

1 — КТ-изображение после предобработки; 2 — разметка: опухоль выделена врачом-экспертом; 3 — опухоль выделена обученной искусственной нейронной сетью.

1 — КТ-изображение после предобработки; 2 — разметка: опухоль выделена врачом-экспертом; 3 — опухоль выделена обученной искусственной нейронной сетью; 4 — совмещение областей сегментации экспертом и обученной ИНС.
Перспективы дальнейшей разработки темы. Работа демонстрирует применимость сверточных нейронных сетей с архитектурой U-net к распознаванию новообразований на КТ-изображениях зоны нижней челюсти. В условиях постоянного совершенствования алгоритмов обучения нейронных сетей закономерно ожидается увеличение эффективности работы программ на их основе [12, 13]. Планируются расширение количества и качества баз данных, оценка специфичности и чувствительности алгоритма, оценка других моделей ИНС для сравнения эффективности и доработка программного продукта с целью дальнейшего внедрения в клиническую практику лечебно-профилактических учреждений Российской Федерации.
Заключение
- В результате проведенного исследования разработан программный комплекс на основе обученной искусственной нейронной сети, способный с высокой долей точности выполнять автоматический анализ и сегментацию полученных при компьютерной томографии изображений нижней челюсти, выявляя злокачественные образования данной области и границы их распространения.
- В клинической практике разработанное программное обеспечение можно применять для автоматического поиска подозрительных на злокачественную опухоль объектов с последующим углубленным изучением этой области специалистом, т.е. использовать как систему поддержки принятия решения хирургом и/или врачом лучевой диагностики с цеялью экономии рабочего времени на оценку данных компьютерной томографии.
Кроме того, разработанное программное обеспечение может оказать помощь начинающим специалистам, не имеющим достаточного опыта в анализе полученных при компьютерной томографии изображений головы и шеи.
Авторы заявляют об отсутствии конфликта интересов.