Диагностическое обследование пациентов с зубочелюстно-лицевыми аномалиями является неотъемлемым этапом ортодонтического лечения, определяющим его ход и результат. Методы лучевой диагностики играют важнейшую роль в планировании активного и ретенционного периодов лечения и сокращают сроки достижения устойчивого функционирования зубочелюстного аппарата и улучшения эстетики лица. Несмотря на активное развитие 3D-диагностики, основными методами обследования ортодонтических пациентов и планирования их лечения, а также контроля эффективности лечения остается телерентгенография [1—4]. Однако высокая частота развития осложнений, возникающих при лечении пациентов с нарушениями смыкания зубных рядов и положения отдельных зубов, свидетельствует о необходимости выявления недостатков в диагностике, базирующихся на современных цифровых технологиях, что и определило цель и задачи проведенного исследования.
Цель исследования — сравнительная характеристика компонентов мягких вычислений на примере нейронной сети с архитектурой U-Net и простой полностью сверточной нейронной сети CNN в поиске ключевых точек цефалометрических измерений в ортодонтии.
Материал и методы
При подготовке обучающих данных из архива заранее обезличенных рентгеновских снимков 500 пациентов с помощью генератора случайных чисел была сформирована база из 100 телерентгенограмм головы в боковой проекции. Никаких критериев исключения установлено не было. В работе принимали участие 3 врача-ортодонта с опытом работы 10 лет и более. Каждым из участников было обработано по 100 рентгенологических снимков головы в боковой проекции по 27 параметрам, всего 2700 параметров. Маркировка была выполнена с помощью цифрового программного обеспечения Paint.NET, в котором доступны такие функции улучшения изображения, как увеличение и уменьшение, изменение яркости и контрастности для лучшего поиска ориентиров. Ориентиры были идентифицированы с помощью графического курсора на отображаемом цифровом изображении. Для повышения точности локализации ориентира и снижения вероятности ошибочной локализации размеры точек составляли 1 пиксель.
Извлечение координат анатомических ориентиров проводилось с помощью специально созданной для этой цели программы. Так как эта программа является достаточно примитивной в реализации и простой по концепции, в данной статье детальное рассмотрение ее устройства отсутствует, однако стоит описать ее базовый принцип. Для размеченных врачами-ортодонтами снимков, программа находит пиксель, обозначенный специалистами, и извлекает его двухмерные координаты на плоскости. Таким образом формируется набор данных для дальнейшего эксперимента и расчета дополнительных математических параметров. Стоит отметить, что такой подход к интерпретации данных позволяет выполнить ряд статистических исследований, таких как оценка разброса значений координат локализуемых ориентиров специалистами для каждого из типов ориентиров, средняя позиция каждого типа ориентира — это только «базовые» статистические выводы, на основании которых можно получить статистически значимые результаты.
После извлечения координат локализованных ориентиров для каждого изображения мы описывали каждый из типов ориентиров в двухмерном пространстве с помощью нормального распределения. Такой подход позволяет использовать алгоритмы, основанные на применении сверточных нейронных сетей, без риска потери координаты анатомического ориентира операциями свертки и максимальной выборки [5—7]. Логическим обоснованием выбора нормального распределения для описания позиций анатомических ориентиров служит простой принцип — наибольшей точкой двухмерного нормального распределения будет являться локализованная позиция анатомического ориентира, что кроме оптимизации данных для использования алгоритмов с применением сверточных нейронных сетей дает возможность представлять исходные локализованные данные в качестве аналога «тепловой карты», позволяя проводить дальнейшие дополнительные исследования [8, 9].
Таким образом, до применения алгоритмов компьютерного зрения на основе нейронных сетей получен набор данных для 100 рентгенологических снимков проекции головы по 27 параметрам, представленных в двухмерном пространстве в виде нормального распределения. Затем выбраны две архитектуры сверточных нейронных сетей — CNN и U-Net, отличающиеся архитектурным подходом к передаче данных между сверточными слоями [10, 11]. Данные архитектуры позволяют прогнозировать позиции анатомических ориентиров с помощью выделения наиболее значимых признаков на изображении, по которым совершается идентификация позиции. Обе архитектуры используют последовательное понижение размерности изображения с выделением значимых признаков на каждом уровне понижения (входное изображение уменьшается в 2 раза на каждом шаге), но в случае использования архитектуры U-Net наиболее значимые признаки хранятся для каждого шага в памяти вычислительного устройства с целью их дальнейшего объединения с признаками последующих шагов, тогда как в архитектуре CNN-признаков для каждого шага не сохраняются и вместо этого наиболее значимые признаки с переходом на следующий шаг используются один раз и изменяются на каждом шаге. Таким образом, отличие архитектуры U-Net от архитектуры CNN заключается в усовершенствованной способности вычленения значимых признаков изображения и обобщения данных, которая позволяет работать эффективнее на новых изображениях, содержащих «искажения» относительно исходных, такие как повороты на небольшой угол или изменение по контрасту изображения.
Для обучения нейронных сетей — простой полностью сверточной нейронной сети CNN и нейронной сети архитектуры U-Net — было произведено масштабирование изображений до размера 512×512 пикселей. При этом координаты анатомических ориентиров на изображениях без масштабирования были сохранены отдельно для дальнейшего сравнения результатов локализации нейронными сетями позиций ориентиров на полноразмерных изображениях. Пример графической интерпретации представления позиции анатомического ориентира в виде двухмерного нормального распределения отображен на рисунке.
Графическая интерпретация представления позиции анатомического ориентира в виде двухмерного нормального распределения.
При таком подходе результат локализации ориентиров нейронной сетью на масштабированном изображении в дальнейшем проходит процесс «обратного» масштабирования, т.е. соотнесения спрогнозированных моделью координат с размерами исходного изображения. Это позволяет значительно оптимизировать работу моделей нейронных сетей на всех этапах работы — обучения и прогнозирования, а также использования в промышленной среде за счет снижения требований к характеристикам вычислительного устройства.
Результаты и обсуждение
Процесс обучения и прогнозирования выполнялся для 27 типов анатомических ориентиров на 100 телерентгенографических изображениях. В обучающую и тестовую выборку вошли по 50 изображений. Для оценки полученных результатов было проведено дополнительное сравнение результатов разметки анатомических ориентиров между тремя врачами-ортодонтами. Полученные в ходе исследования результаты представлены в табл. 1.
Таблица 1. Результаты эксперимента
Тип | Среднее расстояние, мм | Максимальное расстояние, мм | Дисперсия | ||||||
CNN | U-Net | врачи | CNN | U-Net | Врачи | CNN | U-Net | врачи | |
A | 4,033 | 1,413 | 2,150 | 12,211 | 4,288 | 9,131 | 6,533 | 1,077 | 4,791 |
aii | 4,689 | 2,483 | 2,796 | 13,336 | 16,991 | 15,398 | 10,150 | 6,837 | 6,141 |
ais | 3,789 | 2,659 | 2,445 | 10,748 | 9,994 | 9,239 | 7,170 | 4,545 | 4,089 |
Ar | 2,873 | 1,779 | 1,865 | 8,877 | 10,330 | 16,907 | 3,080 | 2,401 | 6,119 |
B | 3,715 | 2,234 | 4,083 | 11,689 | 10,455 | 13,505 | 6,676 | 4,494 | 7,822 |
Ba | 4,354 | 1,865 | 4,832 | 19,855 | 7,965 | 19,862 | 12,747 | 2,260 | 18,263 |
C | 3,747 | 3,520 | 2,979 | 12,534 | 13,212 | 14,626 | 4,454 | 6,582 | 7,322 |
DT pog | 4,640 | 1,597 | 4,361 | 17,527 | 7,774 | 22,646 | 14,922 | 2,125 | 23,977 |
EN pn | 4,643 | 1,194 | 1,528 | 17,284 | 3,971 | 4,940 | 11,765 | 0,671 | 0,990 |
Gn | 4,994 | 1,046 | 2,660 | 19,280 | 3,237 | 6,259 | 18,337 | 0,330 | 1,585 |
Go | 5,154 | 2,517 | 3,425 | 13,926 | 8,056 | 11,481 | 10,763 | 3,942 | 6,147 |
ii | 4,405 | 1,369 | 0,708 | 15,043 | 11,628 | 8,971 | 12,433 | 2,609 | 1,378 |
is | 4,946 | 0,813 | 0,478 | 15,228 | 3,947 | 3,766 | 13,487 | 0,448 | 0,300 |
LL | 4,033 | 1,112 | 2,223 | 14,551 | 5,406 | 10,880 | 10,455 | 0,674 | 3,262 |
Me | 4,823 | 1,264 | 1,673 | 21,838 | 2,769 | 8,866 | 14,257 | 0,417 | 2,494 |
N | 3,696 | 1,465 | 0,946 | 15,737 | 8,152 | 8,646 | 11,729 | 1,946 | 2,501 |
n_ | 3,599 | 1,951 | 1,933 | 23,811 | 8,124 | 8,300 | 16,179 | 2,936 | 3,663 |
Or | 5,788 | 3,598 | 4,294 | 13,742 | 9,271 | 14,147 | 11,521 | 3,660 | 10,850 |
Po | 4,112 | 3,651 | 9,867 | 11,383 | 12,409 | 21,463 | 4,760 | 11,119 | 17,399 |
Pog | 4,771 | 1,387 | 4,446 | 18,759 | 9,779 | 11,447 | 15,107 | 2,056 | 3,618 |
Pt | 4,192 | 2,871 | 3,591 | 14,673 | 11,558 | 17,278 | 6,590 | 4,564 | 7,273 |
S | 3,008 | 1,024 | 0,683 | 9,526 | 3,091 | 1,825 | 4,617 | 0,441 | 0,136 |
Se | 3,313 | 1,045 | 1,204 | 8,758 | 2,605 | 4,730 | 4,006 | 0,468 | 0,883 |
Sn | 3,432 | 1,059 | 0,607 | 12,979 | 3,278 | 3,896 | 7,103 | 0,456 | 0,417 |
SNA | 4,279 | 2,864 | 1,646 | 14,879 | 7,264 | 10,461 | 8,776 | 2,321 | 4,444 |
SNP pm | 3,556 | 1,241 | 1,437 | 7,694 | 2,978 | 8,161 | 3,442 | 0,566 | 1,524 |
UL | 4,405 | 0,940 | 1,107 | 14,210 | 3,274 | 29,143 | 10,099 | 0,393 | 12,003 |
Исходя из полученных данных, стало возможным констатировать, что простая полностью сверточная нейронная сеть CNN не является эффективным инструментом в определении опорных координат на двухмерных рентгенологических снимках головы, так как по большинству параметров уступает в точности интерпретации данных врачами-специалистами. Нейронная сеть с архитектурой U-Net, напротив, дает весьма перспективные для дальнейшей разработки материалы: она не только превосходит по всем параметрам CNN, но и по 17 из 27 параметров показывает результаты точнее, чем специалисты, по остальным же 10 является сопоставимой с врачами с большим клиническим опытом работы.
Результаты работы простой полностью сверточной нейронной сети CNN были признаны неудовлетворительными по 17 (62,96%) параметрам, удовлетворительными — по 10 (37,04%). Работа врачей-специалистов оценена как неудовлетворительная в 6 (22,22%) координатах, удовлетворительная — в 8 (29,63%), хорошая — в 8 (29,63%), отличная — в 5 (18,52%). Нейронная сеть с архитектурой U-Net в 9 (33,3%) случаях дала удовлетворительные результаты, в 16 (59,3%) — хорошие, в 2 (7,4%) — отличные, при этом неудовлетворительных получено не было.
Некоторые исследователи [12—18] при интерпретации точности определения опорных координат на телерентгенологических снимках головы в боковой проекции упоминают клинически значимые интервалы отклонения результата от эталонной точки в 1, 2 и 4 мм. Таким образом, мы сочли клинически допустимыми отклонения в координатах опорных точек до 4 мм, хорошими — до 2 мм и отличными — до 1 мм.
После статистической обработки для каждой из координат был выполнен подсчет средних значений отклонений (табл. 2) от эталонной точки для выявления эффективности алгоритмов глубокого обучения при решении задачи обнаружения анатомических ориентиров на двухмерном рентгенологическом изображении головы в боковой проекции.
Таблица 2. Оценка полученных результатов
Архитектура модели | Среднее значение погрешности, мм | СКО | Максимальное расстояние, мм | Доверительный интервал, мм |
CNN | 4,185 | 0,689 | 5,788 | 4,185±0,272 |
U-Net | 1,850 | 0,874 | 3,651 | 1,850±0,346 |
Специалисты | 2,591 | 1,956 | 9,867 | 2,591±0,774 |
Заключение
В нашем исследовании дана сравнительная характеристика компонентов мягких вычислений на примере нейронной сети с архитектурой U-Net и простой полностью сверточной нейронной сети CNN в решении вопроса обнаружения анатомических ориентиров на телерентгенографическом снимке головы в боковой проекции.
После подсчета средних по координатам значений погрешности по всем исследуемым наборам данных стало возможным отметить неудовлетворительные результаты в целом по компоненту CNN, удовлетворительные — по работе врачей-специалистов и хорошие показатели, полученные с помощью такого компонента мягких вычислений, как нейронная сеть с расширенной архитектурой для сегментации биомедицинских изображений U-Net. Она оказалась эффективнее в 2,26 раза, чем CNN и в 1,4 раза — чем врачи-специалисты.
Таким образом, сверточная нейронная сеть с расширенной архитектурой U-Net может быть рекомендована для локализации анатомических ориентиров в процессе цефалометрического анализа головы при работе с телерентгенологическими изображениями в боковой проекции.
Авторы заявляют об отсутствии конфликта интересов.
The authors declare no conflict of interests.