Варфоломеева А.А.

ООО «КэреМенторЭйАй», Москва, Россия

Камышанская И.Г.

ФГБОУ ВО «Санкт-Петербургский государственный университет», Санкт-Петербург, Россия

Блинов Д.С.

АО «Всесоюзный научный центр по безопасности биологически активных веществ», Старая Купавна, Россия

Лобищева А.Ю.

ФГБОУ ВО «Санкт-Петербургский государственный университет», Санкт-Петербург, Россия

Блинова Е.В.

ФГБУ «Национальный медицинский исследовательский центр кардиологии» Минздрава России, Москва, Россия

Черемисин В.М.

ФГБОУ ВО «Санкт-Петербургский государственный университет», Санкт-Петербург, Россия

Дыдыкин С.С.

Российский научный центр хирургии им. акад. Б.В. Петровского РАМН, Москва

Возможности детекции продольного плоскостопия с использованием рентгенологического метода исследования и интеллектуальной системы компьютерного зрения

Журнал: Оперативная хирургия и клиническая анатомия. 2020;4(2): 27‑36

Просмотров : 335

Загрузок : 13

Как цитировать

Варфоломеева А.А., Камышанская И.Г., Блинов Д.С., Лобищева А.Ю., Блинова Е.В., Черемисин В.М., Дыдыкин С.С. Возможности детекции продольного плоскостопия с использованием рентгенологического метода исследования и интеллектуальной системы компьютерного зрения. Оперативная хирургия и клиническая анатомия. 2020;4(2):27‑36.
Varfolomeeva AA, Kamyshanskaya IG, Blinov DS, Lobishcheva AYu, Blinova EV, Cheremisin VM, Dydykin SS. Possibilities of detecting longitudinal flatfoot using the X-ray method of research and intelligent computer vision system. Russian Journal of Operative Surgery and Clinical Anatomy. 2020;4(2):27‑36. (In Russ.).
https://doi.org/10.17116/operhirurg2020402127

Авторы:

Варфоломеева А.А.

ООО «КэреМенторЭйАй», Москва, Россия

Все авторы (7)

Введение

Продольное плоскостопие представляет собой нарушение костной архитектуры стопы, при котором наблюдается уплощение продольного свода стопы, составленного пяточной костью, костями предплюсны и плюсны [1—3]. Наследственные формы патологии встречаются редко и, как правило, ассоциированы с вальгусной деформацией нижних конечностей [2, 4, 5]. Приобретенное плоскостопие зачастую является следствием перенесенного рахита, травматических повреждений [4]. Независимо от причины плоскостопие может сопровождаться тяжелыми повреждениями ноги на фоне интенсивных нагрузок на нижнюю конечность при ходьбе, беге, занятиях спортом, службе в вооруженных силах [6].

Благодаря высоким темпам научного и технологического прогресса за последние десятилетия появилось множество подходов к диагностике заболевания, при этом каждый из них обладает как достоинствами, так и недостатками. Традиционным и довольно широко распространенным и у нас в стране, и за рубежом методом диагностики является использование специальных механических измерительных инструментов и отпечатков стопы [7, 8]. Оба метода основаны на непрямых измерениях, а потому неточны. Новые методы, предложенные в последнее время, призваны повысить точность измерений, снизить частоту ошибок и помочь диагностам и клиницистам в проведении частых и затратных по времени измерений. Так, А. Hamza и соавт. [9] был разработан высокочувствительный ультразвуковой датчик для определения высоты свода стопы. Научная группа под руководством L. Navarro [10] предложила сенсорную панель для определения распределения нагрузки на панель с последующим компьютерным вычислением. Однако диагностические подходы, базирующиеся на определении лишь высоты свода стопы и распределения нагрузки, не учитывают истинных анатомических особенностей костного скелета стопы и высокозатратны.

Одним из примеров использования метода машинного обучения является трехмерная реконструкция свода стопы, предложенная группой западных исследователей [11, 12]. Использование машинного обучения представляется возможной альтернативой, позволяющей снижать стоимость метода, вероятность и частоту ошибок и повышать точность измерений [13]. Вместе с тем использование только внешних анатомических ориентиров для диагностики плоскостопия сопряжено с высокой вероятностью диагностических ошибок. Истинные измерения возможны лишь по костным ориентирам, доступным для вычислений на рентгеновских изображениях стопы под нагрузкой. Анализ боковых рентгенограмм позволяет вычислять линии, углы, рассчитывать индексы, отражающие истинную костную архитектуру стопы [14].

В связи с этим основной целью настоящего исследования явилась разработка и обоснование эффективности интеллектуальной системы машинного зрения, определяющей угол свода стопы по данным костных ориентиров на боковых рентгенограммах стопы под нагрузкой.

Материал и методы

Соблюдение этических процедур. Клинический протокол исследования прошел экспертизу на совместном заседании этического комитета Санкт-Петербургского государственного университета и Сеченовского Университета 2 апреля 2016 г.

Источники рентгенологических изображений и процедура разметки рентгеновских снимков. Для обучения и валидации нейронной сети были использованы 3458 боковых рентгенограмм стопы под нагрузкой мужчин и женщин с продольным плоскостопием и 1726 лиц без деформаций стопы в возрасте 17—75, наблюдавшихся на клинических базах Санкт-Петербургского университета с 2016 по 2019 г.

У всех пациентов было получено добровольное информированное согласие на использование медицинских рентгеновских изображений в исследовательских целях. Все рентгенограммы были получены для исследования в деперсонализованном виде. В табл. 1 представлена характеристика пациентов, чьи рентгенограммы были использованы в работе.

Таблица 1. Краткая характеристика обследованных пациентов


Разметка рентгенологических изображений. Все полученные изображения были случайным образом разделены в отношении 3:1 для обучения и тестирования нейронной сети соответственно. Рентгенограммы, предназначенные для обучения, были размечены (каждый снимок независимо двумя специалистами) пятью опытными рентгенологами со стажем работы 10 лет и более. Для этого каждый снимок случайным образом распределялся в личный кабинет рентгенолога в специально разработанной компанией ООО «КэреМенторЭйАй» программной среде разметчика. Процесс разметки состоял из последовательной авторизации в личном кабинете, выборе и открытии изображения, нахождении и выделении трех анатомических точек, описанных ниже.

Программа позволяла специалисту производить коррекцию положения точек до того момента, как изображение будет отправлено на обучение нейронной сети.

На тестовом этапе исследования изображение также случайным образом отправлялось на анализ двум рентгенологам, что позволяло в дальнейшем проводить как сравнение точности детекции системы компьютерного зрения, так и анализировать расхождения между заключениями врачей-специалистов.

Рентгенологический метод определения продольного плоскостопия. В настоящее время в клинической практике используется несколько методов определения продольного плоскостопия по данным рентгенограмм стопы [3, 15—17]. Наиболее распространен способ, основанный на расчете угла стопы [17] (рис. 1). Тупой угол сформирован пересечением двух условных линий, первая из которых проведена через 2 наиболее выступающие точки нижнего края V плюсневой кости, а вторая соединяет 2 наиболее выступающие точки нижнего края пяточной кости. Угол 165° и более рассматриваются как плоскостопие [3].

Рис. 1. Схематическое изображение линий, пересечение которых формирует угол свода стопы по [3].


Мы считаем более корректным использовать метод Costa-Bertani для определения угла свода стопы, в соответствии с которым рентгенолог находит на рентгенограмме 3 точки (рис. 2) [17]: точка А соответствует нижнему краю ладьевидно-клиновидного сустава, точка В — самая нижняя пяточной кости, точка С — наиболее выступающая головки I первой плюсневой кости. Угол ВАС при этом — угол свода стопы, а перпендикуляр, опущенный из точки А на плоскость основания, — высота свода стопы.

Рис. 2. Определение угла (а) и высоты (h) свода стопы методом Costa-Bertani


Следует отметить, что использование каждого из описанных методов сопровождается кропотливой работой, требует от рентгенолога большого опыта и навыков и занимает в среднем 10—12 мин. При этом точность измерений прямо пропорциональна опыту специалиста и качеству изображения.

Методы построения интеллектуальной системы. Описываемый алгоритм интеллектуального компьютерного зрения. Предлагаемый нами метод изображен на рис. 3. Последовательность метода состоит из 3 основных этапов. Первый шаг (раздел А) связан с предварительной обработкой данных и подготовкой к сегментации с помощью нейронной сети. На втором этапе (раздел Б) полностью сверточная нейронная сеть (CNN) сегментирует три области как ограничительные рамки вокруг требуемых трех точек. На третьем этапе (раздел В) расположение каждой из требуемых точек уточняется внутри соответствующей области и вычисляются соответствующая мера угла и степень плоскостопия.

Рис. 3. Алгоритм интеллектуального метода определения продольного плоскостопия.


Предобработка данных. Все кейсы рентгенограмм стопы пациентов были случайным образом разделены на обучающую, валидационную и тестировочную части в пропорции 0,6:0,15:0,25. Обучающая часть использовалась для обучения CNN, валидационная — для проверки качества CNN во время обучения, а тестирующая — для проверки качества обученной CNN, общего качества работы нашего метода и оценки разницы между маркировками радиологов. Для обучения и проверки мы использовали одну маркировку только от одного рентгенолога для каждого случая. Для тестирования, чтобы вычислить разницу между маркировками радиологов, мы использовали две маркировки от двух разных радиологов для каждого случая.

Каждый обучающий кейс содержал рентгеновское изображение стопы в градации серого и разметку — расположение (в пикселях) искомых трех точек для вычисления требуемого угла для определения степени плоскостопия.

Входные изображения имели существенно различное разрешение (примерно от 800 до 4000 пикселей по одной из сторон), разный масштаб изображения (некоторые изображения охватывали только стопу, некоторые — часть большеберцовой кости) и разный уровень контрастности. Кроме того, из-за различий рентгеновских аппаратов, от которых были получены кейсы, изображения имели различное качество детализации и шумы. Примеры входных изображений показаны на рис. 4. Подобные изображения были использованы для обучения CNN в качестве входа.

Рис. 4. Примеры входных рентгеновских изображений (некоторые обрезаны для лучшего представления).


Мы использовали положение 3 точек для генерации двоичной маски того же размера, что и соответствующее входное изображение. Для каждой точки, положение которой определяется как (x, y), двоичная маска имеет значение 1 в ограничивающем прямоугольнике с углами (x—k, y—k), (x—k, y+k), (x+k, y+k), (x+k, y+k), где k — параметр размера ограничивающего прямоугольника, который может быть изменен для разных масштабов изображения в пределах ограничения, чтобы ограничивающие прямоугольники не перекрывались.

Таким образом, были созданы маски с тремя ограничивающими прямоугольниками в качестве выхода CNN. Чтобы сформировать набор данных для обучения CNN, каждое изображение и соответствующая ему маска были масштабированы до размера 512×512 пикселей.

Поскольку входные изображения имели очень разные разрешения и соотношение сторон (в пикселях), обрезка (crop) или до-заполнение нулями (zero-padding) предшествовали масштабированию изображения: информативная часть (часть, где расположена сама рентгенограмма) является прямоугольником, но она часто окружена черной рамкой. Поэтому мы удалили часть черной рамки, чтобы получить квадратное изображение, если это возможно, или добавили части черной рамки в противном случае, а затем модифицированное изображение было масштабировано. Такие же операции выполняются над соответствующими масками.

Для увеличения разнообразия обучающих данных в процессе обучения было использовано несколько видов увеличения объема данных (аугментации данных), таких как трансляция, вращение, изменение резкости, слабые аффинные преобразования, нормализация контраста и добавление гауссовского шума.

Стоит отметить, что аугментация применялась во время обучения сети в каждую тренировочную эпоху и все шаги аугментации являются случайными (например, поворот изображения на случайный угол от –5° до +5°, изменение резкости изображения со случайными параметрами из заданного интервала и т.д.). Таким образом, все обучающие кейсы во время тренировочной процедуры становятся отличными друг от друга, но остаются похожими и содержат одну и ту же значимую информацию.

Архитектура CNN. Наша сегментационная сеть представляет собой CNN вида энкодер-декодер (encoder-decoder) [1], который представляет собой подходящее решение для нашей задачи семантической сегментации.

Наша исходная сетевая архитектура схематично представлена на рис. 5, а.

Рис. 5. Базовая архитектура U-Net (a) и остаточный блок ResNet50 (б).
Наша сеть основана на архитектуре U-Net [1] со скип-соединениями (skip-connections), где ResNet50 [11] используется в качестве энкодера (encoder), а «обратные» свертки (transposed convolutions) [7] используются в декодере (decoder) для повышения дискретизации результата после бутылочного горлышка. Размер выходной сетки энкодера равен 16×16, размер выхода последнего сверточного слоя соответствует входному размеру изображения (и маски).


В начальных слоях нейронной сети пространственная информация содержится в активациях текущего слоя: эти слои CNN выделяют простые объекты, такие как различные части линий, углы, простые текстуры и т.д. В более поздних слоях благодаря использованию сверток, которые агрегируют информацию из предыдущих слоев, пространственная информация переносится в семантическую информацию за счет специфических знаний о локализации этих структур. Так, оригинальная архитектура U-Net уменьшает входное изображение в 6 раз — от 388×388 до 28×28. О. Ronneberger и соавт. [17] добавили в архитектуру скип-соединения (skip-connections), позволяющие использовать пространственную и семантическую информацию вместе на более поздних уровнях, поскольку пространственная информация с более ранней стадии может быть добавлена в нейронной сети на более поздних уровнях. Таким образом, нейронная сеть на более поздних слоях может использовать как семантическую, так и пространственную информацию: соединять карты признаков из более ранних слоев с картами признаков из более поздних слоев (см. рис. 5, а).

Распространенный подход в обучении нейросетей — использование предобученной на больших данных нейросети в качестве начального приближения для обучения на искомой задаче. Нейронные сети, предварительно обученные на другой задаче, например, для классификации естественных изображений могут использоваться в качестве инициализации весов сети при обучении для новой задачи. Первые слои нейронных сетей выделяют простые объекты и базовые структуры, такие как дуги и отрезки, поэтому эти знания могут быть переданы от одной задачи к другой. Эта концепция очень полезна для работы с медицинскими изображениями, где нет возможности получить большие обучающие наборы данных, так как это делается для наборов данных естественных изображений. В нашей работе мы используем предварительно обученную на ImageNet [18] модель ResNet 50 [19] в качестве энкодера, а декодер обучался «с нуля». ResNet 50 — это глубокая нейронная сеть с остаточными связями, показавшая хорошее качество и устойчивость при решении различных задач и легко обучаемая за счет использования остаточных связей между внутренними блоками (рис. 5, б).

Обучение CNN. Входные изображения и соответствующие им маски сегментации использовали для обучения сети с оптимизацией Adam [20].

Применяли бинарную функцию кросс-энтропии, попиксельно вычисляемую с различными весами для каждого класса, как в уравнении (1):

L=–Σijwij(y·log(p)+(1–y)·log(1–p)), (1)

где p — прогнозируемая вероятность класса, y — истинный класс (0 или 1) и w — матрица весов. Поскольку большинство пикселей в каждом изображении принадлежат нулевому классу (фону), мы уравновешивали процесс обучения с помощью фиксированных весов, которые были обратно пропорциональны соотношениям количества пикселей класса.

Мы обучали CNN с оптимизатором Adam в течение 500 эпох со стандартными параметрами: betas 0,9 и 0,99, начальная скорость обучения (learning rate) была выбрана равной 0,0001, с уменьшением скорости обучения на плато.

Постпроцессинг выходных данных нейронной сети. Для каждой области из трех предсказанных областей из CNN мы нашли ее центр масс как местоположение соответствующей точки (xk. yk):

Формула 2.

(2)

Найдя таким образом 3 искомые точки, мы можем вычислить меру угла, как это показано на рис. 2.

Оценки качества. Оценка качества CNN. Мы использовали метрику DICE в качестве основного показателя оценки качества сегментации CNN. Обозначая искомые области на истинной маске как А, а искомые области на предсказанной маске как B, метрика DICE оценивается как (3):

Формула 3.

(3)

и имеет значения в интервале (0, 1). Идеальная сегментация имеет метрику DICE, равную 1.

Общая оценка качества. Для оценки работы метода в целом мы рассчитывали среднюю абсолютную угловую погрешность по формуле (4):

Err=|α–αtrue|, (4)

где α — предсказанный угол, αtrue — угол, рассчитанный на основании истинных точек.

Статистический анализ. Полученные результаты представлены в виде среднего (M) ± среднеквадратичная ошибка (MSE). Нормальность распределение вариант оценивали с помощью дисперсионного анализа. Для сравнения различий между группами использовался критерий t, и они считались значимыми при р<0,05. Для обработки статистических данных использовали пакет программ SPSS («IBM Inc.», США).

Результаты

Качество сегментации. Наш тестовый набор содержал 1296 кейсов. Среднее значение метрики DICE на тестовом наборе равнялось 0,946. Большая часть ошибок сегментации была связана с формой границ маски сегментации и не влияла на общее качество метода. Примеры получаемых масок и того, как они локализовали требуемые области, показаны на рис. 6.

Рис. 6. Входное изображение CNN (а, б), получаемая маска (в, г) и маска, нанесенная на изображение, подчеркивающая прогнозируемые области (д, е).


Оценка точности и качества детекции. Для оценки качества нашего метода для каждого тестового случая мы сравнивали маркировки от двух разных рентгенологов, которые работали независимо, с маркировкой, полученной с помощью нашего метода. Примеры сравнения приведены на рис. 7, где светло-зеленые и темно-зеленые линии и точки относятся к маркировке рентгенологов, а красный цвет — к маркировке компьютерного зрения. При измерении угла средняя разница между оценками рентгенологов составляет 1,18°, а средняя разница между углом, полученным нашим методом, и оценкой рентгенолога — 1,27° (р>0,05). Среднее отклонение для каждой степени плоскостопия приведено в табл. 2. При сопоставлении точности измерений угла свода стопы на рентгенограммах плоских стоп нами не установлено значимых различий между врачами-рентгенологами и разработанной нами системой компьютерного зрения (см. табл. 2). В случае же анализа изображений неизмененных (нормальных стоп), мы установили статистически достоверные различия в точности измерения угла между двумя независимо работающими врачами и нейронной сетью, в среднем составляющие около 80%.

Рис. 7. Сравнение маркировок рентгенологов (а, б) и предлагаемого метода (в).


Таблица 2. Средние отклонения по каждой степени плоскостопия и затратам времени на обработку изображений


Примечание. * — p<0,05 (критерий t) при сравнении со временем, затраченным рентгенологами на измерение.

Измерение затрат времени на проведение детекции. Полученные результаты представлены в табл. 2. Время, затраченное рентгенологами на поиск трех анатомических точек на рентгенограмме и последующую оценку угла свода стопы, составило в среднем 667,7±72,8 с. Время, затраченное системой компьютерного зрения на определение анатомических ориентиров для вычисления угла свода стопы, составило в среднем 0,10±0,02 с (p=0,001 по сравнению с результатами рентгенологов). Поиск анатомических точек осуществлялся с применением графической карты (GPU) модели Titan V.

Обсуждение

Продольная деформация стопы имеет особое значение как в детском возрасте, так и для взрослых из-за тяжелых последствий, ухудшающих состояние здоровья и качество жизни. Диагностика патологии, основанная на оценке формы и объема свода стопы, измерении отпечатков ног, в значительной степени ассоциируется с высоким уровнем ошибочных решений, так как все подходы являются косвенными. Прямым, а главное более правильным способом решения вопроса является учет костных точек, которые позволяют рассчитать параметры свода стопы как по углу, так и по высоте. С этой точки зрения рентгеновское сканирование стопы представляется более подходящим для оценки. В то же время обычная последовательность планиметрических измерений и вычислений трудоемка, поэтому оптимизация алгоритма может быть очень полезной.

Мы выбрали сверхточную нейронную сеть в качестве основы нашего метода из-за ее признанной эффективности и стабильности. Кроме того, скорость ее работы такова, что результат можно получить практически в реальном времени.

Мы используем семантическую сегментацию CNN как устойчивый и успешный метод для решения задачи типа поиска некоторой маски на изображении. Мы выбрали архитектуру U-net, поскольку она проявила себя успешной в обучении на малых данных, а использование в качестве энкодера архитектуры ResNet50 позволяет использовать предварительно обученные веса, что также помогает в обучении на малых объемах данных.

Однако стоит отметить, что при использовании предлагаемого метода на различных рентгеновских аппаратах результаты могут несколько различаться по качеству из-за сильно отличающихся характеристик изображений рентгенограмм (в основном различных шумов изображения). В таком случае качество может быть улучшено путем дополнительного обучения CNN на кейсах, полученных с помощью нового рентгеновского аппарата. Кроме того, используя конкретные кейсы, отмеченные рентгенологом как обладающие низким качеством изображения, предлагаемая модель может быть дополнительно обучена с целью повышения ее диагностической точности.

Одним из наиболее важных недостатков, с которым мы столкнулись, были различия в маркировках рентгенологами изображений, используемых для обучения CNN, поскольку было обнаружено, что точность определения анатомических точек специалистами варьировала в пределах 1,18°. Поэтому следующим шагом в разработке эффективной и автономной системы должны стать компьютерная идентификация анатомических объектов и машинная визуализация.

Таким образом, разработанный в ходе исследования метод искусственного интеллекта является эффективным инструментом для определения продольного плоскостопия путем сегментации рентгеновского изображения и расчета угла свода стопы. Его можно рассматривать как быстрого помощника, столь же точного, как и опытный рентгенолог.

Заключение

  1. Предлагаемый метод на основе CNN является эффективным, надежным и быстрым решением для обнаружения плоскостопия, основанным на предварительной обработке рентгеновского изображения стопы, захвате анатомических точек и последующем вычислении результатов, представляющих собой значение угла свода стопы и степень патологии по соответствующей шкале.
  2. Предлагаемый метод показывает результаты в целом не хуже, чем у рентгенологов, и требует примерно в 6000 раз меньше времени на обработку кейса и выдачу заключения.

Участие авторов:

Концепция и дизайн исследования — А.А. Варфоломеева, Д.С. Блинов, Е.В. Блинова.

Сбор и обработка материала — И.Г. Камышанская, Д.С. Блинов, А.Е. Лобищева, Е.В. Блинова, В.М. Черемисин, С.С. Дыдыкин.

Написание текста — Д.С. Блинов, Е.В. Блинова.

Редактирование — Д.С. Блинов, Е.В. Блинова.

Participation of authors:

Concept and design of the study — A.A. Varfolomeeva, D.S. Blinov, E.V. Blinova.

Data collection and processing — I.G. Kamyshanskaya, D.S. Blinov, A.E. Lobishcheva, E.V. Blinova, V.M. Cheremisin, S.S. Dydykin.

Text writing — D.S. Blinov, E.V. Blinova.

Editing — D.S. Blinov, E.V. Blinova.

Авторы заявляют об отсутствии конфликта интересов.

Подтверждение e-mail

На test@yandex.ru отправлено письмо с ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail