Введение
В настоящее время цифровизация имеет статус национального проекта, является парадигмой экономического и общественного развития нашей страны [1—4]. С учетом государственной политики в сфере научных исследований и разработок ключевой задачей цифровой трансформации Сеченовского Университета является кардинальное усиление инновационного потенциала. Для этого предполагается модифицировать процесс создания новых знаний путем внедрения цифровых технологий и решений на базе искусственного интеллекта [5]. И именно «цифровые» задачи формируют модель научно-исследовательской работы кафедры судебной медицины Сеченовского Университета. В судебной медицине в последнее десятилетие уже сформировалась тенденция на активное использование достижений цифровой революции как в научных исследованиях, так и в практической деятельности. Значительное число подобных инноваций реализовано в кластере судебно-медицинской идентификации неопознанных лиц, где большинство выполняемых исследований сопряжено с необходимостью обработки значительных массивов соответствующей информации [6—11]. Особого внимания в современных условиях требуют вопросы судебно-медицинского установления возраста, т.к. используемые ранее методические подходы для решения вопросов идентификации личности, в том числе установления возраста, в современных условиях требуют переосмысления и модернизации. Методы интеллектуального анализа (Data Analysis) представляют собой оптимальный вариант решения подобного рода задач. Множество опубликованных работ отечественных исследователей свидетельствует о формировании устойчивого тренда на внедрение в собственные разработки передового математического аппарата и программного обеспечения, в том числе и посредством использования арсенала средств анализа многомерных неоднородных данных [7—9]. Лимитирующими факторами массового внедрения инструментов Data Analysis, например нейросетей или других методов машинного обучения, является недостаточное понимание процесса принятия решений (эффект «черного ящика»), что, в свою очередь, затрудняет интерпретацию результатов («предсказания») построенной модели.
Цель исследования — рассмотреть возможности и перспективы использования технологии Data Analysis для всестороннего анализа данных, выявления предварительно неизвестных, практически полезных и доступных интерпретации знаний, шаблонов, закономерностей, отражающих фрагменты многоаспектных взаимоотношений на примере решения задачи судебно-медицинской оценки возраста (установления целевой возрастной группы).
Материал и методы
В качестве материала использована база данных, содержащая метрические показатели возрастной динамики синостозирования по данным компьютерно-томографических (КТ) изображений коленного сустава. Выборка представлена субъектами обоего пола в возрасте от 13 до 21 года (табл. 1). Медиана (Me) возраста для субъектов мужского пола составила 16,25 [14,42; 17,58], для женского пола — 16,75 [15,58; 18,31].
Таблица 1. Демографические данные (распределение по возрасту и полу) субъектов исследования
Число субъектов | Возраст, лет | Итого | ||||||
13 | 14 | 15 | 16 | 17 | 18 | >18 | ||
Мужчины, абс. | 10 | 48 | 26 | 32 | 24 | 19 | 16 | 175 |
Женщины, абс. | 10 | 18 | 28 | 10 | 18 | 22 | 22 | 128 |
Всего, абс. | 20 | 66 | 54 | 42 | 42 | 41 | 38 | 303 |
Технология получения данных подробно изложена в предыдущих публикациях [12, 13]. Она базируется на использовании программного обеспечения для измерения сегментов метаэпифизарного сращения (синостоза) дистального эпифиза бедренной (Femurl, Fel), проксимального эпифиза большеберцовой (Tibial, Til) и проксимального эпифиза малоберцовой (Fibulal, Fil) костей, а затем вычисления отношения этих измерений к максимальной ширине метафиза: FemurL (FeL); TibiaL (TiL); FibulaL (FiL); FemurR (FeR) = Fel/FeL; TibiaR (TiR) = Til/TiL; FibulaR (FiR) = Fil/FiL; FTF = FemurR+TibiaR+FibulaR. Метод представляет собой переход от предыдущих качественных, полуколичественных (балльных) методов к количественному анализу, который дает легко сопоставимые численные результаты, полезные для целей судебной экспертизы. Исходная информация была представлена цифровыми значениями показателей FeR, TiR, FiR, FTF.
Статистический анализ полученных данных выполнен с использованием программ Microsoft Excel и IBM SPSS Statistics 21. Для визуализации и кластеризации данных в работе использовали методы машинного обучения: для кластеризацции — KMeans; для уменьшения размерности данных с последующей визуализацией — UMAP; для интерпретации результатов модели — язык программирования Python, библиотеку SHAP, для визуализации — Seaborn.
Результаты и обсуждение
Статистический анализ позволил установить следующую закономерность: наличие сильной корреляционной связи с возрастом как отдельных показателей (FeR; TiR; FiR), так и суммарного (FTF). Для всей выборки (n=303): FeR R2=0,857; TiR R2=0,805; FiR R2=0,810; FTF R2=0,870; для женской выборки (n=128): FeR R2=0,857, TiR R2=0,808, FiR R2=0,850, FTF R2=0,878; для мужской выборки (n=175): FeR R2=0,854, TiR R2=0,796, FiR R2=0,774, FTF R2=0,861. Это дает возможность использовать их в построении модели множественной линейной регрессии для определения возраста с высоким коэффициентом детерминации. Однако в настоящее время целесообразность построения подобных уравнений подвергается критике. Высказываются вполне обоснованные с общебиологических позиций сомнения в правильности применения линейных регрессионных уравнений для описания такого сложного процесса, как рост и развитие человека. Также следует учитывать, что для уголовного судопроизводства имеют принципиальное значение следующие годы: 14, 16, 18 лет (ч. 1 ст. 87 Уголовного кодекса Российской Федерации; ст. 20 УК РФ; ч. 2 ст. 20 УК РФ). Следовательно, наибольшую практическую значимость и востребованность представляют методики, позволяющие определять конкретный возраст, целевую возрастную группу (например, исполнилось подэкспертному 18 лет или нет), а не возрастной интервал, возрастной период. В этой связи в работе возраст был классифицирован как бинарная переменная с формированием центров кластеров: 14, 16, 18 лет, и использованы методы Data Analysis, в частности, кластеризация данных с визуализацией полученных результатов. Кластеризация является одним из инструментов машинного обучения, который на основе сбора информации о выборке и ее обработке позволяет объединить объекты в сравнительно однородные группы, что приобретает особую ценность, когда выступает одним из этапов разведочного анализа данных при построении законченного аналитического суждения. В представленной работе кластеризация применена для проверки гипотезы о целесообразности использования метрической характеристики синостозирования в качестве диагностического критерия целевой возрастной группы.
На первоначальном этапе характеристики, описывающие возраст и пол, были убраны, оставлены лишь следующие переменные для анализа: FeR, TiR, FiR, FTF. На данной комбинации параметров был применен алгоритм Uniform Manifold Approximation and Projection (UMAP), выполняющий нелинейное снижение размерности. Наивысшую оценку качества кластеризации (silhouette score) со значением 0,67 продемонстрировал метод KMeans с 3 кластерами. Это наиболее простой метод кластеризации в классической реализации. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k и стремится минимизировать среднеквадратичное отклонение на точках каждого кластера. Silhouette Score (коэффициент силуэта) — показатель для оценки качества результатов кластеризации. Он измеряет, насколько точка данных похожа на собственный кластер по сравнению с другими кластерами, где более высокое значение указывает на лучшую производительность кластеризации.
К полученным результатам были добавлены характеристики пола и возраста, чтобы оценить подобные кластеры между собой. В ходе последующей реализации алгоритма были получены достаточно четко сформированные группы (кластеры), пронумерованные условно как «0», «1», «2». Результаты демонстрируют различие кластеров (0, 1, 2) по возрастным диапазонам, причем пол субъекта не имеет влияния на возрастной диапазон в рамках одного кластера, главным образом кластеров «0» и «2» (рис. 1 на цв. вклейке; табл. 2). Для визуализации результатов использована блочная диаграмма «ящик с усами», отображающая распределение между числовыми и категориальными переменными, информацию о квартилях, максимальное и минимальное значение, медиану, а также выбросы для каждого класса категорий.
Рис. 1. Блочная диаграмма, отражающая распределение выделенных кластеров по возрасту и полу.
Таблица 2. Статистические характеристики возрастного распределения кластеров с учетом половой принадлежности
Stats | Кластер «0» Ж | Кластер «0» M | Кластер «1» Ж | Кластер «1» M | Кластер «2» Ж | Кластер «2» M |
Количество наблюдений | 35 | 65 | 46 | 73 | 47 | 37 |
mean | 16.69 | 16.67 | 14.62 | 14.36 | 18.81 | 18.91 |
std | 0.77 | 0.77 | 0.99 | 0.81 | 0.71 | 0.82 |
min | 15.58 | 14.25 | 13.17 | 13.17 | 17.75 | 17.67 |
25% | 15.92 | 16.25 | 13.77 | 13.67 | 18.17 | 18.33 |
50% | 16.67 | 16.75 | 14.33 | 14.33 | 18.75 | 18.58 |
75% | 17.37 | 17.33 | 15.67 | 14.58 | 19.17 | 19.42 |
max | 18.08 | 17.83 | 16.25 | 16.25 | 20.25 | 20.83 |
Примечание. mean — выборочное среднее; std — стандартное (среднеквадратическое) отклонение; 50% — медиана.
Для сравнения кластеров в контексте распределения возраста без дополнительной разбивки на пол были использованы критерий Краскела—Уоллиса (для трех кластеров) и U-критерий Манна—Уитни (для попарных сравнений кластеров), p при всех сравнениях составлял менее 0,00001.
Одной из важнейших задач в сфере интеллектуального анализа данных является не только построение модели, способной делать качественные предсказания, но и умение интерпретировать такие предсказания. Применительно к линейным моделям учитывается абсолютное значение коэффициента корреляции при предикторе. В более сложных нелинейных моделях машинного обучения, в частности, нейронных сетях, деревьях решений и их ансамблях, таких как градиентый бустинг и случайный лес, оценить и объяснить важность параметра сложнее. Для этого мы использовали возможности библиотеки SHAP, позволяющей интерпретировать результаты моделей машинного обучения на основе методов теории игр. В частности, реализация метода SHAP value impact on model output позволила измерить вклад каждого показателя в конечный результат (рис. 2 на цв. вклейке). Согласно полученным результатам, наиболее высокую значимость имеют FiR затем следует TiR и замыкает список FeR. Высокие значения TiR больше всего сдвигают прогноз модели к старшему возрасту. Функция Seaborn Pairplot использована для создания точечных графиков, где были попарно отображены анализируемые параметры из базы данных в дополнение для визуализации графика с параметром оттенка, установленным на значение кластера (рис. 3 на цв. вклейке).
Рис. 2. Уровень значимости параметров.
Рис. 3. График pairplot-визуализации взаимосвязи количественных переменных FemurR, TibiaR, FibulaR и возраста (AGE).
Заключение
Рассмотренный положительный опыт обработки медицинских данных с помощью алгоритмов машинного обучения демонстрирует эффективность использования методов и средств Data Analysis в качестве одного из этапов научного исследования, в том числе решения вопроса о диагностической значимости предлагаемого показателя (FTF) для установления целевых возрастных групп. На основе проведенного интеллектуального анализа данных был получен вывод о том, что количественный показатель синостозирования (дистального эпифиза бедренной кости, проксимальных эпифизов большеберцовой и малоберцовой костей) по данным КТ-изображения коленного сустава может использоваться в качестве дополнительного диагностического критерия определения целевой возрастной группы. Комплексный учет динамики синостозирования всех 3 эпифизов на КТ-изображениях повышает точность итоговой оценки.
Реализация подобного подхода цифровой трансформации повышает операционную эффективность самих проводимых научных исследований, а также качество и доступность разрабатываемых итоговых технологических продуктов — программного обеспечения для решения экспертных задач. Дополнительная визуализация полученных результатов также позволяет нагляднее представить результаты находок интеллектуального анализа доступным языком, что доказывает не только возможность успешного междисциплинарного взаимодействия, но и внедрения решений на основе искусственного интеллекта.
Исследование выполнено в рамках государственного задания: FFNR-2024-0003.
Авторы заявляют об отсутствии конфликта интересов.