Пиголкин Ю.И.

ФАОУ ВО «Первый Московский государственный медицинский университет им. И.М. Сеченова (Сеченовский Университет)» Минздрава России

Солодовников В.И.

ФГБУН «Центр информационных технологий в проектировании Российской академии наук»

Золотенков Д.Д.

ФАОУ ВО «Первый Московский государственный медицинский университет им. И.М. Сеченова (Сеченовский Университет)» Минздрава России

Салем Б.Р.

ФГБУН «Центр информационных технологий в проектировании Российской академии наук»

Полетаева М.П.

ФАОУ ВО «Первый Московский государственный медицинский университет им. И.М. Сеченова (Сеченовский Университет)» Минздрава России

Золотенкова Г.В.

ФАОУ ВО «Первый Московский государственный медицинский университет им. И.М. Сеченова (Сеченовский Университет)» Минздрава России

Опыт использования Data Analysis исследовательских данных при решении задачи установления целевой возрастной группы

Авторы:

Пиголкин Ю.И., Солодовников В.И., Золотенков Д.Д., Салем Б.Р., Полетаева М.П., Золотенкова Г.В.

Подробнее об авторах

Прочитано: 882 раза


Как цитировать:

Пиголкин Ю.И., Солодовников В.И., Золотенков Д.Д., Салем Б.Р., Полетаева М.П., Золотенкова Г.В. Опыт использования Data Analysis исследовательских данных при решении задачи установления целевой возрастной группы. Судебно-медицинская экспертиза. 2024;67(4):37‑41.
Pigolkin YuI, Solodovnikov VI, Zolotenkov DD, Salem BR, Poletaeva MP, Zolotenkova GV. Experience of Data Analysis application for proceeding research data in solving the problem of target age group establishment. Forensic Medical Expertise. 2024;67(4):37‑41. (In Russ.)
https://doi.org/10.17116/sudmed20246704137

Рекомендуем статьи по данной теме:
При­ме­не­ние ме­то­дов ис­кусствен­но­го ин­тел­лек­та при гла­уко­ме. Часть 2. Ней­ро­се­ти и ма­шин­ное обу­че­ние в мо­ни­то­рин­ге и ле­че­нии гла­уко­мы. Вес­тник оф­таль­мо­ло­гии. 2024;(4):80-85
По­зит­рон­но-эмис­си­он­ная то­мог­ра­фия, сов­ме­щен­ная с ком­пью­тер­ной то­мог­ра­фи­ей, с 11С-ме­ти­они­ном как не­за­ви­си­мый пре­дик­тор без­ре­ци­див­ной вы­жи­ва­емос­ти у боль­ных с диф­фуз­ны­ми гли­ома­ми без му­та­ции в ге­не IDH1. Жур­нал «Воп­ро­сы ней­ро­хи­рур­гии» име­ни Н.Н. Бур­ден­ко. 2024;(5):6-13
Рас­ту­щий пе­ре­лом вер­хней стен­ки ор­би­ты. Кли­ни­чес­кий слу­чай и об­зор ли­те­ра­ту­ры. Жур­нал «Воп­ро­сы ней­ро­хи­рур­гии» име­ни Н.Н. Бур­ден­ко. 2024;(5):77-86
Фак­то­ры рос­та PDGF-AA, PDGF-BB и BDNF как по­тен­ци­аль­ные диф­фе­рен­ци­ру­ющие би­омар­ке­ры мо­но­по­ляр­ной и би­по­ляр­ной деп­рес­сии. Жур­нал нев­ро­ло­гии и пси­хи­ат­рии им. С.С. Кор­са­ко­ва. 2024;(9):104-108
Ме­то­ды ле­че­ния па­ци­ен­тов со ске­лет­ны­ми фор­ма­ми дис­таль­ной ок­клю­зии зуб­ных ря­дов с по­мощью зу­бо­аль­ве­оляр­ной ком­пен­са­ции. Роль циф­ро­вых тех­но­ло­гий и под­ход к ле­че­нию. Сто­ма­то­ло­гия. 2024;(5):24-36
Цен­ность ком­пью­тер­но­го то­мог­ра­фи­чес­ко­го об­сле­до­ва­ния при пла­ни­ро­ва­нии опе­ра­ций на кла­пан­ном ап­па­ра­те сер­дца с при­ме­не­ни­ем ми­ни­то­ра­ко­то­мии. Хи­рур­гия. Жур­нал им. Н.И. Пи­ро­го­ва. 2024;(12-2):127-133
Маг­нит­но-ре­зо­нан­сная то­мог­ра­фия и по­зит­рон­но-эмис­си­он­ная то­мог­ра­фия, сов­ме­щен­ная с ком­пью­тер­ной то­мог­ра­фи­ей с 11C-ме­ти­они­ном, при пер­вич­ном вас­ку­ли­те цен­траль­ной нер­вной сис­те­мы. Кли­ни­чес­кий слу­чай и об­зор ли­те­ра­ту­ры. Жур­нал «Воп­ро­сы ней­ро­хи­рур­гии» име­ни Н.Н. Бур­ден­ко. 2024;(6):71-76
Срав­не­ние мо­де­лей прог­но­зи­ро­ва­ния спон­тан­ных преж­дев­ре­мен­ных ро­дов. Ме­ди­цин­ские тех­но­ло­гии. Оцен­ка и вы­бор. 2024;(4):10-19
Ана­лиз сос­та­ва вы­ды­ха­емо­го воз­ду­ха с ис­поль­зо­ва­ни­ем пор­та­тив­но­го «элек­трон­но­го но­са» как пер­спек­тив­ный ме­тод не­ин­ва­зив­ной экспресс-ди­аг­нос­ти­ки ту­бер­ку­ле­за лег­ких. Ла­бо­ра­тор­ная служ­ба. 2024;(4):12-20
Кли­ни­ко-то­мог­ра­фи­чес­кие со­пос­тав­ле­ния у боль­ных с афа­зи­ей в ос­тром пе­ри­оде ише­ми­чес­ко­го ин­суль­та. Жур­нал нев­ро­ло­гии и пси­хи­ат­рии им. С.С. Кор­са­ко­ва. Спец­вы­пус­ки. 2024;(12-2):27-33

Введение

В настоящее время цифровизация имеет статус национального проекта, является парадигмой экономического и общественного развития нашей страны [1—4]. С учетом государственной политики в сфере научных исследований и разработок ключевой задачей цифровой трансформации Сеченовского Университета является кардинальное усиление инновационного потенциала. Для этого предполагается модифицировать процесс создания новых знаний путем внедрения цифровых технологий и решений на базе искусственного интеллекта [5]. И именно «цифровые» задачи формируют модель научно-исследовательской работы кафедры судебной медицины Сеченовского Университета. В судебной медицине в последнее десятилетие уже сформировалась тенденция на активное использование достижений цифровой революции как в научных исследованиях, так и в практической деятельности. Значительное число подобных инноваций реализовано в кластере судебно-медицинской идентификации неопознанных лиц, где большинство выполняемых исследований сопряжено с необходимостью обработки значительных массивов соответствующей информации [6—11]. Особого внимания в современных условиях требуют вопросы судебно-медицинского установления возраста, т.к. используемые ранее методические подходы для решения вопросов идентификации личности, в том числе установления возраста, в современных условиях требуют переосмысления и модернизации. Методы интеллектуального анализа (Data Analysis) представляют собой оптимальный вариант решения подобного рода задач. Множество опубликованных работ отечественных исследователей свидетельствует о формировании устойчивого тренда на внедрение в собственные разработки передового математического аппарата и программного обеспечения, в том числе и посредством использования арсенала средств анализа многомерных неоднородных данных [7—9]. Лимитирующими факторами массового внедрения инструментов Data Analysis, например нейросетей или других методов машинного обучения, является недостаточное понимание процесса принятия решений (эффект «черного ящика»), что, в свою очередь, затрудняет интерпретацию результатов («предсказания») построенной модели.

Цель исследования — рассмотреть возможности и перспективы использования технологии Data Analysis для всестороннего анализа данных, выявления предварительно неизвестных, практически полезных и доступных интерпретации знаний, шаблонов, закономерностей, отражающих фрагменты многоаспектных взаимоотношений на примере решения задачи судебно-медицинской оценки возраста (установления целевой возрастной группы).

Материал и методы

В качестве материала использована база данных, содержащая метрические показатели возрастной динамики синостозирования по данным компьютерно-томографических (КТ) изображений коленного сустава. Выборка представлена субъектами обоего пола в возрасте от 13 до 21 года (табл. 1). Медиана (Me) возраста для субъектов мужского пола составила 16,25 [14,42; 17,58], для женского пола — 16,75 [15,58; 18,31].

Таблица 1. Демографические данные (распределение по возрасту и полу) субъектов исследования

Число субъектов

Возраст, лет

Итого

13

14

15

16

17

18

>18

Мужчины, абс.

10

48

26

32

24

19

16

175

Женщины, абс.

10

18

28

10

18

22

22

128

Всего, абс.

20

66

54

42

42

41

38

303

Технология получения данных подробно изложена в предыдущих публикациях [12, 13]. Она базируется на использовании программного обеспечения для измерения сегментов метаэпифизарного сращения (синостоза) дистального эпифиза бедренной (Femurl, Fel), проксимального эпифиза большеберцовой (Tibial, Til) и проксимального эпифиза малоберцовой (Fibulal, Fil) костей, а затем вычисления отношения этих измерений к максимальной ширине метафиза: FemurL (FeL); TibiaL (TiL); FibulaL (FiL); FemurR (FeR) = Fel/FeL; TibiaR (TiR) = Til/TiL; FibulaR (FiR) = Fil/FiL; FTF = FemurR+TibiaR+FibulaR. Метод представляет собой переход от предыдущих качественных, полуколичественных (балльных) методов к количественному анализу, который дает легко сопоставимые численные результаты, полезные для целей судебной экспертизы. Исходная информация была представлена цифровыми значениями показателей FeR, TiR, FiR, FTF.

Статистический анализ полученных данных выполнен с использованием программ Microsoft Excel и IBM SPSS Statistics 21. Для визуализации и кластеризации данных в работе использовали методы машинного обучения: для кластеризацции — KMeans; для уменьшения размерности данных с последующей визуализацией — UMAP; для интерпретации результатов модели — язык программирования Python, библиотеку SHAP, для визуализации — Seaborn.

Результаты и обсуждение

Статистический анализ позволил установить следующую закономерность: наличие сильной корреляционной связи с возрастом как отдельных показателей (FeR; TiR; FiR), так и суммарного (FTF). Для всей выборки (n=303): FeR R2=0,857; TiR R2=0,805; FiR R2=0,810; FTF R2=0,870; для женской выборки (n=128): FeR R2=0,857, TiR R2=0,808, FiR R2=0,850, FTF R2=0,878; для мужской выборки (n=175): FeR R2=0,854, TiR R2=0,796, FiR R2=0,774, FTF R2=0,861. Это дает возможность использовать их в построении модели множественной линейной регрессии для определения возраста с высоким коэффициентом детерминации. Однако в настоящее время целесообразность построения подобных уравнений подвергается критике. Высказываются вполне обоснованные с общебиологических позиций сомнения в правильности применения линейных регрессионных уравнений для описания такого сложного процесса, как рост и развитие человека. Также следует учитывать, что для уголовного судопроизводства имеют принципиальное значение следующие годы: 14, 16, 18 лет (ч. 1 ст. 87 Уголовного кодекса Российской Федерации; ст. 20 УК РФ; ч. 2 ст. 20 УК РФ). Следовательно, наибольшую практическую значимость и востребованность представляют методики, позволяющие определять конкретный возраст, целевую возрастную группу (например, исполнилось подэкспертному 18 лет или нет), а не возрастной интервал, возрастной период. В этой связи в работе возраст был классифицирован как бинарная переменная с формированием центров кластеров: 14, 16, 18 лет, и использованы методы Data Analysis, в частности, кластеризация данных с визуализацией полученных результатов. Кластеризация является одним из инструментов машинного обучения, который на основе сбора информации о выборке и ее обработке позволяет объединить объекты в сравнительно однородные группы, что приобретает особую ценность, когда выступает одним из этапов разведочного анализа данных при построении законченного аналитического суждения. В представленной работе кластеризация применена для проверки гипотезы о целесообразности использования метрической характеристики синостозирования в качестве диагностического критерия целевой возрастной группы.

На первоначальном этапе характеристики, описывающие возраст и пол, были убраны, оставлены лишь следующие переменные для анализа: FeR, TiR, FiR, FTF. На данной комбинации параметров был применен алгоритм Uniform Manifold Approximation and Projection (UMAP), выполняющий нелинейное снижение размерности. Наивысшую оценку качества кластеризации (silhouette score) со значением 0,67 продемонстрировал метод KMeans с 3 кластерами. Это наиболее простой метод кластеризации в классической реализации. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k и стремится минимизировать среднеквадратичное отклонение на точках каждого кластера. Silhouette Score (коэффициент силуэта) — показатель для оценки качества результатов кластеризации. Он измеряет, насколько точка данных похожа на собственный кластер по сравнению с другими кластерами, где более высокое значение указывает на лучшую производительность кластеризации.

К полученным результатам были добавлены характеристики пола и возраста, чтобы оценить подобные кластеры между собой. В ходе последующей реализации алгоритма были получены достаточно четко сформированные группы (кластеры), пронумерованные условно как «0», «1», «2». Результаты демонстрируют различие кластеров (0, 1, 2) по возрастным диапазонам, причем пол субъекта не имеет влияния на возрастной диапазон в рамках одного кластера, главным образом кластеров «0» и «2» (рис. 1 на цв. вклейке; табл. 2). Для визуализации результатов использована блочная диаграмма «ящик с усами», отображающая распределение между числовыми и категориальными переменными, информацию о квартилях, максимальное и минимальное значение, медиану, а также выбросы для каждого класса категорий.

Рис. 1. Блочная диаграмма, отражающая распределение выделенных кластеров по возрасту и полу.

Таблица 2. Статистические характеристики возрастного распределения кластеров с учетом половой принадлежности

Stats

Кластер «0» Ж

Кластер «0» M

Кластер «1» Ж

Кластер «1» M

Кластер «2» Ж

Кластер «2» M

Количество наблюдений

35

65

46

73

47

37

mean

16.69

16.67

14.62

14.36

18.81

18.91

std

0.77

0.77

0.99

0.81

0.71

0.82

min

15.58

14.25

13.17

13.17

17.75

17.67

25%

15.92

16.25

13.77

13.67

18.17

18.33

50%

16.67

16.75

14.33

14.33

18.75

18.58

75%

17.37

17.33

15.67

14.58

19.17

19.42

max

18.08

17.83

16.25

16.25

20.25

20.83

Примечание. mean — выборочное среднее; std — стандартное (среднеквадратическое) отклонение; 50% — медиана.

Для сравнения кластеров в контексте распределения возраста без дополнительной разбивки на пол были использованы критерий Краскела—Уоллиса (для трех кластеров) и U-критерий Манна—Уитни (для попарных сравнений кластеров), p при всех сравнениях составлял менее 0,00001.

Одной из важнейших задач в сфере интеллектуального анализа данных является не только построение модели, способной делать качественные предсказания, но и умение интерпретировать такие предсказания. Применительно к линейным моделям учитывается абсолютное значение коэффициента корреляции при предикторе. В более сложных нелинейных моделях машинного обучения, в частности, нейронных сетях, деревьях решений и их ансамблях, таких как градиентый бустинг и случайный лес, оценить и объяснить важность параметра сложнее. Для этого мы использовали возможности библиотеки SHAP, позволяющей интерпретировать результаты моделей машинного обучения на основе методов теории игр. В частности, реализация метода SHAP value impact on model output позволила измерить вклад каждого показателя в конечный результат (рис. 2 на цв. вклейке). Согласно полученным результатам, наиболее высокую значимость имеют FiR затем следует TiR и замыкает список FeR. Высокие значения TiR больше всего сдвигают прогноз модели к старшему возрасту. Функция Seaborn Pairplot использована для создания точечных графиков, где были попарно отображены анализируемые параметры из базы данных в дополнение для визуализации графика с параметром оттенка, установленным на значение кластера (рис. 3 на цв. вклейке).

Рис. 2. Уровень значимости параметров.

Рис. 3. График pairplot-визуализации взаимосвязи количественных переменных FemurR, TibiaR, FibulaR и возраста (AGE).

Заключение

Рассмотренный положительный опыт обработки медицинских данных с помощью алгоритмов машинного обучения демонстрирует эффективность использования методов и средств Data Analysis в качестве одного из этапов научного исследования, в том числе решения вопроса о диагностической значимости предлагаемого показателя (FTF) для установления целевых возрастных групп. На основе проведенного интеллектуального анализа данных был получен вывод о том, что количественный показатель синостозирования (дистального эпифиза бедренной кости, проксимальных эпифизов большеберцовой и малоберцовой костей) по данным КТ-изображения коленного сустава может использоваться в качестве дополнительного диагностического критерия определения целевой возрастной группы. Комплексный учет динамики синостозирования всех 3 эпифизов на КТ-изображениях повышает точность итоговой оценки.

Реализация подобного подхода цифровой трансформации повышает операционную эффективность самих проводимых научных исследований, а также качество и доступность разрабатываемых итоговых технологических продуктов — программного обеспечения для решения экспертных задач. Дополнительная визуализация полученных результатов также позволяет нагляднее представить результаты находок интеллектуального анализа доступным языком, что доказывает не только возможность успешного междисциплинарного взаимодействия, но и внедрения решений на основе искусственного интеллекта.

Исследование выполнено в рамках государственного задания: FFNR-2024-0003.

Авторы заявляют об отсутствии конфликта интересов.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail

Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.