Введение
Интерпретация результатов количественных лабораторных исследований традиционно заключается в сравнении полученного результата с 1) референтным интервалом (РИ) — популяционной «нормой», отражающей разброс межиндивидуальной биологической вариации; 2) с использованием порогов принятия клинического решения (clinical decision limits) из клинических рекомендаций; 3) с предыдущими результатами пациента с использованием критической разницы значений RCV (Reference Change Value). Однако каждый из этих подходов сравнения имеет свои ограничения и недостатки. Низкий индекс индивидуальности, особенно меньше 0,6, что выражается в значительном преобладании внутрииндивидуальной вариации над межиндивидуальной биологической вариацией, накладывает ограничение на использование РИ для трактовки результата исследования [1]. В таких случаях клинически значимые изменения уровня аналита у пациента могут не выходить за пределы РИ и оставаться незамеченными. Для большого количества аналитов отсутствует стандартизация методики определения и полная цепь метрологической прослеживаемости, что приводит к несопоставимости результатов, получаемых различными аналитическими системами. К сожалению, как правило, пороговые значения устанавливаются в исследовании с использованием какой-то одной аналитической системы, без учета отсутствия взаимозаменяемости аналитических систем и влияния данного факта на интерпретацию результата. Многие маркеры обладают недостаточной специфичностью и чувствительностью для диагностики, в связи с чем для повышения точности результатов включается в анализ дополнительная информация о пациенте. В частности, ранее для комплексной оценки данных использовались различные номограммы и калькуляторы. Однако в реальной врачебной практике в условиях дефицита времени и необходимости интерпретации широкого спектра исследований применение разрозненных номограмм и калькуляторов затрудненно [2].
Для устранения этих ограничений обсуждается использование систем поддержки принятия врачебных решений (СППВР). Как правило, при создании СППВР алгоритмы выявления подозрений на заболевания разрабатываются на основе подхода, называемого «экспертными системами». Такая технология подразумевает создание специальной «базы знаний», в которой в формализованном виде хранятся справочники, описывающие взаимосвязи между различными признаками и сопоставленными с ними заболеваниями, которые принято называть «решающими правилами» [2]. Этот подход позволяет получить высокую точность по выявлению подозрений на заболевания, прозрачность созданных алгоритмов и, как следствие, приемлемое с позиции практического использования доверие к таким системам.
Альтернативным подходом к созданию алгоритмов выявления подозрений на заболевания является использование технологий искусственного интеллекта (ИИ), в частности, NLP-технологий (Natural Language Processing) для автоматического извлечения признаков болезни и другой важной информации из электронных медицинских карт (ЭМК), с последующей их интерпретацией моделями машинного обучения (МО), предназначенными для оценки вероятности наличия у пациента того или иного заболевания [3]. ЭМК генерируют в себе большой объем информации о пациенте: демографические, лабораторные, инструментальные данные, диагнозы и назначаемые лекарства, что приводит к накоплению миллиардов различных признаков у миллионов человек. Несмотря на то что изначально данные собираются для персонального применения у пациента, существует возможность их обезличить и использовать для улучшения оказания помощи пациенту посредством использования передовых вычислительных технологий [4]. Эти технологии, в том числе связанные с МО, реализованы СППВР.
Развитие информатизации здравоохранения в России привело к тому, что в большинстве медицинских организаций внедрены различные медицинские информационные системы, в том числе и лабораторные информационные системы (ЛИС), обеспечивающие автоматизацию и информационную поддержку процессов работы клинической лаборатории, а также обмен данными с лабораторным оборудованием. Интеграция ЛИС с МИС в части автоматизированной передачи результатов лабораторного обследования в ЭМК является рутинной практикой. Таким образом, использование наборов данных из ЭМК для задач МО позволяет автоматически создавать алгоритмы выявления подозрений на заболевания.
Практическое применение методов МО в медицине на данный момент носит преимущественно узкоспециализированный характер, например, для анализа медицинских изображений и сигналов, полученных в результате инструментальных исследований. Однако возможности МО имеют широкие перспективы применения в области диагностических задач, таких как детекция подозрений на заболевание при помощи анализа биомаркеров.
F. Meherwar и соавт. на примере пяти заболеваний показали преимущества применения методов МО для диагностики и перспективы этого подхода. Отмечено, что результаты лабораторных исследований являются наиболее информативными и точными источниками медицинских данных [5]. В исследовании Greco A. и др. на данных тестирования крови разработаны модели МО для ранней диагностики заболеваний двигательных нейронов [6]. Kumar и соавт. [7] разработали две модели, выявляющие при помощи параметров анализа крови гематологические заболевания и продемонстрировали возможность их клинического применения. Был сделан вывод, что данные анализа крови являются исчерпывающей информацией для диагностики исследуемых заболеваний. В исследовании Park и др. [8] продемонстрированы возможности моделей МО для решения задачи классификации заболеваний на основе лабораторных тестов. Также имеются публикации [9, 10], в которых описывается анализ данных лабораторных исследований с помощью моделей МО для выявления подозрений на коронавирусную инфекцию.
Разработка модели выявления подозрения на заболевания с использованием лабораторных данных при помощи методов МО — это трудоемкая и сложная задача, предполагающая предварительное решение ряда задач. Это исследование стало первым шагом на этом пути. Цель работы заключалась в изучении подходов к формированию наборов данных с использованием лабораторных показателей и связанных с ними заболеваний на примере разработки модели МО на данных лабораторного обследования, возраста и пола.
Материал и методы
СППВР Webiomed.DHRA является частью платформы прогнозной аналитики Webiomed (регистрационное удостоверение Росздравнадзора 2020/9958). Стратегией развития Webiomed.DHRA является совершенствование возможностей по определению подозрений на заболевания.
Источником информации для создания модели стала база данных (БД) платформы прогнозной аналитики Webiomed, содержащая деперсонифицированные формализованные данные ЭМК 2,9 миллионов пациентов, проходивших обследование и лечение в медицинских организациях различных регионов Российской Федерации. Для сбора данных компанией-разработчиком платформы Webiomed были подписаны соглашения с соответствующими операторами персональных медицинских данных на их обезличивание и передачу результатов такой обработки данных для анализа в платформу Webiomed, в том числе для научно-исследовательских целей. Поскольку анализировались обезличенные медицинские данные, информированное добровольное согласие не оформлялось. Медицинские данные и выявляемые признаки получены рефрактивно из ЭМК с помощью различных технологий извлечения информации из «сырых» данных, в том числе NLP. БД содержит более 2600 категориальных и количественных признаков. Общий вид и детализация платформы Webiomed представлены на рис. 1 на цв. вклейке, рис. 2.
Рис. 1. Общий вид платформы Webiomed.
Рис. 2. Обезличенные социальные, категориальные и количественные признаки пациента в БД Webiomed.
Критериями отбора информации о пациентах для последующего анализа стали возраст ≥18 лет и наличие хотя бы одного протокола биохимического или клинического анализа крови.
Характеристика базы данных Webiomed представлена в табл. 1.
Таблица 1. Характеристика базы данных обезличенных ЭМК, накопленная в платформе Webiomed
Показатель | Значение |
Количество медицинских организаций, поставивших данные в платформу | 86 |
Количество уникальных пациентов, зарегистрированных в платформе | 2 915 994 |
Распределение пациентов по полу, n (%) | Мужчин — 1 374 410 (47,13), Женщин — 1 541 584 (52,87) |
Распределение пациентов по возрасту, n (%) | 0—17 лет — 452 458 (15,52) 18—29 лет — 324 357 (11,12) 30—39 лет — 497 383 (17,06) 40—49 лет — 410 637 (14,08) 50—59 лет — 356 293 (12,22) 60—69 лет — 409 296 (14,04) 70 и старше лет — 465 570 (15,97) |
Общее число пациентов с любым протоколом лабораторной диагностики в ЭМК (%) | 1 104 002 (37,86) |
Доля таких пациентов среди взрослого (от 18 лет) населения, % | 30,72 |
Число пациентов с двумя и более протоколами лабораторной диагностики в ЭМК | 1 026 795 (35,21%) |
Доля таких пациентов среди взрослого (от 18 лет) населения, % | 28,53 |
Число загруженных в платформу документов «Протокол лабораторной диагностики» (% от общего числа загруженных документов) | 27 186 420 (24,71) |
Число типов признаков, которые были извлечены из протоколов лабораторной диагностики | 213 |
Общее число признаков, извлеченных в базе данных Webiomed из протоколов лабораторной диагностики | 85 292 379 |
Дополнительные характеристики базы данных Webiomed в разрезе показателей лабораторной диагностики представлены в табл. 2 и 3.
Таблица 2. Распределение числа протоколов лабораторной диагностики по видам исследований
Вид лабораторного исследования | Количество | Доля |
Гематологические исследования | 13 275 900 | 48,83 |
Биохимические исследования | 5 571 903 | 20,50 |
Химико-микроскопические исследования | 3 693 391 | 13,59 |
Коагулогические исследования | 352 746 | 1,30 |
Иммунологические исследования | 63 828 | 0,23 |
Аутоиммунная диагностика | 63 414 | 0,23 |
Терапевтический лекарственный мониторинг | 4026 | 0,01 |
Молекулярная диагностика инфекционных заболеваний | 2002 | 0,01 |
Вид исследования не был распознан Webiomed | 4 159 210 | 15,30 |
Итого | 27 186 420 | 100,00 |
Таблица 3. Распределение числа извлеченных из протоколов лабораторной диагностики признаков по видам
Вид лабораторного исследования | Количество | Доля |
Гематологические исследования | 47 077 784 | 55,20 |
Биохимические исследования | 28 669 632 | 33,61 |
Химико-микроскопические исследования | 7 961 748 | 9,33 |
Коагулогические исследования | 1 533 465 | 1,80 |
Аутоиммунная диагностика | 48 487 | 0,06 |
Иммунологические исследования | 1143 | 0,00 |
Терапевтический лекарственный мониторинг | 120 | 0,00 |
Итого | 85 292 379 | 100,00 |
Формирование набора данных
Для создания модели МО из базы данных Webiomed был сформирован набор данных, содержащий входную информацию о пациентах, прошедших лабораторную диагностику, включая демографические данные (пол, возраст), лабораторные данные, дату проведения анализов. Выходные данные были представлены сведениями о заключительном клиническом диагнозе, типе обращения (амбулаторный или стационарный случай) и исходе лечения.
Изначально для создания модели выявления подозрений на заболевания было принято решение о рассмотрении всех видов заключительного основного диагноза. Сопутствующие заболевания и осложнения основного диагноза в ходе исследования было решено не рассматривать. Параметр «Пол пациента» был преобразован из факторного формата (Мужской, Женский) в числовой — 0, 1 соответственно.
Во время исследования было принято решение о балансировке классов в наборе данных по причине их дисбаланса. Для этого был применен ресэмплинг, суть которого заключается либо в удалении элементов из слишком большого набора (андерсэмплинг) и/или добавлении большего количества элементов в недостаточно большой набор (оверсэмплинг) [11] (рис. 3). В нашем исследовании был применен метод оверсэмплинга, т.е. число записей в каждом классе было увеличено до максимального из всех классов.
Рис. 3. Балансировка классов методами андерсэмплинга (undersamling) и оверсэмплинга (oversampling).
В полученном наборе данных ряд результатов лабораторной диагностики содержал два, три и более значений ввиду повторного выполнения лабораторного обследования во время случая лечения (табл. 4).
Таблица 4. Пример записей лабораторных данных с несколькими значениями в одной ячейке
ID пациента | Дата получения признака | Название признака | Код признака | Значение признака |
532418 | 2020-1-20 00:00:00+03:03 | Гемоглобин крови | 260 | [100,00; 0] |
613056 | 2018-12-1 00:00:00+03:03 | Гемоглобин крови | 260 | [118,00; 359,00] |
597316 | 2019-12-17 00:00:00+03:03 | Уровень глюкозы (любое измерение) | 14 | [13,00; 15,10; 14,30] |
640791 | 2019-4-11 00:00:00+03:03 | Уровень глюкозы (любое измерение) | 14 | [10,40; 5,70; 7,70] |
522228 | 2019-6-12 00:00:00+03:03 | Уровень глюкозы (любое измерение) | 14 | [6,19; 9,40; 13,10] |
По итогам обсуждения этой особенности с медицинскими советниками было решено выбрать самое первое значение параметра, т.е. самое раннее для каждой записи, так как именно оно характеризовало начальные проявления заболевания, имеющегося у пациента. Строки набора данных, в которых содержатся несколько значений признака, были преобразованы при помощи Python-функции pivot_table в отдельные столбцы, хранящие свои значения для каждой записи, так как эти значения являются основными входными признаками модели. Фрагмент этого преобразования показан в табл. 5.
Таблица 5. Фрагмент преобразованной таблицы с извлеченными лабораторными данными
ID пациента | Дата получения признака | Альфа-амилаза общая крови | Аланинаминотрансфераза | Анизоцитоз | Активность альфа-2 антиплазмина |
500009 | 2016-2-10 00:00:00+03:03 | NaN | 20,30 | NaN | NaN |
500009 | 2017-4-25 00:00:00+03:03 | NaN | 20,90 | 13,60 | NaN |
500009 | 2017-5-31 00:00:00+03:03 | NaN | NaN | 14,00 | NaN |
Стоит отметить, что после преобразования набора в нем появились пропущенные значения (NaN — Not a Number), так как ряд лабораторных данных, имеющихся у одного пациента, может отсутствовать у другого. В дальнейшем пропущенные значения были обнулены.
Заключительным шагом формирования набора данных стала агрегация обработанных записей в единый файл, который затем был использован для создания модели.
Отбор информативных признаков
Среди демографических (пол, возраст) и лабораторных данных пациентов был проведен отбор информативных признаков по методу c2. Были выделены наименее значимые признаки, исключенные впоследствии из обучающего набора.
Результаты
В итоговом наборе данных значения демографических и лабораторных данных пациентов были использованы в качестве входных параметров алгоритмов МО. Итоговый набор данных был случайным образом разбит на обучающую и тестовую выборку в соотношении 75%:25% соответственно.
Для создания модели выявления подозрений на заболевания были применены следующие алгоритмы классификации: LogisticRegression, GaussianNB, DecisionTree, RandomForest, xgboost, AdaBoost, LGBM, MLP.
В качестве метрики качества работы модели была выбрана точность (Accuracy), которая рассчитывалась на тестовой выборке для каждого алгоритма (табл. 9). Этот параметр рассчитывается как соотношение количества записей, по которым классификатор принял правильное решение (P), к размеру всей выборки (N):
Изначально модель была построена для выявления подозрений заболеваний с учетом полного кода МКБ-10, включающим точку — например «I10.0» и «I10.9». Полученные метрики точности модели были крайне низкого качества и несущественно отличались в разных алгоритмах машинного обучения, не превышая значение 0,5. В этой связи было принято решение объединить все записи в код диагноза до точки. Например, все диагнозы «I10.0», «I10.9» и т.д. были объединены в один «I10». Такой подход дал небольшое увеличение точности, и это свидетельствовало, что модель стала лучше классифицировать результаты лабораторной диагностики для объединенных диагнозов. Однако точность полученной модели все равно оставалась низкой. Вследствие этого было принято решение выполнять задачу классификации укрупненно — только для классов основного заключительного диагноза. Причем записи, в которых заключительный клинический диагноз относился к классам F00-F99 и L00-L99, были исключены из набора данных, так как, по мнению медицинских советников, связь этих заболеваний с лабораторными данными была сомнительной. Итоговое количество записей набора данных в зависимости от класса МКБ-10 представлено в табл. 6.
Таблица 6. Выбранные для модели коды МКБ и количество записей с ними
Класс | Группа заболеваний | Число записей |
I00—I99 | Сердечно-сосудистые | 66 404 |
J00—J99 | Органов дыхания | 50 075 |
M00—M99 | Костно-мышечные | 23 828 |
K00—K93 | Органов пищеварения | 23 744 |
E00—E90 | Эндокринной системы | 10 797 |
C00—D48 | Онкологические | 10 509 |
N00—N99 | Мочеполовой системы | 7439 |
A00—B99 | Инфекционные | 4630 |
D50—D89 | Кроветворных органов | 2354 |
G00—G99 | Нервной системы | 1833 |
Итого | — | 201 613 |
Точность полученных на заключительном наборе данных моделей представлена в табл. 7.
Таблица 7. Точность работы классификаторов
Алгоритм машинного обучения | Точность классификации |
RandomForest | 0,69 |
MLP | 0,61 |
DecisionTree | 0,59 |
xgboost | 0,59 |
LGBM | 0,58 |
AdaBoost | 0,48 |
LogisticRegression | 0,45 |
GaussianNB | 0,32 |
Ансамблевые алгоритмы, деревья решений и искусственные нейронные сети показали самые высокие результаты классификации: LGBM — 58%, xgboost — 59%, DecisionTree — 59%, MLP (многослойный персептрон, число скрытых слоев — 3,147 нейронов в каждом) — 61%, RandomForest — 69%. В целях избегания переобучения моделей использовались методы кросс-валидации и регуляризации [12, 13].
Кроме того, для повышения точности была использована оптимизация гиперпараметров: Random Search Optimisation, Grid Search Optimisation [14, 15]. Отметим, что выполнение оптимизации требует достаточно продолжительного времени.
Для наиболее наглядной оценки полученных моделей для каждой из них были созданы матрицы сопряженности, значения на главной диагонали которых — число верно классифицированных записей, вне главной диагонали — ошибочно. Пример матрицы сопряженности для алгоритма RandomForest представлен на рис. 4 на цв вклейке.
Обсуждение
Проведенное исследование показало, что использование наборов данных на извлеченных из ЭМК признаков и МО позволяет создавать модели для выявления подозрений на заболевания, причем поэтапная работа по анализу и подготовке наборов данных, а также применение различных алгоритмов МО и их настройка позволяют последовательно увеличивать точность работы моделей.
Вместе с этим полученные метрики модели были признаны как недостаточные для ее включения в СППВР Webiomed.DHRA, так как их работа в условиях реальной клинической практики вероятнее всего привела бы к дальнейшей деградации точности, что является неприемлемо высоким риском дополнительных ошибок.
По итогам данного исследования команда разработчиков сформулировала несколько гипотез, нуждающихся в дальнейшей проверке:
— Интерпретация только протоколов лабораторного обследования без учета дополнительной информации из ЭМК, включая данные об уже зарегистрированных ранее заболеваниях, объективные данные и другие симптомы пациентов не является точной для постановки диагноза. Целесообразно повторить исследования на более полных данных ЭМК, характеризующих пациента и его заболевания.
— Требуется дополнительная исследовательская работа по изучению различных методов работы с пропущенными значениями, что может позволить дополнительно увеличить точность работы модели.
— Целесообразно разрабатывать отдельные модели для каждого заболевания или группы заболеваний, объединенных по общим патогенетическим критериям. Вероятно, что путь разработки одной универсальной модели, которая могла бы формировать подозрения на любые за
Рис. 4. Матрица сопряженности RandomForest.
болевания, является тупиковым.
— Целесообразно проведение внешней валидации моделей с целью формирования необходимого доверия и последующего принятия решения о возможности их встраивания в СППВР.
Заключение
Результатом проведенного исследования стала модель выявления подозрений на заболевания на основе результатов лабораторной диагностики с использованием данных ЭМК. Точность модели не позволяет применять ее в практике. В ходе обсуждения возможных причин невысокой точности был сформулирован ряд гипотез, требующих дополнительных исследований и разработок. Анализ данных литературы относительно аналогичного опыта разработки диагностических моделей позволяет утверждать, что данные лабораторных анализов являются значимыми для многих заболеваний. Однако применение алгоритмов МО для детекции подозрения на заболевание на данном этапе является экспериментальной областью, в которой обмен данными между медициной и наукой направлен в обе стороны. Актуальной задачей остается поиск биомаркеров и осуществление корреляционных связей между ними, на основе которых может проводиться достоверная и точная оценка вероятности наличия у пациента заболевания. В целом, наше исследование подтверждает необходимость развития этого направления, так как его результаты могут быть использованы в практической медицине.
Авторы заявляют об отсутствии конфликта интересов.