Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.
Проблемы и решения в применении алгоритмов машинного обучения для анализа данных в кардиологии
Журнал: Профилактическая медицина. 2025;28(10): 16‑22
Прочитано: 234 раза
Как цитировать:
Сердечно-сосудистые заболевания (ССЗ) остаются ведущей причиной заболеваемости и смертности в мире, несмотря на достижения в диагностике и лечении [1]. В России более 55% всех случаев смерти связаны с ССЗ [2], что подчеркивает необходимость поиска и разработки новых подходов к ранней диагностике, стратификации риска и персонализированному лечению.
Одним из наиболее перспективных направлений является использование методов машинного обучения (МО) и искусственного интеллекта (ИИ). Развитие вычислительных мощностей и накопление медицинских данных создали условия для внедрения МО в клиническую практику [3]. Показана высокая эффективность алгоритмов, применяемых для анализа электрокардиограмм (ЭКГ), изображений эхокардиографии (ЭхоКГ), компьютерной томографии (КТ), магнитно-резонансной томографии (МРТ), прогнозирования событий и выбора терапии [4, 5]. Использование МО способствует повышению точности диагностики, ускоряет обработку данных и снижает нагрузку на врачей [6]. Глубокое обучение способно выявлять признаки сердечной недостаточности на ЭКГ с чувствительностью и специфичностью, которые превышают показатели опытных специалистов [7], а в области визуализации позволяет автоматически анализировать структуру и функцию сердца [8, 9].
Тем не менее широкое внедрение МО в кардиологию осложнено проблемами качества данных, интерпретируемости моделей, методологическими и этическими барьерами [10, 11]. Понимание этих проблем и поиск путей их решения становятся особенно актуальными на фоне стремительного развития цифровой медицины.
Впервые в отечественной и зарубежной литературе представлен аналитический обзор методологических, интерпретируемых, этико-правовых и инфраструктурных барьеров внедрения алгоритмов МО именно в клиническую кардиологию. Для анализа отобраны 31 ключевая англоязычная и 9 русскоязычных научных публикаций (2004—2024 гг.), а результаты тематического контент-анализа позволили не только описать отдельные технические особенности, но и структурировать возникающие ограничения и сформулировать рекомендации по их преодолению с учетом как международного опыта, так и особенностей российской системы здравоохранения.
Цель исследования — системно проанализировать и структурировать данные о ключевых барьерах внедрения методов МО в клиническую кардиологию, а также предложить рекомендации по их преодолению с учетом международного опыта и российских реалий.
Поиск литературы для данного обзора проведен в электронных базах данных eLibrary, PubMed, Scopus и Web of Science. Использовались следующие ключевые слова и их комбинации: «машинное обучение», «кардиология», «искусственный интеллект», «ЭКГ», «эхокардиография», «проблемы», «решения», «machine learning», «cardiology», «artificial intelligence», «electrocardiography», «echocardiography», «challenges», «solutions». Глубина поиска составила 5 лет для иностранных публикаций (2019—2024 гг.) и 20 лет для публикаций на русском языке (2004—2024 гг.).
Критерии включения: 1) публикация в рецензируемом научном издании; 2) доступность полнотекстовой версии; 3) соответствие теме исследования; 4) методологическая корректность.
Критерии исключения: метаанализы не включены в исследование ввиду их малочисленности по данной тематике, а также высокого риска публикационного смещения.
Просмотрено 847 публикаций, из которых для итогового анализа отобрано 40 оригинальных статей и обзоров, наиболее полно отвечающих целям исследования, из них 31 статья на английском языке и 9 — на русском. Среди отобранных публикаций 8 оригинальных исследований и 30 обзорных работ.
Анализ публикаций проводился с использованием тематического контент-анализа, что позволило выделить и систематизировать описанные проблемы и предлагаемые решения в соответствии с основными разделами исследования: качество и доступность данных, методологические ограничения, этические аспекты и клиническая применимость, интеграция в практическую медицину.
Эффективность моделей МО напрямую зависит от качества и объема данных, используемых для обучения и валидации [12]. В кардиологии эта проблема является особенно острой в силу ряда специфических факторов.
Ограниченность биомедицинских данных и сложности стандартизации. По данным S. Sanchez-Martinez и соавт., многие академические базы включают недостаточное число пациентов для обучения сложных моделей [11]. Ситуация осложняется гетерогенностью данных: ЭхоКГ выполняется на разном оборудовании, с различными протоколами и операторами, что снижает сопоставимость результатов [11]. Так, например, C. Chung и соавт. подчеркивают, что отсутствие единого формата записи ЭКГ (различия в частоте, количестве каналов, фильтрации) мешает созданию универсальных алгоритмов и затрудняет мультицентровое обучение [13].
Несбалансированные выборки и редкие события. Y. Li и соавт. указывают, что в кардиологии часто преобладают распространенные состояния (например, артериальная гипертензия), в то время как редкие осложнения представлены единичными случаями [12], что приводит к смещению модели в сторону доминирующих классов. И.А. Соловьёв и О.Н. Курочкина отмечают, что необходима не только большая база, но и качественная аннотированная разметка с участием экспертов [7]. Недостаток таких баз остается сдерживающим фактором развития разработок в данной области.
Ошибки и шум в данных. Медицинские сигналы, особенно ЭКГ, подвержены артефактам. Движения, тремор, электрические помехи ухудшают точность как ручной, так и автоматической интерпретации [14]. Аналогично качество изображений (ЭхоКГ, МРТ, КТ) зависит от оборудования, оператора и особенностей пациента [15]. D. Grün и соавт. показали, что точность алгоритмов для диагностики сердечной недостаточности на основании результатов ЭКГ снижается при применении новых данных из-за различий в условиях регистрации и качества сигнала [16].
Работа с медицинскими данными требует строгого соблюдения законодательства о защите персональной информации. В России это регулируется Федеральным законом от 27.07.2006 №152 «О персональных данных»1 и Федеральным законом от 21.11.2011 №323 «Об охране здоровья граждан»2, которые обязывают обеспечивать конфиденциальность и использовать данные в обезличенном виде с информированным согласием пациента. Зарубежные нормы, такие как GDPR (ЕС) и HIPAA (США), также содержат требования строгих мер защиты [17]. Анонимизация должна исключать возможность идентификации пациента, что бывает затруднительно при работе с редкими и орфанными заболеваниями или с малыми популяциями.
Российские исследователи подчеркивают, что отсутствие четких регуляторных норм и процедур по использованию анонимизированных медицинских данных для разработки алгоритмов МО является одним из существенных барьеров в развитии этого направления [18, 19].
Методологические ограничения алгоритмов машинного обучения. Алгоритмы МО обладают рядом методологических ограничений, которые необходимо учитывать при их разработке и применении в кардиологии.
Перекалибровка моделей при переносе на другие популяции. W. Ben Ali и соавт. указывают, что модели МО, обученные на одной популяции, часто теряют точность при применении к другим из-за различий в демографии, распространенности заболеваний, генетике и особенностях здравоохранения [20]. Так, например, модель риска развития ишемической болезни сердца показала AUC 0,88 для европейцев, но только 0,71 для азиатов. Адаптация моделей, включая перекалибровку или дообучение на локальных данных, может повысить точность, но это требует ресурсов и достаточного объема данных [21].
Низкая интерпретируемость моделей (black-box problem). Глубокие нейронные сети работают как «черные ящики», что ограничивает их клиническое применение, если важна обоснованность решений [22]. J. Kwon и соавт. подчеркивают, что непрозрачность алгоритмов анализа ЭКГ мешает врачам понимать, какие характеристики сигнала повлияли на результат [23], снижая доверие к ИИ и повышая риск игнорирования потенциальных ошибок.
Избыточная зависимость от гиперпараметров и данных. Эффективность моделей зависит от гиперпараметров и предобработки данных, что снижает воспроизводимость и стабильность результатов [24]. По данным S. Sanchez-Martinez и соавт., подбор параметров требует ресурсоемкого поиска, что сокращает возможности исследователей с ограниченным финансированием [11].
Сложности при работе с мультимодальными данными. Интеграция структурированных данных, изображений, сигналов и генетики связана с необходимостью специальных архитектур и больших обучающих выборок [25]. S. Amal и соавт. отмечают, что, несмотря на потенциал мультимодальных подходов, их применение затруднено техническими барьерами и нехваткой стандартизированных данных [25].
Проблема «ковариантного сдвига». Изменения входных данных со временем или при переходе между учреждениями снижают точность моделей, особенно в кардиологии, где быстро меняются технологии и популяционные характеристики [26]. Б.И. Гельцер и соавт. подчеркивают необходимость регулярной адаптации моделей и применения робастных методов, устойчивых к изменению входных данных [27].
Использование алгоритмов МО в кардиологии поднимает ряд этических вопросов и проблем клинической применимости, которые необходимо решить для успешного внедрения разрабатываемых моделей в реальную практику.
Рассмотрены вопросы этичности и справедливости (bias в обученных моделях). Как показано в исследовании D. Plana и соавт., алгоритмы МО могут воспроизводить и даже усиливать наблюдающееся в ряде случаев неравенство в здравоохранении, если обучающие данные нерепрезентативны для всех групп пациентов. В обзоре, включившем 41 рандомизированное клиническое испытание с использованием МО, авторы выявили, что только 27% исследований сообщали о расовом и этническом составе участников, при этом медиана доли недостаточно представленных групп составляла всего 21% [17].
M. Alabdaljabar и соавт. отмечают, что алгоритмы МО, обученные преимущественно на данных пациентов определенной расы, пола или возраста, могут демонстрировать сниженную производительность для других групп. Так, например, модели для оценки риска ССЗ, обученные преимущественно на данных мужчин среднего возраста, могут неточно оценивать риск у женщин или пожилых пациентов [28].
В российском контексте проблема смещения в данных связана не столько с расовыми различиями, сколько с региональными особенностями и доступностью медицинской помощи [29]. Алгоритмы, обученные на данных пациентов из крупных городов и федеральных центров, могут демонстрировать сниженную эффективность при применении в регионах с ограниченными ресурсами здравоохранения.
Использование МО в клинике порождает важный вопрос: кто отвечает за ошибки системы — разработчик, учреждение или врач? Это особенно критично в кардиологии, где в ряде случаев решения принимаются в экстренных условиях и напрямую влияют на жизнь пациента [4]. C. Chung и соавт. отмечают важность конкретных регуляторных рамок, определяющих зоны ответственности сторон [13]. Приоритет должен оставаться за концепцией «human-in-the-loop», где финальное решение принимает врач, а ИИ выполняет вспомогательную функцию.
Несмотря на высокие показатели в исследованиях, применение МО в практике затруднено из-за особенностей обучающих данных, неясной методологии и «утечки данных», когда тестовая информация попадает в обучающую выборку [30]. A. Russak и соавт. подчеркивают важность публикации кода, детального описания обработки данных и создания общедоступных датасетов как условий для воспроизводимости и объективного сравнения алгоритмов [21].
Повышение качества медицинских данных — ключевое условие успешного применения МО в кардиологии.
Использование синтетических данных является одним из решений. C. Chen и соавт. описывают применение генеративных состязательных сетей (GAN) для создания медицинских изображений, дополняющих обучающие выборки и повышающих точность сегментации структур сердца на МРТ [9]. Применяются также техники аугментации: геометрические трансформации, изменение контраста, добавление шума, что повышает устойчивость моделей к вариативности входных данных [31].
Стандартизация протоколов сбора и хранения информации играет важную роль. C. Chung и соавт. обращают внимание на необходимость унификации форматов ЭКГ и использования открытых стандартов, таких как Fast Healthcare Interoperability Resources (FHIR), для совместимости алгоритмов с различными системами [13]. Российские исследователи отмечают важность создания национальных кардиологических регистров с едиными протоколами кодирования, что обеспечит локализованную базу для разработки и валидации алгоритмов [32].
Отсутствие данных снижает эффективность моделей. Для решения этой проблемы широко применяются методы импутации, включая множественную и SVD-импутацию, которые помогают сохранить структуру данных и повысить точность прогнозов сердечно-сосудистых событий [10, 20]. Более сложные подходы включают автоэнкодеры и байесовские методы, учитывающие неопределенность при заполнении пропусков, что особенно ценно при работе с многомерными медицинскими данными [33, 34]. Параллельно необходимо совершенствовать сами алгоритмы МО с учетом специфики кардиологических задач.
Развитие интерпретируемых моделей. Для устранения проблемы «черного ящика» активно внедряются методы, повышающие прозрачность алгоритмов МО. M. Bodini и соавт., Y. Ayano и соавт. описывают использование методов LIME (Local Interpretable Model-agnostic Explanations) и SHAP (SHapley Additive exPlanations) для объяснения решений нейросетей при анализе ЭКГ [35, 36]. Эти подходы позволяют визуализировать, какие участки сигнала оказали наибольшее влияние на результат, что делает модель более понятной и приемлемой для клинического применения. Подобные решения повышают доверие врачей и способствуют интеграции МО в практику. В работе K. Iscra и соавт. демонстрируется использование интерпретируемых алгоритмов — деревьев решений и ансамблевых методов — в дифференциальной диагностике между ишемической болезнью сердца и дилатационной кардиомиопатией с возможностью выделения ключевых клинических и ЭхоКГ-признаков [37].
Обучение на смешанных популяциях. Для повышения обобщающей способности моделей важно учитывать разнообразие популяций. Включение в обучающую выборку пациентов разных этнических групп, возрастов и с различными клиническими особенностями позволяет повысить устойчивость моделей при применении к новым группам [28]. Эффективны также методы переноса обучения и доменной адаптации, позволяющие настраивать модели под новые условия с минимальными затратами [10].
Методы самокалибровки моделей. Адаптация моделей к изменениям входных данных важна для поддержания точности в динамично меняющихся клинических условиях. Решением являются методы онлайн-обучения, при которых модель обновляется при поступлении данных, и активного обучения, при котором алгоритм выбирает наиболее информативные примеры для аннотирования.
Федеративное обучение. В своей работе В.П. Мудров и соавт. указывают на перспективность методов федеративного обучения (federated learning), при котором модель обучается на распределенных данных из разных медицинских учреждений, не передавая их на центральный сервер [38]. Это позволяет сохранить конфиденциальность, соответствовать требованиям информационной безопасности и одновременно использовать разнообразные источники данных, что особенно актуально в здравоохранении.
Даже наиболее совершенные алгоритмы МО не принесут практической пользы без их эффективной интеграции в клинические процессы. Для решения этой задачи в литературе предлагается ряд подходов.
Разработка удобных интерфейсов для врачей. I. Frederix и соавт. в позиционном документе Европейского общества кардиологии подчеркивают важность создания интуитивно понятных интерфейсов для взаимодействия врачей с системами ИИ. Интерфейсы должны органично вписываться в существующие рабочие процессы, минимизировать затраты времени на ввод данных и представлять результаты в форме, привычной для клиницистов [39].
Просветительская работа среди врачей. Внедрение МО в кардиологическую практику тесно связано с необходимостью систематического обучения медицинского персонала. Это включает как базовое понимание принципов работы алгоритмов, так и специализированные тренинги по использованию конкретных систем поддержки принятия решений [7]. Рекомендуется интеграция тем цифрового здравоохранения и ИИ в программы подготовки врачей-кардиологов, а также создание курсов повышения квалификации и образовательных ресурсов для практикующих специалистов [39].
Разработка нормативной базы. C. Chung и соавт. отмечают необходимость более четкой регламентации использования ИИ в клинике, включая сертификацию, мониторинг безопасности и распределение ответственности [13]. В России, по данным Л.Р. Кашапова и соавт., требуется ускорение внедрения нормативного регулирования ИИ в медицине [40]. Особенно актуальна гармонизация национальных требований с международными стандартами, такими как рекомендации Международного форума регуляторов медицинских устройств (IMDRF) по программному обеспечению как медицинскому изделию (SaMD).
Клинические испытания алгоритмов. D. Plana и соавт. отмечают важность проведения рандомизированных исследований с соблюдением стандартов CONSORT-AI и SPIRIT-AI для оценки реальной эффективности МО [17]. В российских условиях сохраняется дефицит валидированных алгоритмов, что означает необходимость проведения многоцентровых исследований в учреждениях разных уровней, включая региональные больницы, для обеспечения репрезентативности и оценки безопасности [7].
1. Внедрение методов машинного обучения в клиническую кардиологию сопряжено с различными по характеру ограничениями — методологическими, интерпретируемыми, этико-правовыми и инфраструктурными, которые необходимо анализировать в комплексе.
2. Ограниченная интерпретируемость алгоритмов снижает готовность врачей полагаться на выводы моделей, однако применение технологии Explainable AI (SHAP, LIME) может рассматриваться в качестве ключа к повышению прозрачности и принятию решений.
3. Отсутствие единых методов отбора данных, валидации и контроля переобучения приводит к низкой воспроизводимости результатов и служит основанием для выработки отраслевых протоколов.
4. Недостаточное регулирование вопросов защиты персональных данных и ответственности за ошибки алгоритмов формирует правовые риски, которые необходимо решать через приведение практик в соответствие с Федеральным законом от 27.07.2006 №152 «О персональных данных», рекомендациями IMDRF, стандартами CONSORT-AI и SPIRIT-AI.
5. Дисперсия форматов данных ЭКГ, ЭхоКГ, КТ, дефицит аннотированных регистров и ограниченный доступ к крупным базам данных также представляются существенными барьерами, преодолеваемыми стандартизацией (FHIR) и созданием централизованных реестров.
6. Комплексный анализ зарубежных кейсов и отечественных условий позволит сформулировать конкретные рекомендации по успешному внедрению методов МО в кардиологическую практику нашей страны.
Алгоритмы машинного обучения демонстрируют значительный потенциал для трансформации кардиологической практики, предлагая новые возможности для прогнозирования, диагностики и персонализации лечения сердечно-сосудистых заболеваний. Однако, как показал проведенный анализ, на пути широкого внедрения этих технологий в клиническую практику есть ряд существенных проблем. Качество и доступность медицинских данных, методологические ограничения алгоритмов, вопросы этики и регулирования, а также трудности интеграции в сложившиеся клинические процессы — все эти проблемы необходимо решать с применением системного подхода.
Машинное обучение в кардиологии находится на пороге перехода от экспериментальных исследований к широкому клиническому применению. Успешность этого перехода будет определяться не только технологическими достижениями, но и способностью профессионального сообщества адаптировать эти инновации к существующим клиническим реалиям, обеспечив безопасность, эффективность и доступность для всех нуждающихся в них пациентов.
Вклад авторов: концепция и дизайн исследования — Чащин М.Г.; сбор и обработка материала — Юрин А.В., Стрелкова А.В.; написание текста — Чащин М.Г.; научное редактирование — Горшков А.Ю., Драпкина О.М.
Финансирование: исследование выполнено в рамках государственного задания «Разработка метода бесконтактного определения уровня артериального давления по данным видеоплетизмографии веб камерой кожи лица», рег. №124013100904-7.
Авторы заявляют об отсутствии конфликта интересов.
Authors contribution: study design and concept — Chashchin M.G.; data collection and processing — Yurin A.V., Strelkova A.V.; text writing — Chashchin M.G.; scientific editing — Gorshkov A.Yu., Drapkina O.M.
Financial Support: the study was conducted as part of the State Assignment "Development of a Method for Non-contact Measuring of Blood Pressure Using the Video Plethysmography of the Facial Skin with a Web Camera", reg. No. 124013100904-7.
1Федеральный закон от 27.07.2006 №152 «О персональных данных». Ссылка активна на 29.07.2025. https://normativ.kontur.ru/document?moduleId=1&documentId=500403
2Федеральный закон от 21.11.2011 №323 «Об охране здоровья граждан». Ссылка активна на 29.07.2025. https://normativ.kontur.ru/document?moduleId=1&documentId=490072
Литература / References:
Подтверждение e-mail
На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.
Подтверждение e-mail
Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.