Введение
В последние десятилетия в области интенсивной терапии наблюдаются значительные изменения, связанные с внедрением концепции цифровой реанимации и автоматизированных систем мониторинга [1]. Интеграция аппаратов искусственной вентиляции легких (ИВЛ), мониторов, инфузоматов и другого оборудования в медицинские информационные системы привела к формированию непрерывных потоков данных, отражающих методы лечения и динамику показателей пациентов. Эта информация не только необходима для ежедневной клинической практики, но и создает основу для разработки систем поддержки принятия клинических решений (СППКР), основанных в том числе на использовании методов искусственного интеллекта (ИИ). Несмотря на важность СППКР в практической медицине, данные системы приобретают особую актуальность в отделениях реанимации и интенсивной терапии (ОРИТ), где непрерывный контроль жизненно важных показателей играет ключевую роль для своевременной диагностики и лечения пациентов.
С конца 90-х годов XX века началось формирование первых открытых баз данных (БД) пациентов реанимационного профиля, что стало возможным благодаря национальным и международным инициативам. Одним из первых проектов стала база данных Medical Information Mart for Intensive Care (MIMIC), созданная в 1996 г. Массачусетским технологическим институтом (MIT) в сотрудничестве с Beth Israel Deaconess Medical Center (США), включавшая всего 90 пациентов [2]. Современная версия этой базы, MIMIC-IV, представленная в 2023 г., охватывает данные уже более 60 000 госпитализаций в ОРИТ за период с 2008 по 2019 г. [3]. Успех проекта MIMIC послужил катализатором для создания других открытых БД, таких как многоцентровая eICU-CRD (США) в 2018 г. [4], HiRID (Швейцария) в 2020 г. [5] и AmsterdamUMCdb (Нидерланды) в 2021 г. [6]. Эти открытые БД предоставляют исследователям доступ к детализированной информации о пациентах, их лечении, мониторируемых витальных параметрах, лабораторных показателях и клинических исходах.
Научное сообщество быстро осознало потенциал открытых БД пациентов, получавших помощь в ОРИТ. До 2024 г. опубликовано более 2200 описаний исследований, основанных на данных базы PubMed, в том числе в ведущих журналах Critical Care [7], Nature [8], Lancet [9], JAMA [10], BMC Anesthesiology [11] и др. Эти работы охватывают широкий спектр задач: от построения прогностических моделей до анализа эффективности разных методов лечения. Тем не менее, несмотря на активное развитие открытых БД, их применение в российской науке остается крайне ограниченным. Лишь несколько работ российских авторов опубликованы в международных журналах [12, 13], а в отечественной медицинской науке открытые БД практически не используются, за редким исключением [14]. Данный факт подчеркивает необходимость повышения осведомленности о возможностях применения открытых БД в исследовательской практике.
В систематическом обзоре, опубликованном в 2022 г., представлен первый обобщенный анализ открытых БД пациентов реанимационного профиля [15]. Однако в этой работе не рассмотрены такие ключевые показатели, как частота дыхания, температура тела, уровни лейкоцитов, тромбоцитов и некоторые другие параметры [15]. Кроме того, в обзор не включены представленные в 2024 г. наборы данных RICD (Россия) [16] и SICdb (Австрия) [17].
Цель исследования — выполнить систематический обзор открытых баз данных пациентов реанимационного профиля, включая идентификацию доступных баз данных в области интенсивной терапии, сравнительный анализ их характеристик, в том числе ключевых особенностей, преимуществ и недостатков, и формирование практических рекомендаций по их использованию.
Материал и методы
Исследование проведено в соответствии с рекомендациями для систематических обзоров и метаанализов (Preferred Reporting Items for Systematic Reviews and Meta-Analyses — PRISMA) [18] и руководствами Кокрановского сообщества [19]. Протокол систематического обзора проспективно зарегистрирован на Международной платформе для регистрации протоколов систематических обзоров и метаанализов (INPLASY) под регистрационным номером (ID) 2024120049 (https://doi.org/10.37766/inplasy2024.12.0049).
Стратегия поиска
Для идентификации релевантных публикаций, описывающих открытые БД пациентов реанимационного профиля, проведен систематический поиск, который охватывал статьи до 1 декабря 2024 г. Поиск осуществляли два независимых исследователя с использованием базы данных PubMed и платформы Google Scholar.
Для обеспечения максимального охвата дополнительно применяли семантический анализ на основе ИИ и методы прямого и обратного «снежного кома» (snowballing) с использованием веб-приложения Litmaps по трем направлениям: 1) наиболее часто цитируемые источники и ссылки; 2) общие авторские шаблоны; 3) схожесть содержания аннотаций и заголовков [20]. Ограничений по языку публикации не было. Применена стратегия поиска в PubMed, аналогичная той, которую использовали C.M. Sauer и соавт. (2022) [15].
Критерии соответствия и отбор исследований
После исключения дублирующих записей два исследователя независимо проводили скрининг оставшихся публикаций на предмет соответствия цели исследования, ориентируясь на их названия и аннотации. Для включения публикации должны были удовлетворять всем следующим условиям: 1) представлены БД реанимационных пациентов, к которым может быть получен доступ (открытые); 2) в БД представлены преимущественно пациенты в возрасте 18 лет и старше; 3) в БД доступны данные о витальных параметрах, мониторируемых в ОРИТ.
Окончательное решение о включении публикации принималось на основании полнотекстового анализа и изучения БД. Доступ к БД запрошен авторами, и все необходимые юридические и этические согласования получены для доступа к БД MIMIC IV v. 3.1, eICU-CRD v. 2.0, HiRID v. 1.1.1, и RICD v. 1.0 (номера сертификатов PhysioNet 56653575, 56653561, действительны до 21 июня 2026 г.). Исключены исследования, представляющие БД пациентов только педиатрического профиля.
Извлечение данных и анализ
Для анализа извлечены следующие данные: год публикации, количество центров, период охвата, количество пациентов и случаев госпитализации, возраст, пол, длительность пребывания в ОРИТ, летальность, категории пациентов, оценка тяжести состояния при поступлении, в том числе с использованием прогностических шкал, частота использования вазопрессоров, инотропов, ИВЛ и заместительной почечной терапии, а также доступность данных анамнеза и других параметров.
Дополнительно оценивались частота мониторинга данных жидкостного баланса и медикаментозной терапии, а также частота регистрации ряда витальных и лабораторных показателей. Для этого рассчитывали: 1) среднее количество (M) оценок в час или в сутки (общее количество записей по параметру, деленное на продолжительность пребывания в ОРИТ в часах/сутках) с указанием стандартного отклонения (SD); 2) среднее количество оценок на пациента (общее количество записей по параметру, деленное на общее количество пациентов в базе данных) за весь период госпитализации.
Характеристики БД при их наличии извлекались с официальных веб-сайтов наборов данных или из сопровождающих публикаций. При отсутствии таких данных информацию извлекали непосредственно из самих БД. Для SICdb и AmsterdamUMCdb анализ проводили исключительно на основе открытых доступных данных об этих БД, так как доступ к самим данным предоставлен не был.
Данные из БД извлекались с использованием инструментов DB Browser for SQLite (версия 3.13.0) и DBeaver (версия 21.1.3). Графики построены с использованием библиотек Python (версия 3.10.0) matplotlib (версия 3.5.1), seaborn (версия 0.11.2) и pandas (версия 1.3.3).
Результаты
При первоначальном поиске выявлено 210 публикаций, описывающих открытые БД пациентов реанимационного профиля. После удаления дублирующихся записей и первичного скрининга по заголовкам и аннотациям отобрано 7 статей для полнотекстового анализа. В процессе детального изучения полнотекстовых статей исключена одна работа из БД PIC [21], содержащая информацию о пациентах исключительно педиатрического профиля.
В итоге в систематический обзор вошло 6 исследований, представляющих 6 открытых БД пациентов реанимационного профиля: MIMIC-IV [3], eICU-CRD [4], HiRID [5], SICdb [17], AmsterdamUMCdb [6] и RICD [16]. Блок-схема, иллюстрирующая процесс отбора статей, представлена на рис. 1.
Рис. 1. Блок-схема отбора исследований.
Характеристика открытых баз данных пациентов реанимационного профиля
Из 6 включенных БД 2 разработаны в США (MIMIC-IV и eICU-CRD), 3 — в странах Европейского союза (HiRID, SICdb, AmsterdamUMCdb) и 1 создана в Российской Федерации (RICD). Общее число пациентов варьирует от 5115 (RICD) до 139 367 (eICU-CRD), а наибольшая суммарная продолжительность мониторинга (количество пациенто-дней) отмечена в eICU-CRD (538 153 сут), MIMIC-IV (252 616 сут) и RICD (202 660 сут).
Структура представленных когорт также существенно различается. В базе данных eICU-CRD доминируют пациенты терапевтического профиля (72,5%), тогда как HiRID, SICdb и AmsterdamUMCdb ориентированы в основном на пациентов хирургического профиля. В RICD представлена уникальная когорта пациентов, находящихся преимущественно в продленном и хроническом критическом состоянии [12].
Летальность в ОРИТ варьирует от 5,2% (SICdb) до 9,9% (AmsterdamUMCdb). Длительность госпитализации в ОРИТ максимальная в RICD (медиана 32 дня) и минимальная в HiRID (медиана 1 день). Уровень тяжести состояния пациентов при поступлении также существенно различается: наибольшее количество баллов (медиана) по шкале APACHE отмечено в eICU-CRD, а максимальная оценка по шкале SOFA в баллах (медиана) и частота использования ИВЛ — в AmsterdamUMCdb. Все ключевые характеристики открытых БД пациентов реанимационного профиля систематизированы и представлены в табл. 1.
Таблица 1. Сравнение ключевых характеристик открытых наборов данных реанимационных пациентов
Характеристика | MIMIC-IV v. 3.1 [3] | eICU-CRD v 2.0 [4] | HiRID v. 1.1.1 [5] | SICdb v. 1.0.8 [17] | AmsterdamUMCdb v. 1.0.2 [6] | RICD v. 1.0 [16] |
Год публикации статьи | 2023 | 2018 | 2020 | 2024 | 2021 | 2024 |
Журнал | Nature Sci Data | Nature Sci Data | Nature Med | Nature Sci Data | Crit Care Med | Общая реаниматология |
Страна | США | США | Швейцария | Австрия | Нидерланды | Россия |
Количество центров | 1 | 208 | 1 | 1 | 1 | 1 |
Период охвата | 2008—2019 | 2014—2015 | 2005—2016 | 2013—2021 | 2003—2016 | 2017—2023 |
Общее количество пациентов | 180 733 | 139 367 | 33 905 | 21 583 | 20 109 | 5115 |
Количество пациентов ОРИТ | 50 920 | 139 367 | 33 905 | 21 583 | 20 109 | 2562 |
Госпитализации ОРИТ/число пациентов | 1,39 | 1,21 | 1 | 1,27 | 1 | 1,28 |
Возраст пациентов, годы, Me (IQR) | 64 (51—70) | 65 (53—76) | 65 (55—75) | 66 (55—75) | 64 (54—74) | 61 (48—70) |
Пол пациентов, мужской, % | 56,1 | 54,0 | 64,2 | 62,0 | 63,6 | 56,6 |
Категории пациентов, % | Хир: 27,9 Терап: 50,0 | Хир: 15,3 Терап: 72,5 | Хир: 54,1 Терап: 45,9 | В основном хир профиль | Хир: 48,9 Терап: 25,2 | В основном продленное и хроническое КС |
Использование вазопрессоров/инотропов, % | 31,0 | 12,0 | 39,4 | 81,9 | 69,0 | 13,7 |
Использование ИВЛ, % | 33,8 | 21,0 | 57,2 | 26,1 | 83,0 | 32,0 |
Использование ЗПТ, % | 5,9 | 4,0 | 5,4 | НД | 5,6 | НД |
Летальность в ОРИТ, % | 8,6 | 5,5 | 6,1 | 5,2 | 9,9 | 7,9 |
Госпитальная летальность, % | 14,8 | 9,0 | НД | 9,9 | 13,3 | 7,9 |
Длительность госпитализации в ОРИТ, сут, Me (IQR) | 2,0 (1,1—3,9) | 1,6 (0,8—3,0) | 1,0 (0,8—2,2) | 1,5 (1,0—3,3) | 1,0 (0,8—3,1) | 32,0 (22,0—50,0) |
Длительность мониторинга, пациенто-дни | 252 616 | 538 153 | 45 195 | 41 655 | 32 777 | 202 660 |
Оценка тяжести состояния пациентов | APACHE III, SOFA | APACHE IV, APACHE IVa | APACHE II | SAPS III | APACHE II, SOFA | SOFA, FOUR, SAPS II |
по шкале APACHE при поступлении, Me (IQR) | 41 (30—57) | 51 (37—68) | 16 (12—22) | НД | 17 (13—22) | НД |
по шкале SOFA при поступлении, Me (IQR) | 2 (1—5) | НД | НД | НД | 7 (4—9) | 3 (2—5) |
Данные анамнеза пациентов |
|
|
|
|
|
|
Используемое издание МКБ | 9, 10 | 9, 10 |
| 10 |
| 10 |
Данные по медикаментозным назначениям |
|
|
|
|
|
|
Данные о режимах ИВЛ/респираторных параметрах |
|
|
|
|
|
|
Данные о посевах/оценке АБ-резистентности |
|
|
|
|
|
|
Данные о медицинских изображениях |
|
|
|
|
|
|
Текстовые документы |
|
|
|
|
|
|
Таблица 1. Сравнение ключевых характеристик открытых наборов данных реанимационных пациентов (Окончание) | ||||||
Характеристика | MIMIC-IV v. 3.1 [3] | eICU-CRD v 2.0 [4] | HiRID v. 1.1.1 [5] | SICdb v. 1.0.8 [17] | AmsterdamUMCdb v. 1.0.2 [6] | RICD v. 1.0 [16] |
Требования для доступа | PhysioNet: сертификаты DSOR, COI | PhysioNet: сертификаты DSOR, COI | PhysioNet: сертификаты DSOR, COI. Дополнительный запрос с обоснованием | PhysioNet: сертификаты DSOR, COI. Дополнительный запрос с обоснованием | Сертификаты DSOR, COI или BROK (платный). Дополнительный запрос с обоснованием | Запрос с обоснованием (https://fnkcrr-database.ru) Лицензионный договор или участие в проекте* |
Примечание. * — можно принять участие в проекте для получения доступа к данным; МКБ — международная классификация болезней; ОРИТ — отделение реанимации и интенсивной терапии; НД — нет данных; RICD — Russian Intensive Care Dataset; КС — критическое состояние; АБ-резистентность — антибиотикорезистентность; ИВЛ — искусственная вентиляция легких; ЗПТ — заместительная почечная терапия; Хир — пациенты хирургического профиля; Терап — пациенты терапевтического профиля; APACHE — Acute Physiology and Chronic Health Evaluation; AmsterdamUMCdb — Amsterdam University Medical Center Database; BROK — Basic course on Regulations and Organization of Clinical Trials; COI — Conflict of Interest; DSOR — Data or Specimens Only Research; eICU-CRD — eICU Collaborative Research Database; FOUR — Full Outline of UnResponsiveness score; HiRID — High-Resolution Intensive Care Dataset; IQR — межквартильный размах; MIMIC-IV — Medical Information Mart for Intensive Care version IV; Me — медиана; SAPS — Simplified Acute Physiology Score; SICdb — Salzburg Intensive Care Database; SOFA — Sequential Organ Failure Assessment.
Сравнительный анализ открытых баз данных пациентов реанимационного профиля
Данные анамнеза представлены в MIMIC-IV, eICU-CRD, SICdb и RICD, тогда как HiRID и AmsterdamUMCdb эту информацию не предоставляют. Все исследуемые БД включают информацию о медикаментозных назначениях и режимах ИВЛ. Данные о посевах и антимикробной резистентности приведены в MIMIC-IV, eICU-CRD и RICD; о медицинских изображениях — только в MIMIC-IV. Текстовые документы доступны в MIMIC-IV и eICU-CRD (см. табл. 1).
Наибольшая интенсивность регистрации витальных параметров отмечена в SICdb и HiRID, где этот показатель превышает 30 оценок в час (табл. 2). Частота регистрации витальных показателей в RICD при пересчете на час сопоставима с MIMIC-IV, однако при пересчете на пациента превышает показатели MIMIC-IV (рис. 2).
Таблица 2. Интенсивность оценки основных показателей в открытых базах данных пациентов реанимационного профиля
Характеристика | MIMIC-IV v. 3.1 [3] | eICU-CRD v 2.0 [4] | HiRID v. 1.1.1 [5] | SICdb v. 1.0.8* [17] | Amsterdam UMCdb v. 1.0.2 [6] | RICD v. 1.0 [16] | ||
Медикаментозная терапия | в час: на пациента: | 0,9 (0,6) 107 | 0,8 (1,1) 74 | 6,6 (5,3) 211 | НД | 1,8 (4,5) 70 | 0,4 (0,3) 212 | |
Данные жидкостного баланса | в час: на пациента: | 1,2 (0,5) 143 | 0,7 (0,8) 65 | 1,3 (0,9) 42 | НД | 7,0 (12,6) 273 | 0,1 (0,2) 75 | |
Витальные показатели, количество оценок, Mean (SD) в час; кколичество на пациента | ЧСС | в час: на пациента: | 1,1 (0,4) 131 | 11,9 (2,7) 1102 | 31,7 (10,2) 1014 | 56,8 (52,9) 5802 | 17,0 (29,8) 665 | 2,4 (2,1) 2083 |
ЧД | в час: на пациента: | 1,1 (0,3) 131 | 9,9 (1,8) 922 | 31,7 (10,2) 1014 | 43,1 (26,7) 4593 | 15,2 (25,5) 595 | 0,9 (1,5) 378 | |
SpO2 | в час: на пациента: | 1,1 (0,3) 131 | 1,1 (0,8) 102 | 30,2 (9,9) 966 | 52,3 (29,3) 5251 | 16,0 (28,5) 626 | 1,8 (1,9) 1567 | |
САД | в час: на пациента: | 1,0 (0,3) 119 | 4,3 (4,2) 398 | 29,7 (10,2) 950 | 46,2 (25,5) 4924 | 14,3 (24,9) 559 | 0,6 (0,6) 465 | |
ДАД | в час: на пациента: | 1,0 (0,3) 119 | 4,3 (4,2) 398 | 29,7 (10,2) 950 | 46,2 (25,5) 4923 | 14,3 (24,9) 559 | 0,6 (0,6) 465 | |
Температура | в час: на пациента: | 0,3 (0,1) 29,7 | 1,0 (0,8) 95 | 30,8 (9,8) 982 | 43,1 (0,1) 4955 | 0,1 (0,1) 3,9 | 0,8 (1,1) 532 | |
Лабораторные показатели, количество оценок, Mean (SD) в день; количество на пациента | WBC | в сутки: на пациента: | 1,4 (1,3) 6,9 | 1,5 (1,4) 5,8 | 7,2 (5,2) 9,6 | 4,1 (1,3) 8,0 | 1,1 (0,5) 1,8 | 0,2 (0,2) 6,7 |
Hb | в сутки: на пациента: | 1,4 (1,3) 6,9 | 1,6 (1,4) 6,2 | 7,2 (5,2) 9,6 | 4,1 (1,7) 8,0 | 1,5 (0,9) 2,4 | 0,2 (0,2) 6,7 | |
Тромбоциты | в сутки: на пациента: | 0,5 (0,3) 2,5 | 1,5 (1,4) 5,8 | 7,2 (5,2) 9,6 | 4,1 (1,4) 8,0 | 4,2 (2,7) 6,8 | 0,2 (0,2) 6,7 | |
Креатинин | в сутки: на пациента: | 1,8 (0,9) 8,9 | 1,5 (1,2) 5,8 | 2,8 (2,0) 3,7 | 4,0 (1,3) 7,7 | 1,1 (0,5) 1,8 | 0,2 (0,2) 6,2 | |
СРБ | в сутки: на пациента: | 1,4 (1,3) 6,9 | 0,5 (1,0) 1,9 | 2,7 (1,8) 3,6 | 4,0 (1,2) 7,6 | 0,3 (0,4) 0,5 | 0,2 (0,2) 6,9 | |
Кальций | в сутки: на пациента: | 1,1 (1,0) 5,5 | 1,6 (1,5) 6,2 | 5,1 (3,4) 6,8 | 3,9 (4,7) 7,5 | 4,2 (2,7) 6,8 | 0,2 (0,2) 6,0 | |
Натрий | в сутки: на пациента: | 1,2 (1,0) 6,0 | 1,6 (1,5) 6,2 | 5,1 (3,4) 6,8 | 3,7 (4,7) 7,2 | 4,2 (2,7) 6,8 | 0,2 (0,2) 6,4 | |
Лактат | в сутки: на пациента: | 1,5 (1,5) 7,4 | 1,2 (1,7) 4,6 | 5,2 (3,4) 6,9 | НД | 4,2 (2,7) 6,8 | 0,1 (0,2) 3,2 | |
АлАТ | в сутки: на пациента: | 0,9 (0,7) 4,5 | 0,9 (1,0) 3,5 | 2,5 (2,2) 3,3 | НД | 0,4 (0,5) 0,7 | 0,2 (0,2) 6,1 |
Примечание. * — исключены случаи повторной госпитализации; ЧСС — частота сердечных сокращений; ЧД — частота дыхания; SpO2 — сатурация; САД — систолическое артериальное давление; ДАД — диастолическое артериальное давление; НД — нет данных; WBC — количество лейкоцитов; Hb — уровень гемоглобина; СРБ — концентрация C-реактивного белка; АлАТ — активность аланинаминотрансферазы; SD — стандартное отклонение.
Рис. 2. Интенсивность регистрации витальных показателей в открытых базах данных пациентов реанимационного профиля (в пересчете на пациента).
ЧСС — частота сердечных сокращений; ЧД — частота дыхания; SpO₂ — сатурация в периферической крови; САД — систолическое артериальное давление; ДАД — диастолическое артериальное давление.
Частота оценки лабораторных показателей в пересчете на пациента в целом сопоставима во всех рассматриваемых БД (рис. 3).
Рис. 3. Интенсивность регистрации лабораторных показателей в открытых базах данных пациентов реанимационного профиля (в пересчете на пациента).
WBC — количество лейкоцитов; Hb — уровень гемоглобина; СРБ — концентрация C-реактивного белка; АлАТ — активность аланинаминотрансферазы.
Основные преимущества и недостатки открытых БД обобщены в табл. 3.
Таблица 3. Преимущества, недостатки и особенности открытых баз данных пациентов реанимационного профиля
База данных | Преимущества и особенности | Недостатки |
MIMIC-IV v. 3.1 [3] | Наиболее известная открытая БД пациентов реанимационного профиля; большой репозиторий кодов на GitHub; наличие данных медицинской визуализации; доступность текстовых документов; наличие данных об оценке АБ-резистентности и посевов | Одноцентровая БД; относительно низкая плотность мониторинга витальных показателей; недостаточная стандартизация справочников; записи охватывают период до 2019 г., что ограничивает актуальность |
eICU-CRD v. 2.0 [4] | Крупнейшая на 2024 г. открытая БД пациентов реанимационного профиля; многоцентровая БД; доступность текстовых документов; наличие данных об оценке АБ-резистентности и посевов | Качество данных варьирует в зависимости от центра; записи охватывают период до 2015 г., что ограничивает актуальность |
HiRID v. 1.1.1 [5] | Высокая частота измерения лабораторных и витальных показателей | Одноцентровая БД; отсутствуют данные анамнеза пациентов; не используется МКБ; высокая требовательность к пользователю, обусловленная сложностью обработки данных с высоким временным разрешением; записи охватывают период до 2016 г., что ограничивает актуальность |
SICdb v. 1.0.8 [17] | Преимущественно пациенты хирургического профиля; наивысшая частота измерения витальных показателей | Одноцентровая БД; отсутствуют данные об оценке по клиническим шкалам (кроме SAPS); длительное предоставление доступа |
Amsterdam UMCdb v. 1.0.2 [6] | Первая в Европейском союзе открытая БД пациентов реанимационного профиля | Одноцентровая БД; не полностью переведена на английский язык; отсутствуют данные анамнеза пациентов; не используется МКБ; длительное предоставление доступа; записи охватывают период до 2016 г., что ограничивает актуальность |
RICD v. 1.0 [16] | Первая в Российской Федерации открытая БД пациентов реанимационного профиля; наибольшая продолжительность мониторинга; значительная доля пациентов в продленном и хроническом критическом состоянии; наличие данных об оценке АБ-резистентности и посевов | Одноцентровая БД; относительно низкая плотность мониторинга витальных показателей; относительно малое количество пациентов |
Примечание. БД — база данных; SAPS — Simplified Acute Physiology Score; МКБ — Международная классификация болезней; АБ-резистентность — антибиотикорезистентность.
Практические рекомендации по работе с открытыми базами данных пациентов реанимационного профиля
Направления использования
Проведение собственных проспективных исследований, в особенности рандомизированных контролируемых испытаний, представляет собой сложную задачу, для решения которой необходимо привлечение значительных ресурсов. Это особенно актуально в условиях ограниченного финансирования и дефицита кадровых ресурсов, что делает реализацию таких проектов зачастую невозможной для многих исследовательских групп. В этих условиях открытые БД реанимационных пациентов предоставляют уникальную возможность для проверки гипотез на обширных выборках данных, собранных в условиях реальной клинической практики.
Направления, реализуемые в настоящее время:
— разработка прогностических моделей (в том числе с использованием методов ИИ [22]) и изучение факторов риска (летальный исход [23], делирий [24], сепсис [25], инсульт [26], острое почечное повреждение [27] и прочее);
— исследования с историческим контролем (как правило, с использованием метода псевдорандомизации — PSM [28]), в этом случае основная группа может быть набрана в рамках собственного исследования или из открытой БД, а группа контроля — из открытой БД; метод PSM позволяет добиться сопоставимости групп по основным характеристикам;
— отдельные ретроспективные когортные исследования (например, влияние метода анестезии [29] или проводимой терапии [30] на исходы лечения);
— изучение текстовых документов (NLP) [31];
— эпидемиологические исследования [32].
Таким образом, исследование, в том числе диссертационное, в области анестезиологии и интенсивной терапии может быть выполнено исключительно или преимущественно с использованием данных из открытых БД.
Получение доступа
Большинство рассматриваемых БД размещены на платформе PhysioNet [33], для доступа к которой необходимо прохождение установленной процедуры регистрации, успешное завершение бесплатных обучающих курсов и получение соответствующих сертификатов DSOR (Data or Specimens Only Research) и COI (Conflict of Interest). Эти требования относятся, в частности, к MIMIC-IV и eICU-CRD, причем получение доступа к ним обычно осуществляется в течение нескольких дней. Для всех открытых БД необходимо четко указать исследовательскую тематику и принять условия использования данных.
Для HiRID и SICdb помимо стандартных требований PhysioNet, требуется подача дополнительного запроса с обоснованием, который подвергается отдельному рассмотрению командой разработчиков. Для доступа к AmsterdamUMCdb кроме DSOR и COI может понадобиться сертификат BROK (платный), а также дополнительное обоснование и указание поручителя — специалиста в области интенсивной терапии. При этом сроки рассмотрения заявок для AmsterdamUMCdb и SICdb могут быть длительными; в ходе данного исследования доступ к этим БД получить не удалось даже спустя 3 мес с момента подачи запроса.
Для RICD доступ предоставляется при наличии запроса с детальным обоснованием и последующим заключением лицензионного договора или путем участия исследовательского центра в проекте, в рамках которого предполагается обмен данными. Проект RICD реализован без привлечения внешнего финансирования, и авторы RICD декларируют открытость к присоединению других центров для совместной работы, объединения и дальнейшего использования накопленных данных пациентов реанимационного профиля. Для всех открытых БД обязательным условием является цитирование публикаций, в которых представлялись соответствующие БД, и указание сертификатов доступа к ним.
Выбор базы данных: что необходимо учесть
Выбор подходящей БД для решения конкретных исследовательских задач определяется основной научной гипотезой и целями исследования. Авторы подчеркивают, что при выборе БД следует тщательно рассмотреть значительные различия в размерах когорт, тяжести состояния пациентов и интенсивности мониторинга. В связи с многоцентровым характером и удобством работы с данными БД eICU-CRD, по мнению авторов, является вариантом выбора для большинства исследований. Важно, что HiRID и AmsterdamUMCdb, несмотря на высокую частоту измерений, не предоставляют информацию об анамнезе пациентов, что делает невозможным анализ сопутствующей патологии и факторов риска. Кроме того, необходимо учитывать объем предоставляемых данных (например, в результате применения специфического алгоритма анонимизации в MIMIC-IV нет информации о том, в каком году поступил пациент, что может ограничивать временной анализ).
Следует отметить, что все рассматриваемые БД основаны на ретроспективном сборе данных и это может влиять на репрезентативность выборок и надежность результатов. Во всех открытых БД некоторые данные пропущены и регистрируются только рутинно собираемые лабораторные параметры. Кроме того, невозможно оценить исходы после выписки пациентов. Отмечена проблема со стандартизацией справочников в MIMIC-IV. Например, показатель натрия (Sodium) в крови имеет несколько уникальных кодов (itemid 50983, 52623), а обозначения эпинефрина с точкой (Epinephrine.) и без точки (Epinephrine), согласно справочнику, относятся к различным назначениям. Кроме того, встречаются некорректные показатели [34], такие как отрицательная длительность госпитализации или значения FiO2 в eICU-CRD, равные 0 или 9900, что явно указывает на ошибки при вводе или обработке данных. Эти ограничения подлежат тщательному учету и корректировке при анализе данных. Открытые репозитории кодов на GitHub также могут содержать ошибки. Например, в статье W. Van den Boom и соавт. [35] использован открытый доступный код для оценки SOFA, в котором обнаружена ошибка: показатели PaO2 и другие параметры собраны из разных временных периодов (включая значения за 24 ч до поступления в ОРИТ, в том числе интраоперационные данные пациентов хирургического профиля, а также данные до 24 ч после госпитализации в ОРИТ), тогда как все параметры должны быть собраны исключительно в период пребывания пациента в ОРИТ. Кроме того, при оценке соотношения PaO2/FiO2 ошибочно выбраны минимальный показатель PaO2 и максимальный показатель FiO2, в то время как правильным вариантом был бы поиск минимального соотношения PaO2/FiO2. Такие ошибки подчеркивают необходимость проверки и верификации используемых алгоритмов и кода для обеспечения достоверности получаемых результатов, что является возможным только при участии клинических специалистов.
Авторы также рекомендуют по возможности использовать более одной БД для увеличения мощности и внешней валидности исследования, учитывая различия в популяциях пациентов и клинических протоколах.
Работа с данными
Для работы с открытыми БД необходимо использовать специализированные инструменты ввиду большого объема данных и сложности их организации. Например, база данных MIMIC-IV после разархивирования занимает более 75,6 Гб и содержит значительное количество таблиц, объединенных ключевыми полями, а таблица labevents включает более 300 млн записей. Для эффективного управления такими объемами данных применяются системы управления БД (СУБД) PostgreSQL, SQLite, приложения для работы с БД, например DBeaver, а также программные среды для анализа данных, включая Python и BI-системы. Кроме того, необходим высокопроизводительный компьютер с достаточными вычислительными ресурсами для обработки и анализа данных.
Помимо технических инструментов для работы с открытыми БД пациентов необходимы специальные навыки в области обработки данных и программирования. Важно также участие клинических специалистов, поскольку их знания нужны для правильной интерпретации данных и предотвращения ошибок, связанных с клиническими аспектами исследований. Только совместная работа специалистов по работе с данными и клиницистов позволяет избежать ошибок в интерпретации данных и обеспечить их корректное использование в исследовательских целях.
Обсуждение
Проведен систематический обзор 6 исследований, охватывающих все доступные на 2024 г. открытые БД пациентов реанимационного профиля. Анализ включенных БД выявил значительную гетерогенность как по характеристикам и тяжести состояния пациентов, так и по объему собираемых данных и частоте мониторинга. В отличие от систематического обзора, опубликованного в 2022 г. [15], в котором представлен обобщенный анализ БД, в наше исследование включены дополнительные и обновленные данные и рассмотрены новые наборы данных, представленные в 2024 г., такие как RICD и SICdb.
Несмотря на растущий глобальный интерес к открытым БД пациентов реанимационного профиля, их использование в отечественной науке остается крайне ограниченным. Мы рассмотрели направления использования открытых БД, процесс получения доступа, а также ключевые аспекты выбора БД для исследовательских задач. На основании полученных данных сформулированы практические рекомендации по работе с БД.
В настоящее время в мире представлены две открытые БД пациентов хирургического профиля: INSPIRE [36] и MOVER [37]. Авторы данных проектов не концентрируются на пациентах ОРИТ (INSPIRE — 11,4% пациентов поступили в ОРИТ) и уделяют внимание периоперационному периоду без требования к переводу пациентов в ОРИТ. Данные проекты не включены в наше исследование, однако мы считаем, что эти БД могут быть интересны ряду исследователей. К примеру, в БД INSPIRE представлены данные, получаемые с наркозно-дыхательных аппаратов, а также данные интраоперационной электроэнцефалографии [36].
Мы надеемся, что результаты нашей работы повысят осведомленность и интерес исследователей к использованию открытых БД и будут способствовать более широкому их использованию. Для создания и поддержки открытых баз БД пациентов реанимационного профиля требуются значительные ресурсы, включая разработку инфраструктуры хранения данных, обеспечение их безопасности и анонимизации, а также поддержку доступности для исследовательского сообщества. Одним из ключевых факторов, мотивирующих разработчиков к созданию и поддержке открытых БД, является признание научного сообщества и высокий уровень цитируемости, поскольку публикации, представляющие новые БД, привлекают значительное внимание исследователей, работающих в области интенсивной терапии и медицинской информатики.
Следует отметить, что наше исследование имеет определенные ограничения. Процесс отбора и анализа БД ограничен доступностью информации и возможностью получения доступа к самим базам данных, в связи с этим данные о SICdb и AmsterdamUMCdb получены только из открытых источников.
Заключение
В данной работе проанализированы открытые базы данных пациентов, получавших помощь в отделениях реанимации и интенсивной терапии, а также основные подходы к их применению для решения исследовательских задач. Представлены рекомендации по выбору и использованию этих инструментов в клинических исследованиях, учитывающие их особенности и ограничения. Ожидается, что предложенные рекомендации повысят интерес исследователей к использованию открытых баз данных пациентов реанимационного профиля, что, в свою очередь, может способствовать развитию научных исследований в области интенсивной терапии.
Конфликт интересов. Авторы настоящей статьи являются разработчиками базы данных RICD. Однако авторы заявляют, что их участие в разработке базы данных не оказало влияния на результаты исследования и выводы, представленные в настоящей статье.
Регистрация: INPLASY 2024120049.
Участие авторов:
Концепция и дизайн исследования — Ядгаров М.Я., Яковлев А.А.
Сбор и обработка материала — Ядгаров М.Я.
Статистический анализ данных — Ядгаров М.Я.
Написание текста — Ядгаров М.Я., Берикашвили Л.Б.
Редактирование — Берикашвили Л.Б., Лихванцев В.В.
Авторы заявляют об отсутствии конфликта интересов.