Введение
Артериальная гипертензия является как одним из самых распространенных заболеваний системы кровообращения, так и мощным фактором риска развития хронических неинфекционных заболеваний [1, 2].
По данным ряда исследователей, чрезмерно сниженный уровень (артериальная гипотензия) артериального давления (АД) также может быть неблагоприятным прогностическим фактором [2—4]. Это подтвердилось данными 40-летнего проспективного наблюдения российской популяции в случаях, когда снижение уровня АД было сильно выражено [5].
Таким образом, нарушения регуляции уровня АД занимают важнейшее место среди факторов, влияющих на смертность. Практически важно, что этот фактор в большинстве случаев может быть успешно скорректирован.
Характеризующие нарушения регуляции уровня АД переменные могут быть количественными (включая измеренные величины АД) и производными от них номинативными (в том числе наличие или отсутствие артериальной гипертензии, артериальной гипотензии). Реже используются порядковые переменные, которые также являются производными от количественных переменных. Практически важным является вопрос, какой именно тип характеризующих нарушения регуляции АД переменных предпочтительно использовать в рамках конкретного статистического анализа.
Множественная линейная регрессия и близкие к ней статистические техники ориентированы, прежде всего, на независимые переменные количественного типа. В некоторых случаях возможно использование и номинативных переменных, но это, скорее, исключение, например процедура GLM SAS (SAS Institute Inc.)1.
Прогресс вычислительной техники сделал возможным широкое внедрение в практику программ — имитаторов искусственных нейронных сетей (ИНС) [6]. Поскольку при анализе медико-биологических данных желательно приоритетно использовать непараметрические и нелинейные статистические методы [7], ИНС во многих задачах обладают принципиальными преимуществами. Это обусловлено тем, что медицинские задачи часто характеризуются большим количеством потенциально влияющих на результат переменных, невозможностью учета всех факторов, отсутствием точного алгоритма нахождения ответа и его приблизительным характером, а также наличием нескольких вариантов решения. Перечисленные положения соответствуют основным принципам функционирования ИНС [6].
Цель исследования — сравнить информативность разных типов переменных, характеризующих нарушения регуляции уровня АД, применительно к нейросетевым моделям прогноза вероятности фатального исхода при длительном проспективном наблюдении — от 10 до 40 лет.
Материалы и методы
Использованы исходные данные одномоментного популяционного исследования, проведенного в 1975—1982 гг. Институтом профилактической кардиологии Всесоюзного кардиологического научного центра АМН СССР, ныне ФГБУ «Национальный медицинский исследовательский центр терапии и профилактической медицины» Минздрава России [8], с проспективным наблюдением показателей смертности продолжительностью до 42 лет. Включены 13 263 мужчины и 5691 женщина в возрасте 18—82 лет с непропущенными значениями всех использованных в данном анализе показателей (456 269 человеко-лет наблюдения).
Для оценки нарушений регуляции уровня АД использовали три количественные переменные: систолическое АД (САД), диастолическое АД (ДАД) и среднее динамическое АД (СрАД), которое рассчитывали из САД и ДАД по формуле Хикэма. Использовали также четыре номинативные переменные: 1) АГ1 (артериальная гипертензия критерий 1, с учетом анамнеза, номинативная переменная с двумя значениями) — если имеются сведения об установленном врачом диагнозе артериальной гипертензии, или проводится лечение антигипертензивными лекарственными средствами, или в момент обследования САД и(или) ДАД более 139 и(или) 89 мм рт.ст.; 2) АГ2 (артериальная гипертензия критерий 2, без учета анамнеза, номинативная переменная с двумя значениями) — если САД и(или) ДАД в момент обследования выше 139 и(или) 89 мм рт.ст. соответственно; 3) АГт1 (артериальная гипотензия критерий 1, номинативная переменная с двумя значениями) — если САД и(или) ДАД не превышают 90/60 мм рт.ст. [9]; 4) АГт2 (артериальная гипотензия критерий 2, разработанный нами ранее критерий прогностически неблагоприятной артериальной гипотензии, номинативная переменная с двумя значениями) — если величина СрАД меньше пограничной величины, которая для мужчин российской популяции составляет 70 мм рт.ст., для женщин — 68 мм рт.ст. [5].
В модели прогноза также включены пол, возраст, частота сердечных сокращений, концентрации в сыворотке крови общего холестерина, холестерина липопротеинов высокой плотности, холестерина, не входящего в состав липопротеинов высокой плотности (рассчитывался как разность между измеренными значениями концентраций общего холестерина и холестерина липопротеинов высокой плотности), триглицеридов, индекс массы тела, статусы курения и образования. Статус курения характеризовался номинативной переменной с двумя значениями — курит в настоящее время/никогда не курил или бросил курить. Статус образования характеризовался номинативной переменной с двумя значениями ‒ образование не выше среднего/выше среднего.
В качестве конечных точек рассматривали смерть от всех причин при сроках наблюдения 10, 20, 30 и 40 лет.
Статистический анализ. Использовали пробные версии продуктов компаний «StatSoft Inc.» (США), «TIBCO Software Inc.» (США), «IBM Corporation» (США) и свободно распространяемые версии программного обеспечения, в том числе R Project for Statistical Computing.
При построении нейросетевых моделей зависимости псевдовероятности фатального события (смерти от всех причин) от описанного выше набора входных переменных использовали полносвязные ИНС-классификаторы с прямым распространением сигнала [10]. В качестве входных элементов ИНС использовали 16 переменных, из них 10 количественных (возраст, САД, ДАД, СрАД, частота сердечных сокращений, индекс массы тела, концентрации в сыворотке крови четырех перечисленных выше липидных показателей) и 6 номинативных — статусы курения, образования, два критерия артериальной гипертензии (АГ1, АГ2) и два критерия артериальной гипотензии (АГт1, АГт2).
Нейросетевые модели строили раздельно для мужчин и женщин для каждого из сроков наблюдения 10, 20, 30 и 40 лет, всего 8 объектов анализа.
В рамках настоящей работы проводили сравнительное изучение значимости трех количественных (САД, ДАД, СрАД) и четырех номинативных (АГ1, АГ2, АГт1, АГт2) входных переменных. Использовали общий анализ чувствительности с расчетом отношения ошибок нейросетевого прогноза (ER), включающей все 16 входов ИНС и ИНС с поочередным включением и исключением одного из входов [11]. Для каждого объекта анализа обучали не менее 1000 ИНС типа трехслойный персептрон с одним промежуточным слоем, из них отбирали 500 лучших для анализа значимости входов. В рамках данной нейросетевой модели входную переменную считали значимой при величине ER >1,0. Для статистической оценки отличий от уровня 1,0 в 500 отобранных лучших ИНС с использованием бутстрепа рассчитывали медиану ER и ее 95% доверительный интервал (ДИ), а также нижний 2,5% процентиль эмпирического распределения величин ER [12].
Результаты
В нейросетевых моделях вероятности фатального исхода сравнивали значимость включенных в анализ входных переменных с использованием процедуры общего анализа чувствительности из пакета статистических программ Statistica от «StatSoft Inc.» (США) и «TIBCO Software Inc.» (США) [11].
На рис. 1 представлены результаты сравнения значимости входных переменных, характеризующих нарушения регуляции АД у мужчин российской популяции, при длительности проспективного наблюдения 10, 20, 30 и 40 лет.
Рис. 1. Отношение ошибки (ER) нейросетевых моделей с полным и селективными наборами входных переменных в контексте общего анализа чувствительности у мужчин при проспективном наблюдении показателей общей смертности продолжительностью 10, 20, 30 и 40 лет.
Здесь и на рис. 2: По оси абсцисс — характеризующие нарушения регуляции артериального давления (АД) входные переменные: САД — систолическое АД; ДАД — диастолическое АД; СрАД — среднее динамическое АД; АГ1 — артериальная гипертензия критерий 1; АГ2 — артериальная гипертензия критерий 2; АГт1 — артериальная гипотензия критерий 1, АГт2 — артериальная гипотензия критерий 2. По оси ординат — величины ER по данным бутстрепа выборки из 500 нейросетей, горизонтальная линия внутри ящичной диаграммы с усами соответствует медиане, нижние и верхние границы закрашенного бокса соответствуют 25% и 75% квартилям, звездочками и кружками обозначены выбросы (сильно отклоняющиеся величины ER). Статистическая значимость: # — 95% доверительный интервал медианы ER расположен выше уровня 1,0; ## — 2,5% процентиль эмпирических величин ER >1,0.
Интерпретация результатов: если ER=1,0, то наличие или отсутствие входной переменной в модели не влияет на точность прогноза вероятности фатального события, при ER>1,0 включение входной переменной в модель улучшает точность прогноза, чем больше ER превышает уровень 1,0, тем весомее роль данной входной переменной в модели.
Из рис. 1 видно, что у мужчин при 10-летнем наблюдении средние значения ER для всех количественных переменных не отличаются от уровня 1,0. Медианы ER номинативных переменных для артериальной гипертензии и артериальной гипотензии находятся в пределах 1,2—1,7 (95% ДИ медианы ER во всех случаях превышают уровень 1,0). При сроке наблюдения 10 лет для всех переменных 2,5% процентили эмпирического распределения величин ER не превышают 1,0.
У мужчин по мере увеличения продолжительности проспективного наблюдения значения медиан величин ER для входных переменных увеличиваются и статистическая значимость отличий от уровня 1,0 усиливается. При 30-летнем наблюдении для всех изученных входных переменных 95% ДИ медианы ER расположен выше уровня 1,0, и 2,5% процентили эмпирического распределения ER также во всех случаях превышают 1,0. При 40-летнем наблюдении по сравнению с 30-летним для количественных переменных (САД, ДАД, СрАД) уровни медиан мало отличаются при уменьшении разброса результатов для разных ИНС, значимость номинативных переменных артериальной гипертензии (АГ1 и АГ2) визуально выглядит одинаково, значимость переменных артериальной гипотензии (АГт1 и АГт2) несколько снижается.
У женщин (рис. 2) динамика по мере увеличения длительности проспективного наблюдения в целом схожа с мужчинами. При наблюдении в течение 10 лет большинство переменных, характеризующих нарушения регуляции АД, незначимо для прогноза фатального события, к 30-летнему сроку наблюдения все входные переменные становятся значимыми как по 95% ДИ медианы ER, так и по 2,5% процентилю. При 40-летнем наблюдении в сравнении с 30-летним количественные переменные ДАД и СрАД становятся незначимыми по 2,5% процентилю эмпирического распределения величин ER, превышение 95% ДИ над уровнем 1,0 сохраняется для всех переменных.
Рис. 2. Отношение ошибки (ER) нейросетевых моделей с полным и селективными наборами входных переменных в контексте общего анализа чувствительности у женщин при проспективном наблюдении показателей общей смертности продолжительностью 10, 20, 30 и 40 лет.
Обсуждение
В настоящей работе предпринята попытка решения задачи прогноза дожития с использованием нейросетевых моделей; для проспективного наблюдения продолжительностью 10, 20, 30, 40 лет использовали ИНС-классификаторы типа трехслойный персептрон [6, 11].
Применительно к построенным нейросетевым моделям исследовали относительную значимость трех количественных переменных (измеренных величин САД, ДАД и расчетной величины СрАД) и четырех номинативных переменных типа есть/нет, две из них отражали наличие или отсутствие артериальной гипертензии и две — артериальной гипотензии.
Во всех моделях значимость количественных переменных оказалась ниже, по сравнению с номинативными. Можно предположить, что это связано с очень широким диапазоном измеренных величин АД, тогда как номинативные переменные уже содержат результаты оценки величин АД с учетом ранее накопленных результатов большого массива клинических и популяционных исследований, включая проспективные.
Следует подчеркнуть, что вывод о большей значимости номинативных переменных справедлив именно для нейросетевых моделей (конкретно трехслойных персептронов) прогноза вероятности фатального события при проспективном наблюдении фиксированной продолжительности (в нашем случае 10, 20, 30, 40 лет) в российской популяции. При моделировании дожития другими средствами, например регрессией Кокса, соотношение значимости количественных и номинативных переменных может быть иным. Методы классической регрессии приспособлены, прежде всего, для использования количественных независимых переменных, о чем свидетельствует использование измеренных величин АД в шкалах типа SCORE [13].
Значимость номинативной переменной АГ2 почти всегда не уступает, а нередко немного превосходит АГ1 (см. рис. 1, 2). Следовательно, при использованной нами технике анализа критерий артериальной гипертензии только по данным измерения уровня АД при обследовании (АГ2) как минимум не проигрывает критерию с учетом наличия такого диагноза в анамнезе и сведений о приеме антигипертензивных лекарственных средств (АГ1).
Значимость характеризующей наличие артериальной гипотензии номинативной переменной АГт2 во всех случаях была несколько выше, чем переменной АГт1 (см. рис. 1, 2). Следовательно, в рамках проведенного анализа разработанный нами ранее критерий артериальной гипотензии АГт2 [5] является предпочтительным, по сравнению с общеизвестным критерием АГт1.
Роль изученных входных переменных в моделях прогноза в целом возрастает при увеличении продолжительности наблюдения как у мужчин, так и у женщин и достигает максимума к 30 годам наблюдения.
Для сроков наблюдения 10 и 20 лет значимость характеризующих нарушения регуляции АД переменных у женщин слабее по сравнению с мужчинами, особенно при 10-летнем наблюдении.
Ограничения исследования
Выборка сформирована случайным образом из населения нескольких районов Москвы, в анализ включены все наблюдения лиц 18—82 лет с непропущенными значениями всех включенных в модели факторов риска. Проспективное наблюдение осуществлялось только в отношении показателей смертности.
Заключение
В контексте нейросетевых моделей прогноза вероятности фатального события относительная значимость количественных переменных, характеризующих измеренный уровень артериального давления, таких как систолическое, диастолическое и среднее динамическое артериальное давление, заметно ниже по сравнению со значимостью номинативных переменных типа есть/нет, характеризующих наличие/отсутствие артериальной гипертензии и гипотензии.
Допустимо использование наиболее простого критерия наличия/отсутствия артериальной гипертензии, базирующегося исключительно на величине измеренного при обследовании уровня артериального давления, без учета сведений об анамнезе, что снижает трудоемкость сбора данных.
Применительно к артериальной гипотензии описанная выше информативность достигается при использовании жестких диагностических критериев [5].
На протяжении 40-лет прогноз вероятности фатального события с использованием перечисленных показателей достигает максимальной информативности к 30 годам проспективного наблюдения.
Вклад авторов: концепция и дизайн исследования — Вилков В.Г.; сбор и обработка материала — Шальнова С.А., Вилков В.Г.; статистический анализ данных — Вилков В.Г.; написание текста — Вилков В.Г., Шальнова С.А., Баланова Ю.А., Имаева А.Э., Муромцева Г.А.; научное редактирование — Шальнова С.А., Драпкина О.М.
Финансирование. Работа выполнена в рамках Государственного задания на 2024—2026 гг. №124013100888-0 «Разработка экспертной системы оценки «успешного старения» населения Российской Федерации с учетом психологического и физического состояния здоровья в качестве инструмента прогнозирования популяционного и индивидуального риска» от 31.01.2024.
Авторы заявляют об отсутствии конфликта интересов.
Authors contribution: study design and concept — Vilkov V.G.; data collection and processing — Shalnova S.A., Vilkov V.G.; statistical analysis — Vilkov V.G.; text writing — Vilkov V.G., Shalnova S.A., Balanova Yu.A., Imaeva A.E., Muromtseva G.A.; scientific editing — Shalnova S.A., Drapkina O.M.
Financial Support: the research was carried out with financial support from State assignment No. 124013100888-0. Development of an expert system for assessing the «successful aging» of the population of the Russian Federation, taking into account the psychological and physical state of health as a tool for predicting population and individual risk (31.01.2024).