Введение
Глобальное бремя ожирения — серьезная медико-социальная проблема для систем здравоохранения во всем мире [1]. Исследования последних лет показывают чрезвычайную актуальность проблемы ожирения у детей, включая аспекты эпидемиологии, профилактики, возможности ранней диагностики и предотвращения развития коморбидной патологии[2—5].
За исключением редких моногенных форм, ожирение — многофакторное заболевание [5—8]. Общепризнано, что основой для широкого распространения ожирения является изменение социально-экономических преобразований в обществе, распространение нарушений режима и рациона питания в сочетании с низкой физической активностью. Наряду с поведенческими факторами, формированию ожирения в детском возрасте способствует и высокая распространенность «программирующих» факторов «первых 1000 дней», включая семейную отягощенность [6, 7].
Для своевременного оказания медицинской помощи детям с избыточной массой тела актуальной задачей является разработка эффективных методов анализа и прогнозирования формирования патологии [8—11]. Исследования, направленные на выявление наиболее значимых для прогнозирования факторов, определения их неблагоприятных сочетаний у детей, позволят совершенствовать подходы к профилактике, раннему выделению групп высокого риска. Среди методов прогнозирования заболевания наиболее перспективными являются методы машинного обучения, такие как деревья классификации (деревья решений) [12—18].
Цель исследования — построение и проверка многомерной математической модели прогнозирования формирования ожирения у детей школьного возраста.
Материал и методы
Проведено открытое одномоментное исследование по типу «случай-контроль». Обследованы 120 детей в возрасте 8—15 лет. Набор детей в группы осуществляли на базе центра здоровья МАУ «Городская детская поликлиника №13» Екатеринбурга в период с октября 2018 г. по февраль 2019 г.
Критериями включения в основную группу «случай» являлись: возраст от 8 до 15 лет; наличие диагноза «конституционально-экзогенное ожирение». Группу сравнения «контроль» составили здоровые дети (согласно заключению врача-педиатра центра здоровья). Предварительным условием включения детей в исследование было наличие добровольного информированного согласия законного представителя на участие в исследовании и на публикацию результатов.
Диагностические критерии ожирения устанавливали в соответствии с российскими клиническими рекомендациями [19] и согласно разработанным Всемирной организации здравоохранения (ВОЗ) справочным графикам развития для детей 5—19 лет по возрасту и полу [20].
С учетом разнообразия факторов, оказывающих влияние на формирование ожирения у детей, особенностей их сочетания были изучены данные анамнеза, включая информацию о наследственности, течении беременности, раннем периоде развития ребенка по результатам опроса родителей и сведениям из первичной медицинской документации. Дополнительно проведена оценка образа жизни семьи и ребенка. Учитывали данные о режиме и рационе питания, физической активности (ФА). ФА средней степени интенсивности оценивали в соответствии с рекомендациями ВОЗ [21]: ежедневная ФА не менее 60 мин в день.
Для решения задачи разработки прогностических критериев развития ожирения использовали бинарную классификацию по методу «деревья классификации» (Classification and Regression Trees — CART) [22, 23]. Выбор CART был обусловлен тем, что этот метод позволяет построить решающие правила (РП) для диагноза и прогноза, простые и удобные в применении, наглядные и понятные медицинским работникам [13—18]. В исследовании применяли метод усечения слишком сложных деревьев. В данном случае было достаточно 3—4 ветвлений.
В качестве обучающей выборки были использованы две группы: 1-я группа («случай») — 84 пациента (n1=84), 2-я группа («контроль») — 36 пациентов (n2=36).
Для построения РП было проведено определение информативности признаков — численная оценка вклада признака в построение РП [23, 24]. Информативность признака вычисляли по методу Джини (%) и ранжировали. Наиболее информативный признак составлял 100%. По результатам расчетов были отобраны самые полезные признаки для РП. Кроме того, относительная информативность вычислялась при каждом новом ветвлении для выбора наилучшего для него разделения классов.
Качества РП определяли на основании специальных критериев [24]:
— S=1-α — вероятность правильной классификации случаев (чувствительность);
— C=1-β — вероятность правильной классификации контроля (специфичность);
— α — вероятность неправильной классификации случаев (пропуск случаев);
— β — вероятность неправильной классификации контроля (гипердиагностика).
— R — вероятность ошибочной классификации.
Все критерии вычисляли по матрице классификации (результат применения РП) (табл. 1):
Таблица 1. Матрица классификации прогностических критериев развития ожирения
Параметр | Предсказанный класс | |
Реальный класс | Случай | Контроль |
Случай | TP | FP |
Контроль | FN | TN |
Примечание. TP и TN — количество правильно классифицированных случаев и контроля; FN и FP— количество ошибок классификации.
S=TP/(TP+FN), C=n12/(n1+n2), R=(FP+FN)/(TP+FP+TN+FN),
где TP+FP и TN+FN — количество объектов в группах «случай» и «контроль» обучающей выборки.
Для независимой оценки РП применяли кросс-проверку, при которой была построена последовательность из 15 РП и независимых проверок каждого РП. Общая выборка была случайно разбита на обучающую и тестовую части, на которых, соответственно, проведены обучение и проверка модели. По результату определялась вероятность неправильной классификации R и случайная ошибка для нее с целью выбора окончательного вида РП (дерева классификации).
Предварительный анализ данных, распределение которых отличалось от нормального, проведен с использованием непараметрических методов анализа: медианы и квартилей (Me [Q25; Q75]). Для проверки статистической значимости в двух независимых группах использован U-критерий Манна—Уитни. Различия считались статистически значимыми при p<0,05. Непараметрические методы и деревья классификации реализованы в Statistica 7 for Windows («Stat Soft», США) [25].
Результаты
Возраст детей (Me [Q25; Q75]) в основной группе составил 11 [10; 14] лет, в группе контроля —11 [10; 13] лет (p=0,229). Значение индекса массы тела — 2,44 [2,1; 2,9] и 0,3 [–0,35; 0,66] кг/м2 соответственно (p<0,001).
При изучении анамнестических сведений были получены данные, подтверждающие, что ожирение у детей программируется на ранних этапах развития. У 44,9% обследованных из группы «случай» на 2-м году жизни была зафиксирована избыточная масса тела (ИзбМТ), у 65,3% детей отмечалось непродолжительное (исключительно) грудное вскармливание (менее 5 мес), 52,9% имели наследственную отягощенность со стороны матери, а 38,5% — со стороны обоих родителей. Неблагоприятное течение внутриутробного периода у детей в основной группе характеризовалось наличием фетоплацентарной недостаточности (72,4%), внутриутробной гипоксии плода (39,0%). Эти характеристики были отнесены в группу предрасполагающих (прогноз на будущее) факторов — факторов A (табл. 2).
Таблица 2. Относительная информативность факторов риска формирования ожирения
Показатель | Факторы A | Факторы A+B |
ИМТ матери, кг/м2 | 100 | 100 |
Грудное вскармливание, мес | 65 | 58 |
Перинатальные факторы | 12 | 15 |
Факторы B | Факторы A+B | |
Физическая активность, ч/нед | 100 | 93 |
Частые перекусы, раз/нед | 55 | 69 |
Поздний ужин, раз/нед | 39 | 48 |
Анализ образа жизни школьников позволил выделить группу реализующих (диагностика и прогноз) факторов — факторов B. Были установлены значимые отличия в поведении детей с ожирением по сравнению со сверстниками с нормальной массой тела: 65,8% школьников из основной группы регулярно ужинали после 21:00 против 27,0% в группе контроля (p<0,01), вели малоподвижный образ жизни 58,5 и 2,7% соответственно (p<0,001), отмечали у себя нарушения сна (продолжительность сна менее 8 ч, частые пробуждения) 23,2 и 10,8% соответственно (p<0,05). Средний уровень ФА от средней до высокой степени интенсивности составил в группе «случай» 1,92±0,12 ч/нед, в группе «контроль» — 4,35±0,17 ч/нед (p<0,001).
Для построения правила прогноза формирования ожирения у детей в школьном возрасте был произведен расчет относительной информативности предикторов ИзбМТ от 0 до 100 и выделены 6 наиболее значимых маркеров (см. табл. 2). Несмотря на то что оценка каждого предиктора важна при проведении анализа у детей с ожирением и без него, зачастую встречаются сочетания разных маркеров, в связи с чем был выполнен многомерный анализ. В ходе моделирования рассматривались все показатели для распознавания риска развития ИзбМТ. Далее из числа наиболее информативных факторов выделили 4 признака, которые были использованы для построения РП. Деревья классификаций строились с использованием алгоритма CART [23], что позволило выявить сочетание тех или иных факторов для лучшего прогноза.
При построении дерева решений его размер ограничивали двумя уровнями (рис. 1) для получения простых, удобных и наглядных РП. При увеличении количества уровней качество классификации возрастает незначительно, но при этом РП сильно усложняется. На первоначальном этапе деревья классификации были построены отдельно для предрасполагающих (см. рис. 1) и реализующих факторов (рис. 2).
Рис. 1. Дерево решений для предрасполагающих факторов (факторы A), R=15±3%.
Здесь и на рис. 2, 3: N — номер вершины дерева, в котором отмечено количество объектов из каждой группы. Пунктирными линиями выделены терминальные (без ветвлений) вершины дерева. В каждой вершине отмечены ошибки классификации для групп «случай» (*) и «контроль» (**).
Рис. 2. Дерево решений для реализующих факторов (факторы B), R=21±4%.
Из набора представленных показателей на первом шаге программа выбрала длительность грудного вскармливания как наиболее значимый фактор. На втором шаге для группы обследуемых, находившихся на грудном вскармливании более 6 мес (20 детей), наиболее значимым фактором оказался ИМТ матери. Таким образом, для дерева решений (см. рис. 1) рабочее правило имеет следующий вид: если продолжительность грудного вскармливания составляла не более 6 мес, то пациент относится к группе «случай», когда длительность грудного вскармливания была более 6 мес и ИМТ матери не превышал 25 кг/м2, пациент относится к группе «контроль». При этом если длительность грудного вскармливания более 6 мес и ИМТ матери выше 25 кг/м2, то пациент относится к группе «случай». Чувствительность модели составила 87%, специфичность — 80%, вероятность неправильной классификации — 15% с ошибкой 3% (табл. 3). По нашему мнению, это РП может использоваться врачами-педиатрами при определении прогноза на будущее у детей, начиная с первого года жизни, и позволит отнести таких детей к группе высокого риска по формированию ИзбМТ.
Таблица 3. Классификационная матрица и вероятность ошибочной классификации R для факторов A (прогноз на будущее)
Параметр | Предсказанные | |
Реальные | Случай | Контроль |
Случай | 78 | 6 |
Контроль | 12 | 24 |
Обучающая выборка R 15% | Чувствительность 87% | Пропуск случая 13% |
Кросс-проверка R 15±3% | Гипердиагностика 20% | Специфичность 80% |
Примечание. Здесь и в табл. 4, 5: вероятность принятия неправильного решения R по обучающей выборке и кросс-проверке.
Значимую роль в формировании ожирения играют факторы образа жизни, и чем старше становится ребенок, тем большее влияние оказывают поведенческие детерминанты. Так, результаты многофакторного анализа показали (см. рис. 2), что снижение ФА средней степени интенсивности (менее 3 ч в неделю) приведет к развитию ожирения у 66 (79%) детей. У оставшихся 18 (21%) вклад в развитие патологии дополнительно вносят факторы нарушения режима и рациона питания (при чувствительности 87%, специфичности 80%, вероятности неправильной классификации 21% с ошибкой 4% (табл. 4). Данное РП может быть использовано врачами-педиатрами, медицинскими работниками школ при оценке поведенческих факторов риска у школьников и позволяет включить таких детей в группу риска формирования ожирения даже при отсутствии сведений о раннем анамнезе.
Таблица 4. Классификационная матрица и вероятность ошибочной классификации R для факторов B (диагностика и прогноз)
Параметр | Предсказанные | |
Реальные | Случай | Контроль |
Случай | 66 | 18 |
Контроль | 7 | 29 |
Обучающая выборка R 21% | Чувствительность 90% | Пропуск случая 10% |
Кросс-проверка R 21±4% | Гипердиагностика 38% | Специфичность 62% |
Метод позволяет при построении дерева классификации определить роль (значимость) предикторов в модели прогноза ожирения у детей школьного возраста (рис. 3). Как видно из рис. 3, ведущую роль играет ежедневная ФА ребенка, несмотря на наличие морфологических причин и факторов, программирующих развитие патологии. Простейшее РП в многомерной математической модели имеют тритерминальные вершины: при ФА ребенка более 2 ч, ИМТ матери более 23 кг/м2 и продолжительности грудного вскармливания не более 9 мес риск формирования ожирения расценивается как высокий (при чувствительности 88%, специфичности 86%). По результатам кросс-проверки РП вероятность принятия неправильного решения составила 13%, с ошибкой для нее — 3% (табл. 5). Полученное РП является корректным. Риск развития ИзбМТ у детей, по нашему мнению, во многом обусловлен управляемыми факторами риска, и ожирение является предотвратимым заболеванием.
Рис. 3. Дерево решений для факторов B и A, R=13±3%.
Таблица 5. Классификационная матрица и вероятность ошибочной классификации R для факторов B+A
Параметр | Предсказанные | |
Реальные | Случай | Контроль |
Случай | 74 | 10 |
Контроль | 5 | 31 |
Обучающая выборка R 12% | Чувствительность 88% | Пропуск случая 12% |
Кросс-проверка R 13±3% | Гипердиагностика14% | Специфичность 86% |
Обсуждение
В настоящее время наблюдается существенный рост информации, которую невозможно осмыслить и переработать без использования современных методов интеллектуального анализа данных. Медико-социальная значимость ожирения, многофакторная природа этой патологии требуют разработки подходов к прогнозированию и определению групп высокого риска на этапе оказания первичной медико-санитарной помощи. В этой связи важным является раннее выявление отклонений в физическом развитии, факторов риска и наследственной предрасположенности [2, 4, 6, 9]. Прогнозирование ожирения основано на комплексной оценке семейной отягощенности, особенностей развития в период раннего детства и факторов образа жизни [7, 8, 10, 11].
В настоящее время используют различные методы [8, 17, 26, 27] для прогнозирования заболеваний. В базах данных опубликованных работ мы не встретили исследований, использующих для определения прогностических критериев развития ожирения методы деревьев классификации. Построение деревьев решений на основе методов многомерного статистического анализа наглядно демонстрирует усиление влияния факторов при их сочетании на индивидуальный риск формирования патологии у ребенка [12, 13], что позволяет определить принадлежность пациента к той или иной группе риска.Возможность графического представления результата и простота интерпретации позволяют использовать полученные данные медицинскому персоналу, не имеющему специальной подготовки в области анализа данных. Расчет характеристик полученного дерева решений дает возможность оценить точность классификации.
Настоящее исследование подтвердило прогностическую ценность вклада средовых факторов в развитие ожирения у детей школьного возраста, несмотря на существенную роль наследственной предрасположенности, особенностей периода внутриутробного и раннего развития.
Заключение
Представленная работа посвящена поиску научно обоснованных подходов к выбору алгоритма прогнозирования ожирения у детей школьного возраста. Для оценки эффективности разработанных моделей прогноза проведено вычисление показателей чувствительности, специфичности, вероятности неправильного прогноза. Преимуществом предложенного метода прогнозирования являются наглядность и простота интерпретации врачом. Использование этой модели в клинической практике врачами-педиатрами, детскими эндокринологами, а также медицинскими работниками школ и специалистами центров здоровья будет способствовать адекватному формированию групп высокого риска, выбору индивидуальных программ наблюдения и профилактики данной группы пациентов. Таким образом, полученные сведения являются основой для создания системы профилактики ожирения у детей школьного возраста.
Участие авторов: концепция и дизайн исследования — Е.В. Ануфриева, В.Н. Шершнев, О.П. Ковтун; сбор и обработка материала, статистическая обработка данных — Е.В. Ануфриева, В.Н. Шершнев; написание текста — В.Н. Шершнев, Е.В. Ануфриева; редактирование —О.П. Ковтун, В.Н. Шершнев.
Авторы заявляют об отсутствии конфликта интересов.
The authors declare no conflicts of interest.