Meta-analysis in medical practice

Belov Yu.V.; Salagaev G.I.; Lysenko A.V.; Lednev P.V.

doi:https://doi.org/10.17116/hirurgia201834-15

Доказательная медицина — это добросовестное, точное и

осмысленное использование лучших результатов

клинических исследований для выбора

лечения конкретного больного.

D.L. Sackett

За последние десятилетия наблюдается трансформация методологии принятия клинических решений от субъективных экспертных оценок в сторону максимальной стандартизации и унификации протоколов лечения и разработки единых рекомендаций по ведению больных. Доказательная база для обоснования тех или иных протоколов является многоуровневой системой от отдельных клинических мнений до многоцентровых рандомизированных исследований и их обобщений (систематический обзор и мета-анализ). Последние занимают наивысшие позиции в структуре уровней доказательности.

С увеличением количества публикуемых статей и результатов многочисленных исследований возникла необходимость в систематизации этих данных и формулировании итоговых выводов по тому или иному клиническому вопросу. На заре становления доказательной медицины для этих целей формулировались, преимущественно, повествовательные, несистемные обзоры, в которых автор суммировал результаты нескольких исследований и делал вывод об эффективности/неэффективности метода лечения на основе личностной и, в значительной степени, субъективной оценки данных. Такой подход имеет ряд существенных недостатков. Во-первых, отсутствие транспарентности в методологии исследования из-за значительной субъективизации анализа. Например, авторы могут использовать различные критерии включения данных в обзор, может различаться качественный состав анализируемых статей и пороговый уровень доказательности, применяемый для формулировки выводов. Во-вторых, значение и качество обзора значительно снижаются при появлении новых данных по данному вопросу, так как интеграция новых исследований в структуру существующего анализа может происходить только с учетом веса этого исследования и его качественных характеристик. Эти задачи практически невозможно решить в рамках несистемного обзора, особенно при наличии значимого количества новых исследований.

В связи с этим с середины 80-х и, особенно, в 90-х годах XX века наблюдается переход в сторону создания системных обзоров. Последние имеют достаточно четкие и транспарентные критерии включения данных в обзор. Ключевым элементом системного обзора является статистическая обработка данных (мета-анализ). В отличие от несистемного обзора, где значение и качественный уровень статей определяются с субъективных позиций исследователя, мета-анализ включает четкие математические критерии определения веса исследований и их реальное влияние на конечный результат и выводы обзора.

Основные параметры системного обзора

Основной «единицей» анализа в структуре системного обзора является так называемый «размер эффекта» (effect size). В широком смысле он отражает взаимозависимость между двумя переменными, например, влияние операции на риск осложнений, средние значения параметра в двух группах и их разность и т. д. Соответственно типу анализируемых данных размер эффекта, как правило, выражается в отношении рисков/отношении шансов (risk ratio/odds ratio) для бинарных данных (есть событие/нет события), стандартизированной средней (d) для непрерывных данных или коэффициенте корреляции (r) для корреляционных данных. К используемому размеру эффекта предъявляется ряд требований. Во-первых, различные исследования должны обладать потенциально сравнимыми размерами эффекта с точки зрения его качественных характеристик. В идеальных условиях размер эффекта не должен зависеть от различных аспектов, которые могут варьировать от исследования к исследованию (размер выборки, использование дополнительных параметров и т. д.). Во-вторых, размер эффекта должен быть потенциально высчитываемым исходя из опубликованных данных без необходимости повторного анализа (исключая случаи, когда доступен исходный блок данных). В-третьих, размер эффекта должен обладать адекватными техническими характеристиками, например, должно быть известно его распределение в выборке для возможности расчета дисперсии, доверительного интервала и т. д.

Для того чтобы провести мета-анализ нескольких исследований, необходимо привести все данные к одному «знаменателю», т. е. унифицированному размеру эффекта. Если в качестве размера эффекта используются средние значения некоего параметра в двух независимых группах, то стандартизованная средняя в одном конкретном исследовании двух групп больных может быть рассчитана как:

где X₁ и Х₂ — арифметическое среднее параметра в каждой группе, S_within — объединенное стандартное отклонение в обеих группах. Последнее рассчитывается как:

где n₁и n₂ — размеры выборок в обеих группах, S₁ и S₂— стандартные отклонения в двух группах.

Для расчета дисперсии стандартизованной средней используется отношение:

Стандартная ошибка стандартизованной средней определяется как квадратный корень из ее дисперсии:

Было отмечено, что для небольших выборок свойственна некоторая переоценка значения d из-за определенной степени его «смещения» (bias). В результате в качестве размера эффекта используется не само значение d, а его корригированный (bias-corrected) параметр g (Hedges’ g). Для этого применяется коэффициент коррекции J:

где df — степень свободы, определяемая для двух независимых групп как n₁+n₂ – 2.

В этом случае корригированная средняя определяется как:

g=Jâˆ™d.

Дисперсия и стандартная ошибка величины g рассчитываются следующим образом:

V_g=J²âˆ™V_d,

При анализе бинарных данных и расчете отношения шансов/отношения рисков используются их логарифмические выражения (например, lnOddsRatio) для получения натурального логарифма суммарного размера эффекта для всех исследований, включенных в анализ. И затем получают прямое значение эффекта посредством экспоненциального пересчета.

Необходимо отметить, что, если в анализируемых исследованиях данные представлены в виде различных качественных характеристик, то есть возможность перевода (конвертации) одного типа данных в другой. Эта схема может быть представлена в следующем виде (рис. 1).

Рис. 1. Конвертация различных типов данных.

Размер выборки и дизайн исследования (независимые группы, кластерный анализ и т. д.) являются основными факторами, которые влияют на прецизионность получаемого размера эффекта и диапазон доверительного интервала. Математически величина дисперсии обратно пропорциональна размеру выборки, т. е. увеличение количества наблюдений в 4 раза, например, приводит к 4-кратному уменьшению дисперсии. Стандартное отклонение при этом снижается в 2 раза, так как оно является квадратным корнем из дисперсии. Снижение дисперсии, в свою очередь, увеличивает качественную долю конкретного исследования в общей структуре метаанализа, т. е. его вес согласно формуле:

где W_i — вес исследования в общем анализе, V_i— его дисперсия.

Кроме того, сравнение согласованных групп (paired/matched) всегда обеспечивает более высокую точность получаемых данных и меньшую дисперсию по сравнению с независимыми группами, кластерным анализом и т. д.

Статистические модели

Принципиальным моментом любого мета-анализа является выбор статистической модели, в рамках которой осуществляется обработка данных. Существуют две статистические модели: модель фиксированных эффектов (fixed-effect model) и модель случайных эффектов (random-effect model) [1].

Для того чтобы понять качественные различия между двумя моделями, необходимо выделить такие понятия, как истинная и ожидаемая средняя. Ожидаемая средняя — это значение размера эффекта при данном объеме выборки. Истинная средняя представляет собой величину размера эффекта при объеме выборки, стремящемуся к бесконечности. Разница между ожидаемой и истинной средней составляет стандартную ошибку средней, которая всегда является случайной величиной. Соответственно при увеличении размера выборки ожидаемая средняя начинает приближаться к истинной средней, а стандартная ошибка стремится к нулю.

Главным допущением модели фиксированных эффектов является гипотеза, что во всех анализируемых исследованиях истинный размер эффекта является постоянной величиной, а все различия ожидаемых средних обусловлены только стандартной ошибкой и не связаны с реально действующими факторами, которые целенаправленно изменяют истинную среднюю. В этом случае рассчитываемый в мета-анализе общий размер эффекта является этой истинной средней величиной.

На рис. 2 истинное

среднее θ для трех исследований одинаково и составляет 0,5. Ожидаемые средние составили 0,4, 0,67 и 0,43 для исследований А, Б и В соответственно. Стандартная ошибка как разница между ожидаемой и истинной средней равна ε_а, ε_б и ε_в соответственно. Нормальные кривые отражают распределение стандартной ошибки согласно дисперсии каждого отдельного исследования. Ожидаемая средняя конкретного исследования (Y_i) в общем виде представляет собой сумму истинной средней (θ) и стандартной ошибки (ε_i):

Y_i=θ+ε_i.

Для того чтобы применить модель фиксированных эффектов, необходимы достаточно идеальные условия, позволяющие предположить одинаковый истинный размер эффекта, например, однородная выборка во всех включаемых статьях, схожие протоколы исследований и т. д. В качестве примера можно представить себе фармацевтическую компанию, которая начинает клинические исследования препарата. Для этого формулируются протокол и дизайн исследования, берется однородная выборка добровольцев (например, 1000 человек). Затем основная выборка делится на несколько групп, например, 10 по 100 человек, и каждый исследователь анализирует индивидуальную группу. Затем полученные 10 исследований включаются в мета-анализ. В данном случае мы брали исходно однородную группу добровольцев, дизайн и протоколы исследования были стандартными во всех 10 группах. Таким образом, мы можем предположить, что истинный размер эффекта будет одинаковым во всех 10 группах, если размер выборки увеличить от 100 до бесконечности в каждом случае, а полученные различия показателей в каждой группе (n=100) связаны только со стандартной ошибкой.

В повседневной практике написания системных обзоров наличие таких «рафинированных» условий, как правило, невозможно, так как анализируются статьи разных авторов, которые содержат неоднородные выборки больных по отношению друг к другу, различные протоколы, дизайны исследований и т. д. Иными словами, различия между исследованиями могут быть весьма существенными, что не позволяет нам предполагать одинаковый истинный размер эффекта. Напротив, целесообразно думать, что существуют конкретные факторы, изменяющие истинную величину, помимо стандартной ошибки. Для учета этих моментов в клинической практике применяется модель случайных эффектов.

Согласно модели случайных эффектов, все анализируемые исследования имеют различные истинные размеры эффекта, при этом они соответствуют нормальному распределению относительно общей средней всех исследований. В этом случае ожидаемая средняя, помимо стандартной ошибки, зависит также от дисперсии и характера распределения истинных размеров эффекта во всех исследованиях (рис. 3),

а рассчитываемый общий размер эффекта, в отличие от модели фиксированных эффектов, является средней величиной между всеми истинными размерами эффекта.

На рис. 3 исследования, А и Б имеют различные истинные размеры эффекта (0,63 и 0,37 соответственно). Ожидаемые размеры эффекта Y_a и Y_б отличаются от истинных значений на величину ε_а и ε_б соответственно (стандартная ошибка). Кроме того, истинный размер эффекта конкретного исследования отличается от суммарного среднего значения µ=0,5 на величину стандартного отклонения ζ_i. Таким образом, ожидаемый размер эффекта индивидуального исследования определяется как:

Y_i=µ+ζ_i+ε_i.

Стоит отметить, что генеральная дисперсия в модели случайных эффектов, в отличие от модели фиксированных эффектов, является двухуровневой. Во-первых, она зависит от дисперсии (распределения) ожидаемых эффектов относительно истинной средней в индивидуальном исследовании VY_i (within-study variance). Во-вторых, имеет место определенное отклонение всех истинных эффектов от генерализованной средней, что также характеризуется дисперсией T² (between-study variance). Таким образом, дисперсия отдельного исследования является суммой этих двух параметров:

Соответственно, вес исследования будет определяться с учетом отклонения истинных размеров эффекта от генеральной средней:

Отсюда можно сделать вывод, что генеральная дисперсия, стандартная ошибка и доверительный интервал всегда будут больше/шире в рамках модели случайных эффектов. Действительно, если в рамках модели фиксированных эффектов увеличить все выборки до бесконечности, то рассчитываемый общий размер эффекта будет очень точным, а доверительный интервал очень узким ввиду того, что все исследования будут показывать один и тот же истинный размер эффекта (рис. 4).

Рис. 4. Модель фиксированных эффектов — размеры эффекта и 95% ДИ.

В модели случайных эффектов увеличение выборок в каждом исследовании до бесконечности не приведет к значимому сужению доверительного интервала, так как на фоне стремящейся к нулю индивидуальной дисперсии (within-study variance) сохраняется определенная степень вариации всех исследований относительно генеральной средней (between-study variance). В этом случае сужение ДИ возможно за счет дополнительного уменьшения истинной межвидовой дисперсии путем увеличения до бесконечности количества анализируемых статей (рис. 5).

Рис. 5. Модель случайных эффектов — размеры эффекта и 95% ДИ.

Гетерогенность

Важным моментом в вопросе создания системного обзора и мета-анализа является оценка гетерогенности включаемых исследований. В широком смысле понятие гетерогенности включает несколько характеристик, в том числе и те, которые упоминались выше (Q-статистика, p-критерий, генеральная дисперсия Т², стандартное отклонение Т, I²-критерий). Мы остановимся лишь на значении I², как наиболее широко применяемом показателе оценки гетерогенности исследований [2].

Вариабельность получаемых нами данных, в частности, размера эффекта, всегда включает два аспекта: истинную вариацию и случайную ошибку. Если представить, что все исследования отражают одинаковый истинный размер эффекта, то истинная вариация равна нулю, а получаемые различные ожидаемые средние находятся в диапазоне доверительного интервала, ширина которого обусловливается только случайной ошибкой. В случае, если истинный размер эффекта варьирует от исследования к исследованию, то ожидаемая общая вариация включает, во-первых, случайную ошибку каждого отдельного исследования, а во-вторых — истинную гетерогенность размеров эффекта. В этом контексте модель фиксированных эффектов можно рассматривать как частный случай модели случайных эффектов с нулевой межвидовой дисперсией. Показатель гетерогенности отвечает на вопрос о том, какая доля ожидаемой общей вариации является истинной, не зависящей от случайной ошибки. Выделение истинной межвидовой вариации, в общем виде, включает несколько этапов:

— расчет общей вариабельности от исследования к исследованию;

— оценка вариабельности исследований в случае, если нулевая гипотеза верна, т. е. истинный размер эффекта одинаковый во всех исследованиях;

— разница между этими значениями («избыток» вариации) является отражением истинной вариабельности данных (гетерогенности).

Формула для расчета показателя I² выглядит как:

т.е. отношение избыточной вариабельности к общей вариабельности, выраженное в процентах. Гетерогенность можно оценить визуально по степени взаимного перекрещивания доверительных интервалов всех включенных исследований (рис. 6).

Рис. 6. Оценка гетерогенности. а — низкая степень гетерогенности (взаимное наложение ДИ); б — высокая гетерогенность (низкие диапазоны взаимного перекрещивания ДИ).

Пороговые значения низкой, умеренной и высокой гетерогенности исследований эмпирически установлены на уровнях 25, 50 и 75% соответственно. На рис. 5, а высокая степень взаимного наложения доверительных интервалов предполагает значительную роль случайной ошибки в структуре общей вариабельности данных, а истинная гете-рогенность составляет лишь 27%. Напротив, на рис. 5, б видно, что в значительной степени вариабельность полученных данных есть результат дисперсии истинных средних, а роль случайной ошибки невелика, что подтверждается низкой степенью взаимного перекрещивания доверительных интервалов. Соответственно гетерогенность достигла 87%.

Низкая степень гетерогенности (I²≤25%) предполагает гомогенный ряд данных и, как правило, целесообразность использования модели фиксированных эффектов для анализа. Высокая гетерогенность (≥75%), наоборот, отражает значимую истинную вариабельность данных, что диктует необходимость применения модели случайных эффектов [3]. Однако стоит отметить, что, согласно M. Borenstein и соавт. [4], выбор статистической модели не должен основываться сугубо на значении коэффициента гетерогенности. Он является результатом понимания характера распределения данных и качественных характеристик анализируемых исследований. Более того, использование по умолчанию модели фиксированных эффектов с последующим переходом на модель случайных эффектов после получения значимого коэффициента гетерогенности является фундаментальной ошибкой и не должно применяться в статистической практике.

Таким образом, современная методика создания системных обзоров и мета-анализа подразумевает достаточно трудоемкий процесс статистической обработки большого объема информации. Несмотря на сохранившуюся в определенной степени долю оператор-зависимых процессов (например, определение критериев включения в обзор и т. д.), мета-анализ включает достаточно прозрачную, математически-детерминированную методологию представления обобщенных клинических данных и их статистического анализа.

Авторы заявляют об отсутствии конфликта интересов.

e-mail: gennadiisalagaev@mail.ru