Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Кузовлев А.Н.

НИИ Общей реаниматологии ФНКЦ РР

Ядгаров М.Я.

НИИ Общей реаниматологии ФНКЦ РР

Берикашвили Л.Б.

НИИ Общей реаниматологии ФНКЦ РР

Рябова Е.В.

ГБУЗ МО «Московский областной научно-исследовательский клинический институт им. М.Ф. Владимирского»

Гончарова Д.Д.

ГБУЗ МО «Московский областной научно-исследовательский клинический институт им. М.Ф. Владимирского»

Переходов С.Н.

ГБУЗ «Городская клиническая больница им. В.П. Демихова» Департамента здравоохранения Москвы

Лихванцев В.В.

НИИ Общей реаниматологии ФНКЦ РР

Выбор метода статистического анализа

Авторы:

Кузовлев А.Н., Ядгаров М.Я., Берикашвили Л.Б., Рябова Е.В., Гончарова Д.Д., Переходов С.Н., Лихванцев В.В.

Подробнее об авторах

Просмотров: 4412

Загрузок: 199


Как цитировать:

Кузовлев А.Н., Ядгаров М.Я., Берикашвили Л.Б., Рябова Е.В., Гончарова Д.Д., Переходов С.Н., Лихванцев В.В. Выбор метода статистического анализа. Анестезиология и реаниматология. 2021;(3):88‑93.
Kuzovlev AN, Yadgarov MYa, Berikashvili LB, Ryabova EV, Goncharova DD, Perehodov SN, Likhvantsev VV. Choosing the right statistical test. Russian Journal of Anesthesiology and Reanimatology. 2021;(3):88‑93. (In Russ.)
https://doi.org/10.17116/anaesthesiology202103188

Долгое время медицина, в частности анестезиология и реаниматология, оперировали понятиями «клинический опыт», «научная школа» и т.д. как основными критериями правильности принятого решения: назначения соответствующей методики лечения или того или иного препарата. Понимая всю «зыбкость» подобной позиции, около 20 лет назад международное сообщество пришло к осознанию необходимости проведения качественных клинических исследований и оценке полученных доказательств при создании руководящих принципов в здравоохранении. Так появилась получившая ныне широкое признание концепция «evidence based medicine», т.е. «медицины, основанной на доказательствах» [1].

По состоянию «на сегодня» под термином «доказательная медицина» подразумевается не только настойчивое требование четкой оценки доказательств эффективности при формулировании руководящих принципов клинической практики, но и использование в качестве подобных доказательств преимущественно результатов широких эпидемиологических исследований [1].

Для авторов научных публикаций это означает то, что каждый вывод, ими сделанный, должен быть основан на убедительных аргументах; они в свою очередь должны исходить из результатов грамотно спланированного исследования, в ходе которого методы статистического анализа выбраны адекватно. Тем не менее нередко именно слабое знание теории и практики проведения статистического анализа, правил планирования клинического исследования становится ахиллесовой пятой с точки зрения всех, кто вовлечен в процесс планирования, выполнения и публикации результатов научной работы: самих исследователей (авторов), читателей, и, конечно, рецензентов и редакторов.

Большинство читателей, конечно же, знакомы с использованием описательных статистических характеристик, в частности характеристик положения (среднее, медиана) и разброса (среднеквадратическое отклонение). Тем не менее ввиду того, что объемы выборок и тип анализируемых данных могут варьировать, возникает необходимость в грамотном выборе методов статистического анализа и приводимых описательных характеристик. Именно выбор метода анализа в значительной степени определяет адекватность выводов, сделанных авторами, однако часто мы ошибаемся в этом выборе, чего не должно быть, особенно с учетом широкого распространения мощного и в то же время удобного для использования статистического программного обеспечения. Как мы упоминали выше, учет нескольких фундаментальных соображений в состоянии помочь в выборе подходящего статистического теста для проверки гипотез. Для того чтобы с успехом использовать все те огромные программные ресурсы, которые доступны сегодня, врачу-клиницисту просто необходимо знать основы и логику применения методов медицинской статистики, так как необдуманное использование пусть и столь развитых программно-технических средств не приведет к увеличению степени доказательности.

Цель данной статьи — адаптация математической логики и методологии медицинской статистики в аспекте выбора метода анализа к уровню, доступному для среднего клинициста-исследователя.

Статистическая значимость и ее интерпретация. Концепция оценки статистической значимости создана Рональдом Фишером в его публикации «Статистические методы для научных работников» (1925 г.), в которой он обосновал необходимость статистической проверки гипотез, названную «тестами значимости» [2]. Р. Фишер предложил использовать вероятность 1:20 (0,05 или 5%) в качестве удобного уровня отсечения для отклонения нулевой гипотезы или гипотезы об отсутствии статистически значимых различий между группами [3]. Показатель статистической значимости различий принято обозначать p (от англ. «probability», вероятность) или p-value — это вероятность получить такие же или большие различия наблюдаемого в данной выборке от ожидаемого при условии, что нулевая гипотеза верна [4]. В качестве иллюстрации приведем следующий пример. Представлена выборка из 78 пациентов, поступивших в отделение реанимации и интенсивной терапии (ОРИТ) с диагнозом «политравма», не имеющих тяжелых хронических заболеваний. У каждого пациента при поступлении оценивали уровень азота мочевины крови. Распределение субъектов по уровню азота мочевины представлено на рис. 1 и имеет явно выраженную симметрию: пациентов с низкими или высокими уровнями исследуемого параметра заметно меньше, чем пациентов со средним значением. Предположим, мы решили выяснить, соответствует ли среднее значение азота мочевины у пациентов с диагнозом «политравма» таковому у здоровых добровольцев (Х ммоль/л). В рамках нулевой гипотезы мы считаем, что политравма никак не влияет на изменение уровня азота мочевины в крови. В нашем исследовании оказалось, что пациенты, поступившие в ОРИТ с диагнозом «политравма», имеют более высокое среднее значение азота мочевины по сравнению со средним значением азота мочевины у здоровых добровольцев (Х ммоль/л). Но как определить, насколько статистически значимы полученные различия? Возможно ли, что мы получили наблюдаемую разницу совершенно случайно? Именно для ответа на эти вопросы и используется p-value. В нашем примере p-уровень значимости — это вероятность получить такие или более выраженные различия при условии, что никаких различий на самом деле нет. Другими словами, это вероятность получить такие же или еще более сильные различия между средним значением уровня азота мочевины у пациентов исследуемой группы и средним значением уровня азота мочевины у здоровых добровольцев при условии, что на самом деле политравма никак не влияет на уровень азота мочевины. Используя одновыборочный t-критерий Стьюдента, мы сравнили уровень параметра в группе здоровых добровольцев (Х ммоль/л) с таковым в выборке пациентов, поступивших в ОРИТ с диагнозом «политравма», и получили, что p-уровень значимости оказался равным 0,048, и поскольку p-value меньше критического уровня значимости, равного 0,05, сделали вывод о наличии статистически значимых различий: пациенты с политравмой имеют статистически значимо более высокий уровень азота мочевины в крови (рис. 1).

Рис. 1. Визуальное представление распределения здоровых добровольцев по параметру «азот мочевины».

Серым указаны наблюдаемое среднее значение для пациентов с диагнозом «политравма» и p-уровень значимости.

Fig. 1. Visual representation of distribution of healthy volunteers by the parameter «urea nitrogen».

The observed mean for patients with polytrauma and p-value are indicated in gray.

Главная сложность состоит в правильной интерпретации полученных результатов. О чем же на самом деле говорит нам полученное значение p-уровня значимости? И здесь даже специалисты со значительным опытом в анализе данных клинических исследований зачастую неверно интерпретируют значение p-value [5].

Единственной верной интерпретацией значения p-value является следующая: в нашей выборке различия между уровнем азота мочевины Х, характерным для практически здоровых добровольцев, и уровнем азота мочевины у пациентов с политравмой оказались статистически значимыми.

Для неискушенного читателя может показаться заманчивой идея иной интерпретации результатов, например, что с вероятностью 95,2% политравма является причиной повышения уровня азота мочевины, или что с вероятностью 4,8% мы ошиблись, и политравма никак не влияет на уровень исследуемого параметра. Оба эти утверждения неверны, так как, во-первых, сам факт наличия значимых различий ничего не говорит нам о причинах и следствиях, а во-вторых, по определению верно следующее: если предположить, что политравма и уровень азота мочевины не связаны, то вероятность получить такие или еще более выраженные различия составила 4,8%. Кроме того, если предположить, что полученный нами уровень значимости превысил бы 0,05, то мы не смогли бы смело утверждать, что политравма никак не влияет на уровень азота мочевины — ведь это значило бы лишь то, что на нашей выборке мы не смогли выявить значимых различий, но это не значит, что их в принципе не может быть. Таким образом, сам по себе анализ p-уровня значимости позволяет лишь констатировать наличие или отсутствие статистически значимых различий, но не оценить направление этих различий и возможные причинно-следственные связи.

Все перечисленные трудности в интерпретации p-value являются причиной того, что сам подход к оценке p-уровня значимости критикуется в научном сообществе [5—7]. Среди прочего в качестве решения проблемы предлагается использовать байесовский подход или даже изменить пороговое значение по умолчанию для статистической значимости с 0,05 на 0,005 [6]. Байесовский подход является альтернативой оценке уровня значимости, но в то же время он не противоречит традиционному подходу, а скорее, наоборот, дополняет его. Ключевым отличием является то, что традиционный (частотный) подход считает случайной величиной значение, которое нельзя спрогнозировать, не проведя определенного количества экспериментов, тогда как в байесовском подходе случайная величина — это строго определенный, детерминированный процесс, который можно спрогнозировать целиком, зная все начальные факторы, влияющие на исход [8]. Байесовский подход к оценке гипотез подразумевает расчет коэффициента Байеса (К), и если рассчитанный коэффициент К составил < 1/3, принимается альтернативная гипотеза, причем чем меньше К, тем более значимы (убедительны) различия, и предложена таблица классификации рассчитанного коэффициента Байеса [9]. Сам Р. Фишер, несмотря на его первоначальное предложение 0,05 в качестве уровня значимости, не намеревался фиксировать это пороговое значение. В своей публикации «Статистические методы и научные выводы» (1956 г.) он рекомендовал устанавливать значимые уровни в соответствии с конкретными обстоятельствами [10].

Процесс проверки статистической гипотезы. В целом методологию проверки статистической гипотезы можно представить следующими этапами:

1) выдвижение основной и альтернативной гипотез;

2) выбор статистического критерия (алгоритмы выбора метода статистического анализа будут описаны далее);

3) выбор критического уровня значимости, как представлено выше;

4) расчет статистического критерия — нахождение эмпирического значения критерия и p-уровня значимости. Если рассчитанное значение в критическую область не попадает (p>0,05), то нулевая гипотеза на уровне значимости 0,05 принимается. И, напротив, в случае, если рассчитанное эмпирически значение p составило <0,05, то принимается альтернативная гипотеза.

Выбор одномерного статистического критерия для анализа. Как уже упоминалось ранее, выбор метода статистического анализа является крайне важным этапом, и от него будут зависеть как качество анализа, так и статистическая значимость выводов исследования. Нами предложены алгоритм выбора критерия межгруппового сравнения (табл. 1) и алгоритм выбора критерия оценки взаимосвязи между параметрами (табл. 2). Для возможности использования данных алгоритмов необходимо понимать и оперировать следующими понятиями: тип признака (количественный, качественный, порядковый и т.д.), «нормальность» закона распределения данных (как показано в нашей предыдущей статье, посвященной оценке закона распределения данных, именно соответствие распределения данных нормальному закону определяет возможность применения более мощной параметрической статистики), связанность или несвязанность выборок (их зависимость и соответственно независимость) и их количество [11]. В рамках этой статьи мы ограничились лишь представлением методов одномерного статистического анализа, что подразумевает сравнение выборок лишь по одной переменной, обзор методов многомерного (мультивариантного) анализа будет представлен в следующей статье.

Таблица 1. Алгоритм выбора метода межгруппового анализа признаков

Table 1. Algorithm for choosing the method for between-group analysis

Зависимость выборок

Количество выборок

Параметрическая статистика: распределение соответствует нормальному закону

Непараметрическая статистика: распределение не соответствует нормальному закону

признак: количественный

признак: количественный или порядковый

признак: качественный

Несвязанные выборки (независимые)

Две выборки

Двухвыборочный t-критерий Стьюдента для несвязанных выборок с анализом критерия Ливиня (одновыборочный t-критерий в случае сравнения с известным средним значением)

U-критерий Манна—Уитни, критерий Уайта, критерий Ван-дер-Вадена, критерий Колмогорова—Смирнова или медианный критерий

χ2-критерий Пирсона, Z-критерий или точный критерий Фишера

Более двух выборок

Дисперсионный анализ (ANOVA) с анализом критерия Ливиня с дальнейшим попарным расчетом t-критерия Стьюдента с поправкой на множественные сравнения, критерий Ньюмена—Кейлса или критерий Даннета

H-критерий Краскела—Уоллиса с дальнейшим попарным расчетом критерия Манна— Уитни, или непараметрического варианта критерия Ньюмена— Кейлса, или критерия Даннета с поправкой на множественные сравнения

χ2-критерий Пирсона с дальнейшим расчетом четырехпольных таблиц

Связанные выборки (зависимые)

Одна выборка, одна пара связанных измерений

t-критерий Стьюдента для связанных выборок (парный критерий Стьюдента)

T-критерий Уилкоксона или G-критерий (критерий знаков)

Критерий Мак-Нимара

Одна выборка, более двух связанных измерений

Дисперсионный анализ повторных изменений (MANOVA) с дальнейшим попарным расчетом t-критерия Стьюдента для связанных выборок с поправкой на множественные сравнения, непараметрический вариант критерия Ньюмена—Кейлса или критерий Шеффе для зависимых выборок

Критерий Фридмана с дальнейшим попарным расчетом критерия Уилкоксона, или непараметрического варианта критерия Ньюмена—Кейлса, или критерия Даннета

Критерий Кокрена с дальнейшим расчетом четырехпольных таблиц

Таблица 2. Алгоритм метода оценки взаимосвязи между признаками

Table 2. Algorithm for choosing the method for correlation analysis

Тип признака, характеристика распределения данных

Критерий

Количественный признак, нормальное распределение

Коэффициент корреляции Пирсона

Количественный или порядковый признак, ненормальное распределение

Ранговые коэффициенты — коэффициенты корреляции Спирмана и Кендалла, коэффициент корреляции знаков Фехнера

Качественный признак

Коэффициент сопряженности и коэффициент ассоциации Юла

Множественный признак

Множественный коэффициент корреляции

Тип признака. Признаки отличаются как способами их измерения, так и методами их представления, что дает основания для их классификации. Все признаки, прежде всего, можно подразделить на количественные (числовые) и качественные (категориальные) [12]. Для количественных признаков их мера может быть точно определена, и они подразделяются на дискретные (могут выражаться исключительно целыми числами) и непрерывные (например, концентрация препарата). Качественные признаки же, напротив, не имеют непосредственной количественной меры и характеризуют принадлежность явления к некой определенной категории: номинальные признаки отражают простое наименование (например, пол пациента), тогда как порядковые переменные могут быть представлены в виде шкалы (например, шкала комы Глазго). Упрощенная классификация признаков (переменных) представлена на рис. 2. Тип переменной оказывает непосредственное влияние на выбор метода статистического анализа, что, кроме прочего, предоставляет исследователю возможность переводить переменные из одного типа в другой, например количественные признаки заменять порядковыми или номинальными (например, определив медианное значение параметра — гемоглобина в выборке, значения меньше медианного представить в виде символа «0», а больше медианного — «1»).

Рис. 2. Упрощенная классификация переменных, используемых в статистическом анализе.

Fig. 2. Simplified classification of variables used in statistical analysis.

Связанность выборок. Выборки можно считать независимыми (несвязанными) в том случае, если процесс эксперимента и полученные результаты измерения параметра у испытуемых одной выборки не оказывают влияния на процесс другого эксперимента с оценкой того же параметра у испытуемых (респондентов) другой выборки. И, напротив, выборки являются зависимыми (связанными), если процесс эксперимента и полученные результаты оценки одного параметра, проведенные на одной выборке, оказывают влияние на другую [13]. В качестве примера оценки независимых выборок можно представить задачу сравнения концентрации гемоглобина в крови в двух группах пациентов (контрольная выборка и выборка пациентов, получающих терапию). Напротив, задача измерения концентрации гемоглобина у одних и тех же пациентов до и после терапии подразумевает работу со связанными выборками.

Зная тип анализируемых данных, количество и связанность выборок, а также оценив закон распределения данных, исследователь получает возможность воспользоваться предложенным в табл. 1 алгоритмом выбора критерия для межгруппового сравнения.

Корреляционный анализ. Для оценки линейной взаимосвязи между переменными используется корреляционный анализ [14]. Как следует из определения корреляции, она может быть положительной, отрицательной или отсутствовать вовсе. Показателем согласованности корреляции, по значению которого можно судить как о силе, так и направлении взаимосвязи, является коэффициент корреляции «R», который может изменяться от –1 до 1 [15]. Положительное значение коэффициента корреляции означает наличие положительной взаимосвязи между признаками, и, наоборот, отрицательный коэффициент корреляции означает наличие отрицательной взаимосвязи. Существует классификация коэффициентов корреляции по силе взаимосвязи, согласно которой коэффициент корреляции R >0,7 по модулю соответствует сильной корреляции, R от 0,5 до 0,69 соответствует средней силы взаимосвязи между признаками, а R от 0,3 до 0,49 означает наличие слабой корреляции [16]. Тем не менее перечисленное выше верно лишь при p-уровне значимости корреляции <0,05, т.е. само по себе наличие коэффициента R >0,7 не говорит о наличии статистически значимой сильной положительной взаимосвязи между признаками — значимой корреляция может считаться только при p<0,05. Для того чтобы воспользоваться алгоритмом выбора метода корреляционного анализа, представленным в табл. 2, достаточно знать распределение оцениваемых признаков и их тип.

В качестве примера выбора метода корреляционного анализа по табл. 2 и интерпретации его результатов рассмотрим выборку из 135 пациентов, у которых оценивали два параметра: уровень NT-proBNP типа B (про-натрийуретический N-концевой пептид B-типа) и конечный диастолический объем (КДО) левого желудочка. Анализ критерия Колмогорова—Смирнова с поправкой Лиллиефорса показал соответствие распределения параметров нормальному закону, что в совокупности с достаточным объемом выборки делает возможным применение корреляционного анализа Пирсона. Априори исследователями предполагается наличие следующей взаимосвязи: при растяжении камер сердца выделяется NT-proBNP типа B, целью которого является расширение сосудов и увеличение натрийуреза, поэтому КДО левого желудочка, возможно, будет положительно коррелировать с уровнем NT-proBNP типа B. Рассчитанный коэффициент корреляции Пирсона оказался равным 0,569, а p-уровень значимости не превысил 0,05 (0,035), что можно интерпретировать как наличие статистически значимой, положительной средней силы взаимосвязи между уровнем NT-proBNP типа B и КДО левого желудочка.

Тем не менее корреляционный анализ не лишен недостатков, ограничивающих его реальную применимость, это обусловливает и тот факт, что зарубежные журналы все чаще требуют проведения многофакторного регрессионного анализа [17]. Одним из главных недостатков является возможность получения «ложной» корреляции, обусловленной наличием некоего третьего фактора [18]. Приведем пример: при рассмотрении статистики заболеваемости в общей популяции за 30 лет наблюдается рост числа людей с артериальной гипертензией (АГ). В то же время за тот же период выявляется рост заболеваемости остеопорозом, и, увидев наличие статистически значимой положительной взаимосвязи между частотой остеопороза и АГ за 30 лет, не рассматривая влияние других факторов, можно ошибочно заключить, что АГ каким-то образом приводит к деминерализации костных тканей. Но это и есть пресловутая «ложная» корреляция — на самом деле и рост частоты АГ, и рост частоты остеопороза коррелируют с увеличением среднего возраста населения.

Чтобы выявить влияние «третьего фактора», которым может являться как один параметр, так и целая группа факторов, существует подход к оценке «частной» корреляции. Он основан на следующих суждениях: если при фиксации некоторой случайной величины — «третьего фактора» (фиксация и означает расчет «частной» корреляции) — сила взаимосвязи между двумя анализируемыми параметрами уменьшается, то корреляция частично обусловлена воздействием этой случайной величины. А в том случае, если при фиксации некоторой величины корреляция между признаками незначима, то можно сделать вывод о том, что их взаимозависимость полностью обусловлена собственным воздействием и никак не связана с влиянием третьей величины. И, напротив, если частный корреляционный анализ позволил выявить более сильную значимую корреляцию между признаками, то можно заключить, что внешние факторы ослабили, скрыли взаимосвязь между параметрами.

Важно отметить, что корреляционный анализ не позволяет оценить причинность, иначе говоря, мы не имеем права свидетельствовать о наличии причинной связи, так как, возможно, что некая величина, не учтенная в анализе, может являться источником этой корреляции.

Заключение

На сегодняшний день на первый план в практической реализации методов статистического анализа выходит именно проблема выбора адекватного статистического критерия. Несмотря на обилие прикладных статистических программ, исследователям зачастую сложно выбрать нужный метод анализа, соответствующий условиям исследования. Не зная основ выбора критериев, врачи-клиницисты снижают значимость получаемых результатов и не полностью используют возможности статистической обработки. В настоящей статье приведены алгоритмы выбора метода одномерного статистического анализа, использование которых не требует от исследователя специальной подготовки и глубоких знаний медицинской статистики.

Авторы заявляют об отсутствии конфликта интересов.

The authors declare no conflicts of interest.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail



Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.