С.Н. Гудман
На пути к доказательной биостатистике. Часть 2: байесовский критерий

Translated, with permission of the ACP — ASIM, from: Goodman S.N. Towards evidence-based medical statistics: 1: The Bayes factor. Ann Intern Med 1999;130:1005—13.


Байесовский подход обычно рассматривают как способ переоценки научных представлений с помощью вновь полученных данных. Несмотря на то что в течение последних 20 лет байесовский анализ оставался одной из наиболее динамично развивающихся областей статистики, в медицинских исследованиях им пользуются неохотно, считая такой подход "субъективным". Лишь немногие врачи понимают, что метод Байеса можно использовать для количественной оценки доказательности данных. Ядром такого подхода служит байесовский критерий, который в простейшей его форме называют также отношением правдоподобия. Минимальный байесовский критерий представляет собой объективный показатель, способный с успехом заменить величину p. В отличие от величины p теоретическое обоснование и интерпретация байесовского критерия позволяют использовать его как в процессе проверки гипотез, так и в процессе принятия решений. Байесовский фактор показывает, что оценка данных с помощью величины p преувеличивает доказательства, опровергающие нулевую гипотезу. И самое главное, байесовский критерий подразумевает включение в анализ прошлого опыта в виде вероятности, что тот или иной вывод правилен либо ошибочен. Байесовский критерий отделяет логическое умозаключение от данных опыта и в то же время дает исследователю возможность комбинировать старую и новую информацию.

В первой части статьи, посвященной доказательной статистике [1]*, я рассказал о недостатках, присущих стандартному частотному подходу: трудностях, которые возникают при оценке сведений с помощью величины p; внутренних противоречиях комбинированного метода, который включает использование величины p и проверку гипотез и препятству ет учету внешней информации при анализе данных отдельного эксперимента. Во второй части статьи я попытаюсь доступно рассказать о байесовском подходе к оценке доказательности данных с учетом прошлого опыта и о том, что ни один статистический метод не способен дать нам абсолютную уверенность в истинности изучаемой гипотезы. Некоторые идеи, высказанные во второй части статьи, покажутся клиническим исследователям революционными, но большинство из этих идей были впервые предложены еще в 20-х годах XX столетия, а некоторые — несколько веков назад [2].

Байесовский критерий как альтернатива величине p

Байесовский подход обычно рассматривается как способ переоценки наших представлений с помощью данных опыта. Многие исследователи считают его ненаучным, поскольку они стремятся понять смысл полученных результатов, а не то, каким образом эти результаты изменят наши представления об изучаемом явлении [3]. В литературе часто можно встретить высказывания, подобные тому, которое прозвучало в ответ на предложение использовать метод Байеса для повторного анализа результатов исследования GUSTO (Global Use of Streptokinase and tPA for Occluded Coronary Arteries) [4]:

"Когда современные приверженцы байесовского подхода включают в анализ так называемое распределение априорной вероятности того, что гипотеза верна, в действительности они пытаются создать метафизическую модель переоценки своих предположений. Достоверность полученного результата… нельзя измерить объективными методами, единственным критерием служит мнение самого исследователя.…

На самом деле проблема заключается в том, что ни классические методы, ни метод Байеса не способны дать ответы на те вопросы, которые возникают у клинициста. Безусловно, классический подход к биостатистике небезупречен, но альтернативы ему нет. …" [5].

Адрес для корреспонденции: Steven N. Goodman, MD, Ph.D., John Hopkins University, 550 North Broadway, Suite 409, Baltimore, MD 21205; e-mail: sgoodman@jhu.edu.

* Первая часть статьи С.Н. Гудмана и комментарий к ней опублико ваны в предыдущем номере МЖМП (Примеч. ред.).

Эта цитата показывает, насколько распростране но заблуждение о том, что метод Байеса можно использовать только для расчета степени уверенности в истинности наших предположений. Многие даже не знают, что метод Байеса применяют для расчета доказательности данных. Формула Байеса имеет две составляющие: показатель, характеризующий данные опыта, и показатель, характеризующий степень нашей уверенности в истинности гипотезы. Сейчас я хочу обратить ваше внимание на первую составляю щую — байесовский критерий, который в простейшей его форме называют также отношением правдоподобия. Байесовский критерий, характеризующий данные опыта, обособлен от субъективной составляющей формулы. Этот критерий называют также относительными шансами, а в логарифмической форме — весом доказательства [6, 7]. Различие между доказательностью данных и вероятностью ошибки становится очевидным, если байесовский критерий (доказательство) представить в виде коэффициента, отражающего степень изменения вероятности того, что гипотеза верна (1 - вероятность ошибки), после получения данных опыта. Формула Байеса выглядит так:

ris_1.jpg (20190 bytes)

где байесовский критерий =

ris_2.jpg (23116 bytes)

Байесовский критерий показывает, насколько каждая из двух гипотез соответствует полученным данным. Та из них, которая лучше описывает данные, имеет больше доказательств в свою пользу. В отличие от величины р, использование байесовского критерия теоретически обосновано и допустимо как при проверке гипотез, так и в процессе принятия решений. Байесовский критерий позволяет связать объективную вероятность с доказательством и субъективной вероятностью и может рассматриваться со всех трех точек зрения. Предположим, что байесовский критерий равен 1/2. Смысл этого утверждения можно выразить тремя способами:

1. С точки зрения объективной вероятности: вероятность получить наблюдаемые результаты при условии справедливости нулевой гипотезы в 2 раза меньше, чем вероятность получить их при условии справедливости альтернативной гипотезы.

2. С точки зрения индуктивного доказательства: доказательство в 2 раза слабее поддерживает нулевую гипотезу, чем альтернативную.

3. С точки зрения субъективной вероятности: шансы того, что нулевая гипотеза верна по отношению к шансам того, что верна альтернативная гипотеза, после получения результатов опыта уменьшились в 2 раза.

Существует множество различий между байесов ским критерием и величиной p. Прежде всего, байесовский критерий отражает не вероятность, а отношение вероятностей, и его значение колеблется от нуля до бесконечности. Он подразумевает наличие двух гипотез, откуда следует, что, опровергая нулевую гипотезу, доказательство должно свидетельствовать в пользу альтернативной. Далее, байесовский критерий зависит только от вероятности получения результатов конкретного опыта и не учитывает необозримую "отдаленную перспективу", которую должна описать величина p. Поэтому на него не влияют факторы, которые не связаны непосредственно с полученными данными и от которых зависит величина p (например, условия прекращения эксперимента) [8, 9].

Поскольку мы по привычке считаем, что убедительность доказательства и вероятность ошибки — одно и то же, нам трудно оперировать мерой убедительности доказательства, если она не является вероятностью. Смысл байесовского критерия проще понять, если сравнить его с понятием энергии. Энергия реальна, но сама по себе не поддается наблюдению, поэтому ее измеряют косвенно: по нагрева нию или охлаждению вещества, подъему груза на определенную высоту, световому потоку. Именно по производимым энергией эффектам ее можно оценить количественно. Также действует и байесовский критерий. Он изменяет априорные (претестовые*) вероятности, и по степени их изменения мы видим, какова степень доказательности данных — высокая или низкая.

* В медицинских исследованиях вместо терминов "априорный" и "апостериорный" иногда используют термины "претестовый" и "послетестовый", особенно если речь идет о диагностических исследованиях (Примеч. ред.).

В табл. 1 показано, как разные значения байесов ского критерия по-разному влияют на априорные вероятности нулевой гипотезы. Вероятность справедливости нулевой гипотезы составляет 90, 50 и 25%, что соответствует высокой степени уверенности в ее справедливости, сомнениям в ее истинности и определенным подозрениям в том, что она неверна. В первом случае (априорная вероятность справедливости нулевой гипотезы 90%) байесовский критерий, равный 1/10, заставит исследователя сомневаться в истинности нулевой гипотезы (апостериорная вероятность справедливости нулевой гипотезы 47%), а во втором случае (априорная вероятность справедливости нулевой гипотезы 50%) то же значение байесовского критерия сместит отношение к нулевой гипотезе в область подозрений в том, что она неверна (9%). Байесовского критерия, равного 1/100, вполне достаточно, чтобы уменьшить вероятность справедливости нулевой гипотезы с 90% (перед проведением опыта) до 8% (после завершения опыта).

По мере увеличения доказательности данных скептик начинает верить, а предварительная гипотеза превращается в общепризнанный факт. Иными словами, чем весомее имеющееся доказательство, тем меньше новой внешней информации нужно для подтверждения гипотезы. И наоборот, чем меньше такой информации свидетельствует об истинности гипотезы, тем убедительнее должно быть доказательство, чтобы гипотеза выглядела правдоподобной. Этот феномен мы наблюдаем в своей ежедневной практике, когда врачи не желают признавать результаты клинических испытаний, которые противоречат укоренившимся представлениям [10, 11].

tab_1.jpg (55546 bytes)

Байесовский критерий и мета-анализ

Есть два довода в пользу применения байесовского критерия. Во-первых, с его помощью можно точно измерить доказательность количественных данных (чуть позже мы остановимся на этом свойстве подробнее). Во-вторых, байесовский критерий позволяет комбинировать и обобщать данные, полученные в ходе разных экспериментов. Для того чтобы понять это свойство байесовского критерия, мы должны обратиться к теоретическим основам байесовского подхода [12—14].

Если полученные данные не исключают гипотезу, можно сказать, что они в той или иной степени подтверждают ее. Эта степень пропорциональна вероятности получения указанных данных при условии справедливости рассматриваемой гипотезы и называется правдоподобием гипотезы. Не следует путать термины "правдоподобие" и "вероятность" [12, 13]. В математике правдоподобия обладают неким смыслом только тогда, когда сравниваются друг с другом. В результате получают отношение правдоподобия, которое показывает, насколько данные подтверждают каждую из сравниваемых гипотез. Отношение правдоподобия представляет собой простейшую форму байесовского критерия.

Гипотеза, которая наилучшим образом соответствует полученным данным, характеризуется наибольшим отношением правдоподобия, т.е. с наибольшей вероятностью предсказывает получение этих данных. Если в группе вмешательства количество излеченных больных на 10% больше, чем в группе контроля, максимальным правдоподобием будет характеризоваться та гипотеза, которая предполагает, что истинное различие между группами в выраженности эффекта составляет 10%. Другими словами, какой бы эффект мы ни исследовали, данные наилучшим образом описывают гипотезу о том, что неизвестный истинный эффект равняется наблюдаемому. Наблюдаемые различия в 10% поддерживают и гипотезу о существовании 15% различий, хотя и в меньшей степени, чем гипотезу о существовании 10% различий (правдоподобие гипотезы о существовании 15% различий будет меньше максимального, см. рисунок).

По сравнению со стандартными статистическими методами байесовский подход, подразумевающий, что результаты каждого исследования представ ляют собой более или менее убедительное доказательство в пользу каждой из выдвинутых гипотез, облегчает мета-анализ и поднимает его на принципиально новый уровень. Задача исследователя состоит в объединении доказательств, полученных во всех включенных в мета-анализ исследованиях, для каждой из гипотез. При использовании логарифма байесовского критерия (логарифма отношения правдоподобия) это действие сводится к простому сложению [15—17].

Мета-анализ, основанный на стандартных статистических методах, заключается в вычислении взвешенного среднего размера эффекта. Вес, присваиваемый отдельному исследованию, зависит от точности определения величины изучаемого эффекта. Предположим, что в одном исследовании различия между группами составили 10%, а в другом — 20%. Вычисляем среднее значение различий и суммируем стандартные ошибки. На основании полученных данных рассчитываем величину p для обобщенного эффекта, которая отражает статистическую значимость результата мета-анализа. Это значение величины p практически не связано со значениями величины p в отдельных исследованиях, а усреднение величины эффекта затрудняет понимание того, что оба эксперимента свидетельствуют в пользу одной и той же гипотезы — гипотезы о существовании 15% различий. Хотя в обоих исследованиях это значение находится внутри доверительных интервалов, ситуация не меняется ни в количественном, ни в концептуальном отношении. Вот почему, сколько бы сторонники стандартных статистических методов ни говорили о суммировании данных, полученных в сходных исследованиях, эти методы не позволяют оценить степень доказательности обобщенного результата.

Рисунок. Расчет байесовского критерия для нулевой гипотезы (различия между группами в доле излеченных отсутствуют) и двух альтернативных гипотез — гипотезы с максимальным правдоподобием (различия между группами составляют 10%, D=10%) и гипотезы с правдоподобием меньше максимального (различия между группами составляют 15%, D=15%). Разделив правдоподобие нулевой гипотезы (L0%) на правдоподобие гипотезы, которая наилучшим образом соответствует полученным данным (L10%), получаем величину минимального отношения правдоподобия, или минимального байесовского критерия, представляющего собой самое убедительное доказательство против нулевой гипотезы. Соответствующий показатель для гипотезы D=15% будет выше, что свидетельствует о меньшей убедительности доказательства против нулевой гипотезы.

Байесовский критерий и величина p

Если заменять величину p байесовским критерием, то можно установить коэффициент пересчета старой величины в новую. С известными допущениями мы можем это сделать. Чтобы сравнение было правомерным, и байесовский критерий, и величина p должны быть рассчитаны для одной и той же гипотезы. Поскольку величину p вычисляют на основании наблюдаемых различий между группами, байесовский критерий определяют для той гипотезы, которая наилучшим образом соответствует полученным данным или, как уже отмечалось раньше, имеет больше доказательств в свою пользу. Чем меньше величина p, тем меньше данных свидетельствует в пользу нулевой гипотезы (т.е. больше доказательств против нее), поэтому байесовский критерий нужно выразить таким образом, чтобы наименьшее его значение соответствовало бы самой слабой поддержке нулевой гипотезы. Для этого правдоподобие нулевой гипотезы ставят в числитель, а правдоподобие альтернативной гипотезы — в знаменатель формулы для расчета байесовского критерия (в зависимости от особенностей задачи исследователь может располагать правдоподобие нулевой гипотезы в числителе или в знаменателе). В результате мы получим величину, обратную максимальному отношению правдоподобия, которую иногда называют стандартизованным правдоподобием. При этом минимальный байесовский критерий (минимальное отношение правдоподобия) представляет собой самое слабое доказательство в пользу нулевой гипотезы (и самое сильное доказательство против нее). Этот показатель наилучшим образом подходит для сравнения с величиной p.

Самая простая зависимость между величиной p и байесовским критерием наблюдается при условии, что статистические критерии основаны на нормальном (гауссовом) распределении. Именно такие критерии чаще всего применяют в медицинских исследованиях. При нормальном распределении изучаемой величины минимальный байесовский критерий (минимальное отношение правдоподобия) рассчитывают с помощью тех же показателей, что и величину p [13, 18, 19] (приведенная ниже формула выводится в Приложении 1):

Минимальный байесовский критерий = е-Z2/2, где z — отклонение от нулевого эффекта (в стандартных отклонениях).

Рассчитывать байесовский критерий по этой формуле можно также при использовании критерия Стьюдента (вместо z подставляют t) или хи-квадрат (вместо z2 подставляют c2). При обработке данных исходят из предположения, что они получены в ходе эксперимента с фиксированным размером выборки.

Приведенная формула позволяет получить коэффициент пересчета между величиной p и байесовским критерием. В табл. 2 приводятся значения минимального байесовского критерия и величины p для заданного значения z. Так, при отклонении от нулевого эффекта, равном 1,96 стандартного отклонения (что соответствует р=0,05), минимальный байесовский критерий равен 0,15. Это означает, что доказательства в пользу нулевой гипотезы составляют лишь 15% от доказательств в пользу самой вероятной гипотезы. Байесовский критерий превышает величину p в 3 раза, т.е. свидетельство против нулевой гипотезы не так весомо, как можно было бы предположить по величине p=0,05.

Даже если исследователи признают пограничную статистическую значимость результата, характеризующегося p=0,05, само значение 0,05 по устоявшейся традиции воспринимается как убедительное доказательство против нулевой гипотезы. Но приведенные расчеты указывают на то, что при p=0,05 (т.е. минимальном байесовском критерии 0,15) убедительность доказательства, свидетельствующего против нулевой гипотезы, в лучшем случае умеренная, при p от 0,001 до 0,01 — от умеренной до высокой, при p меньше 0,001 — от высокой до очень высокой. При очень маленьком значении величины p разница между ней и минимальным байесовским критерием теряет свое значение, что подтверждает известную истину о том, что убедительное доказательство всегда остается убедительным, независимо от формы, в которой оно представлено.

В табл. 2 приведено влияние данных, характери зующихся разными значениями величины p, и минимального байесовского критерия на вероятность справедливости нулевой гипотезы. Если до проведения эксперимента эта вероятность оценивалась в 50%, то после получения данных, характеризующихся минимальным байесовским критерием 0,15 (что соответствует p=0,05), эта вероятность снизится до 13%. Каждая третья строка таблицы показывает, какой должна быть априорная вероятность для получения 5% апостериорной вероятности справедливости нулевой гипотезы (что соответствует 95% вероятности существования ненулевого эффекта). Для получения такого результата при p=0,05 (байесовский критерий і0,15) априорная вероятность справедливости нулевой гипотезы не должна быть выше 26%. Перечисленное не означает, что метод Байеса придает какое-то особое значение 95% вероятности. Это значение было выбрано лишь для того, чтобы сравнить результаты применения двух методов при использовании одной и той же "точки отсчета".

tab_2.jpg (52543 bytes)

На примере этих двух таблиц читатель может убедиться в том, что многие исследователи знают из собственного опыта, а статистики — по долгу их службы: доказательность данных, свидетельствующих против нулевой гипотезы, значительно меньше, чем можно было бы предположить на основании величины p. Именно поэтому повторный анализ результатов многих клинических испытаний с помощью метода Байеса свидетельствует о недостоверности выявленных ранее различий [4, 20, 21]. Это не всегда связано с тем, что доказательства, полученные в ходе испытаний, противоречат результатам предыдущих исследований — просто при правильном анализе данных эти доказательства оказываются менее убедительными. По той же самой причине следует прислушаться к мнению многих экспертов и, проводя мета-анализ, считать границей статистической значимости разницу между наблюдаемым и нулевым эффектом не в два стандартных отклонения, а больше [22, 23].

Разработка теоретических основ рассматриваемых в данной статье методов началась уже давно. Э. Эдвардс [2] нашел упоминания о правдоподобии в трудах математиков XVIII века, хотя определение и обоснование это понятие получило только в 20-х годах XX столетия, в частности в теории Р. Фишера о максимальном правдоподобии. Эта теория строилась на частотном подходе к статистике, а ее автор признал важность правдоподобия для построения логического умозаключения лишь спустя многие годы [24]. Э. Эдвардс [14] и Р. Ройял [13] развили некоторые идеи Р. Фишера, используя основанные на правдоподобии критерии оценки доказательности данных вне рамок байесовского подхода. Г. Джеффрис [25] и И. Гуд [6] одними из первых теоретически обосновали применение байесовского критерия, а Р. Касс [26] недавно опубликовал наиболее полный обзор на эту тему. Предложение использовать минимальный байесовский критерий (т.е. минимальное отношение правдоподобия) для анализа и сравнения данных впервые прозвучало в медицинской литературе в 1963 г. [19]. В следующем разделе мы рассмотрим ситуации, когда байесовский критерий не идентичен отношению правдоподобия.

Байесовский критерий и сложные гипотезы

Можно рассчитать не только минимальный байесовский критерий, но и критерии, превышающие его [20, 25—27]. Неспециалистам трудно понять, зачем нужны эти показатели и чем они отличаются от обычных отношений правдоподобия, но я попытаюсь объяснить это хотя бы на качественном уровне.

По определению байесовский критерий есть отношение вероятностей получить тот результат, который мы наблюдали, при условии справедливости одной и другой гипотезы. Одна гипотеза обычно состоит в отсутствии различий (нулевая гипотеза). Альтернативная гипотеза может быть выражена по-разному, например "доля излеченных больных в группе вмешательства больше на 15%". Такие гипотезы называют простыми, потому что они подразумевают наличие конкретных различий в выраженности эффекта. И нулевая, и наиболее вероятная гипотезы относятся к разряду простых.

Ситуация усложняется, если сформулировать гипотезу привычным для нас образом, например "истинный эффект отличается от нулевого" или "лечение приносит пользу". Такие гипотезы называются сложными, или составными, потому что они состоят из множества простых гипотез: "истинный эффект отличается от нулевого на 1, 2, 3% и т.д." При расчете байесовского критерия для подобных гипотез необходимо рассчитать вероятность того, что различие между группами составляет 1, 2, 3% и т.д. В таких случаях байесовские критерии не идентичны отношениям правдоподобия, ибо последние обычно используют для сравнения простых гипотез, а байесовский критерий и теорема Байеса позволяют оценить доказательность данных, свидетельствующих в пользу сложной гипотезы.

Теорема Байеса для сложных гипотез подразумевает расчет вероятностей получить наблюдаемый эффект при условии справедливости каждой из простых гипотез, входящих в состав сложной, по отдельности (различие равно 1%, различие равно 2% и т.д.) с последующим расчетом среднего значения. При расчете последнего вес отдельных составляющих можно определять по-разному. Согласно теореме Байеса, для этого используется кривая распреде ления априорных вероятностей, которую рассчитывают исключительно на основании внешней (не зависящей от результатов данного исследования) информации. Поскольку априорные вероятности по данным разных исследователей могут быть разными, на основании одних и тех же данных можно рассчитать разные байесовские критерии.

Разные вопросы — разные ответы

Если на основании одних и тех же данных получают различные байесовские критерии, логично будет предположить, что объективно измерить доказательность данных с помощью метода Байеса все-таки невозможно. Но при более глубоком рассмотрении становится понятным, что это противоречие — отражение более общей проблемы, связанной с разным подходом к формированию выводов на основании имеющейся информации. Разный вес, приписываемый простым гипотезам, составляющим сложную, совсем не означает того, что на один и тот же вопрос получают разные ответы, ведь и вопрос ставят по-разному. Так, предлагая единственную альтернативную гипотезу о различии в выраженности эффекта, равном 5%, мы должны ответить на вопрос, насколько данные соответствуют этой гипотезе. Предполагая равную вероятность справедливости всех гипотез о существовании различий в диапазоне от 5 до 20%, мы должны будем рассчитать среднюю доказательность данных, свидетельствующих в пользу этих гипотез. И вопрос, и ответ в этом случае будут отличаться от тех, которые были бы поставлены (и получены) при различиях в диапазоне от 1 до 25%, хотя во всех приведенных примерах различия не равны нулю.

Таким образом, проблема выбора единственного байесовского критерия (и, следовательно, определения единственного уровня доказательности данных) объясняется не недостатками байесовского подхода, а нечеткостью тех задач, которые мы ставим. Вопрос о доказательности данных, свидетельствующих в пользу существования ненулевых различий, слишком размыт, поскольку единственного различия, не равного нулю, не существует. Таких различий множество, и внешней информации обычно недостаточно для того, чтобы рассчитать априорную вероятность каждого из них. Это означает, что мы не знаем заранее, какого различия ожидать в случае, если вмешательство окажется эффективным. Можно строить догадки, но они будут разными у разных исследователей, потому что исследователи пользуются разными источниками внешней информации и по-разному оценивают одни и те же данные. Ситуация упростилась бы, если бы существовали универсальные правила, согласно которым можно было бы обоснованно присваивать каждой гипотезе ту или иную вероятность. Мы подошли к тому, что основной вопрос биостатистики ("Что есть доказательность данных?") имеет непосредственное отношение к главной и до сих пор не решенной проблеме современной науки ("Как объяснить полученные данные?").

Так как же интерпретировать данные и делать выводы, обладая недостаточными фундаментальными знаниями? Ни один из имеющихся подходов к количественному статистическому анализу, будь то уклонение от ее решения (рассмотрение результатов серии экспериментов при проверке гипотез), качественная оценка внешней информации (рекомендации Р. Фишера по использованию величины p) или схематическое, неточное представление такой информации (метод Байеса), не дает ответа на этот вопрос.

Варианты решения проблемы

Понимая, что доказательность данных приходится оценивать даже в отсутствие достаточной внешней информации, приверженцы байесовского подхода предлагали различные пути решения этой проблемы. Пожалуй, самый простой из них — анализ чувствительности, который подразумевает использование байесовских критериев для нескольких кривых распределения априорных вероятностей, отражающих отношение к вмешательству энтузиастов, колеблющихся и скептиков [28, 29]. Анализ чувствительности тесно связан с другим подходом, который заключается в расчете минимального байесовского критерия для множества кривых распределения априорных вероятностей [30]. Данный показатель, подобно минимальному байесовскому критерию в условиях нормального распределения, хорошо коррелирует с величиной p [31]. Можно также использовать кривые распределения, подразумевающие равную априорную вероятность всех простых гипотез, составляющих сложную [25, 26, 32]. При этом влияние на результат внешней информации (распределение априорных вероятностей) будет минимальным. Р. Касс предложил использовать специальный показатель — байесовский показатель информативности. Он напоминает минимальный байесовский критерий, рассчитанный с учетом размера выборки [26]. И наконец, можно следовать путем, описанным в данной статье: вообще ничего не усреднять, а публиковать значение байесовского критерия, представляющее собой самое убедительное доказательство против нулевой гипотезы.

За пределами нулевой гипотезы

Многие специалисты в области статистики и медицины отмечали, что вопрос об истинности нулевой гипотезы надуман, так как полная равноценность исследуемых методик маловероятна и к тому же перед исследователем встает много других, более интересных вопросов. Метод Байеса позволяет ответить на многие из них, например на вопрос "Какие доказательства существуют в пользу того, что новый метод вреден (а не просто равен по эффективности старому)?". При этом доказательство строится иначе, чем было описано выше, ибо следует учесть все варианты, соответствующие отсутствию положительного эффекта лечения. Нулевая гипотеза превращается из простой (различие=0) в сложную (различие Ј0), а односторонняя величина p при соблюдении определенных условий приближается к байесовскому критерию [33, 34]. Так, если для положительного эффекта лечения получена односторонняя величина p=0,03, а исходные вероятности отрицательного эффекта любой выраженности заранее установлены на том же уровне, что и вероятности положительного эффекта любой выраженности, то при сравнении гипотез о пользе и вреде лечения байесовский критерий составит приблизительно 0,03, а при сравнении гипотез об отсутствии эффекта и о положительном эффекте — 0,095 (см. табл. 2).

Объективность минимального байесовского критерия

Минимальный байесовский критерий представ ляет собой индивидуальную характеристику данных, которая по меньшей мере так же объективна, как величина p. На самом деле минимальный байесовский критерий более объективен, поскольку он не зависит от гипотетических результатов последующих экспериментов, которые часто затрудняют интерпретацию величины p. В первой части статьи я приводил пример, когда на основании одних и тех же данных были рассчитаны совершенно разные величины p (0,03 и 0,11), поскольку исследователи по-разному представляли себе результаты гипотетических повторных экспериментов [1]. В Приложении 2 приведен расчет минимального байесовского критерия для каждого из этих исследований, который будет одинаковым (0,23). Это лишний раз свидетельствует о том, что оценка доказательности данных, свидетельствующих против нулевой гипотезы, с помощью величины p не только преувеличена, но и вступает в противоречие с нашими представлениями об одинаковой доказательности одинаковых данных.

Этот пример помогает понять две проблемы, характерные для частотного подхода: множественные сравнения и повторное изучение накопленных данных. С точки зрения частотного подхода эти проблемы разрешаются путем коррекции величины p. Очевидно, что манипуляции с инструментом для оценки доказательности данных по соображениям, которые не имеют никакого отношения к природе этих данных, ненаучны [8, 35—40], ставят под сомнение широко разрекламированную "объективность" величины p и ограничивают свободу ученого при планировании эксперимента. С точки зрения байесовского подхода эти проблемы связаны не с различиями в структуре исследований (причины прекращения эксперимента), а с недостаточностью внешней информации, и решаются иначе. На практике это означает более гибкие структуру исследования и отношение к анализу данных [42].

Внешняя информация

Противники байесовского подхода критикуют способ представления внешней информации — распределение априорных вероятностей — за то, что оно выражает мнение исследователя. В идеале это мнение должно быть основанным на доказательствах. Эти доказательства могут включать все те сведения, которые обычно приводятся в разделе "Обсуждение результатов", но не входят в формальный анализ количественных данных. Исследователь не обязан располагать всей имеющейся внешней информацией до начала эксперимента. Внешняя информация включает:

1) результаты исследований по той же тематике;

2) результаты исследований, в которых изучались сходные биологические механизмы;

3) результаты лабораторных исследований, посвященные природе изучаемого явления;

4) результаты исследований, если эти результа ты могут иметь ту же природу;

5) сведения о промежуточных исходах, которые наблюдались в данном эксперименте и свидетельствуют в пользу предложенной гипотезы;

6) клиническую информацию, полученную у других больных с тем же заболеванием или при других вмешательствах с тем же механизмом действия.

Только первый из перечисленных компонентов подразумевает простое сравнение или суммирование результатов, как при мета-анализе. Все прочие виды внешней информации предполагают ту или иную форму экстраполяции причинно-следственных связей. При включении в анализ байесовского критерия становится очевидным, что только таким путем можно делать выводы на основании результатов статистического анализа.

Использование байесовского критерия

Для того чтобы понять, каким образом можно использовать минимальный байесовский критерий для интерпретации и представления данных, мы рассмотрим два утверждения, взятые из гипотетических статей (раздел "Результаты исследования").

Гипотетическое утверждение 1

Различия в эффективности фитотерапевтического препарата и плацебо при лечении мигрени статистически незначимы (54 и 40%, 95% доверительный интервал для различий составил от —2 до 30%; р=0,09).

Первый пример интерпретации данных по методу Байеса. При р=0,09 (z=1,7) минимальный байесовский критерий для нулевой гипотезы составит е—1,72/2=1/4. Это означает следующее: полученные данные снижают вероятность того, что нулевая гипотеза верна, не более чем в 4 раза. Свидетельства в пользу эффективности препарата нельзя считать убедительными, поскольку для получения 5% апостериорной вероятности истинности нулевой гипотезы ее априорная вероятность (определенная на основании внешней информации) не должна превышать 17%. Однако внешняя информация состоит лишь из отдельных сообщений об эффективности данного фитотерапевтического препарата, а предположения относительно механизма его действия отсутствуют. Таким образом, априорные доказательства истинности альтернативной гипотезы малоубедительны и не позволяют снизить априорную вероятность нулевой гипотезы до уровня менее 50%. Доказательность данных, полученных в ходе исследования, недостаточна для того, чтобы сделать вывод об эффективности фитотерапевтического препарата от мигрени.

Второй пример интерпретации данных по методу Байеса. … Для получения 5% апостериорной вероятности истинности нулевой гипотезы ее априорная вероятность (полученная на основании внешней информации) не должна превышать 17%. Известно, что действующий компонент изучаемого препарата входит в состав других препаратов, которые эффективны при мигрени, а эксперименты на животных и здоровых добровольцах выявили сходное вазоактивное действие изучаемого препарата. В ходе трех неконтролируемых исследований отмечалась сходная выраженность эффекта (50—60%), а первое же небольшое рандомизированное испытание показало статистически значимое преимущество фитотерапевтического препарата по сравнению с плацебо (60 и 32%; р=0,01). Учитывая предполагаемый механизм действия и результаты предыдущих исследований, мы можем установить априорную вероятность справедливости нулевой гипотезы на уровне от 15 до 25%. Доказательность полученных данных достаточна для того, чтобы снизить вероятность справедливости нулевой гипотезы до 4—8%. Таким образом, результа ты рассматриваемого исследования в сочетании с внешней информацией позволяют сделать вывод об эффективности фитотерапевтического препарата при мигрени.

Гипотетическое утверждение 2

При изучении связи между переливанием крови и 50 клиническими исходами обнаружено увеличение частоты возникновения рака носоглотки (относительный риск составил 3,0; р=0,01).

Интерпретация данных по методу Байеса. Минимальный байесовский критерий для сравнения гипотезы о том, что относительный риск развития рака носоглотки равен 1,0, и гипотезы о том, что он не равен 1,0, составляет 0,036. Доказательность данных достаточна для того, чтобы снизить вероятность нулевой гипотезы с 59% перед началом исследования до 5% после его окончания. Однако внешняя информация о существовании связи между переливанием крови и возникновением рака носоглотки, как и теоретическое объяснение такой связи, отсутствует. Кроме того, частота развития других злокачественных опухолей со сходными факторами риска и молекулярными механизмами после переливания крови не повышается. Следовательно, патогенез рака носоглотки у больных, перенесших переливание крови, должен быть иным. В исследованиях, посвященных переливанию крови, подобной связи не обнаружено. У больных, которым неоднократно переливали донорскую кровь, повышенной заболеваемости раком носоглотки не отмечено. Поэтому вероятность нулевой гипотезы до проведения исследования должна значительно превышать 60%. При минимальном байесовском критерии 0,036 и априорной вероятности нулевой гипотезы 85 или 95% ее апостериорная вероятность составит не менее 17 или 41% соответ ственно. Данных этого исследования недостаточно для того, чтобы сделать вывод о повышении риска развития рака носоглотки после переливания крови. Возможно, дальнейшие исследования прольют свет на этот вопрос.

Обсуждение

Возможности интерпретации данных в соответствии с байесовским подходом далеко не исчерпываются приведенными примерами. С помощью распределений априорных вероятностей можно определять диапазон значений байесовских критериев, использовать экспертную оценку этих вероятностей [29, 43, 44]. Следует отметить, что доказательность данных по методу Байеса можно рассчитать на основании той же информации, которая применяется для расчета величины p и доверительных интервалов. При этом совсем необязательно иметь сложное программное обеспечение или богатый опыт в области математической статистики. Нужно только убедиться, что в конкретном случае применимы условия нормального распределения. Если они не применимы, можно воспользоваться одной из множества стандартных статистических программ, позволяющих определить ту или иную функцию правдоподобия и на ее основании вычислить минимальный байесовский критерий. Последний не зависит от априорных вероятностей, что немаловажно для тех исследователей, которые предпочитают использовать "объективные" статистические методы.

Самое важное в приведенных примерах то, что они демонстрируют, каким образом инструмент для оценки доказательности данных отделяет выводы от результатов статистического анализа и одновременно логически связывает их. В первом примере наглядно показано, что на основании одних и тех же результатов можно сделать диаметрально противоположные выводы. Недвусмысленность хода обсуждения в обоих случаях наводит на мысль о той роли, которую играет внешняя информация. Как уже отмечалось в первой части статьи, стандартные методы статистической обработки данных принижают эту роль, поскольку не учитывают внешнюю информацию при интерпретации величины p и доверительных интервалов.

На примере гипотетических утверждений видно, как с помощью минимального байесовского критерия можно провести несложный расчет пограничного значения вероятности, не углубляясь в распределение априорных вероятностей. Затем на основании внешней информации определяют, выше или ниже пограничной величины априорная вероятность нулевой гипотезы. Если самого убедительного доказательства, свидетельствующего против нулевой гипотезы (минимальный байесовский критерий), недостаточно для того, чтобы ее отвергнуть, очевидно, что недостаточным будет и менее убедительное доказательство (ряд байесовских критериев для различных альтернативных гипотез).

Использование минимального байесовского критерия вовсе не исключает проведения полного байесовского анализа. О проведении такого анализа и представлении его результатов можно прочитать в недавно опубликованных статьях и книгах по биостатистике [21, 29, 45—50]. На основании байесовского анализа может строится и формальный анализ принятия решений [51]. Теперь, когда появились удобные компьютерные программы для проведения байесовского анализа [52], использование этого метода значительно упростилось.

Если не учитывать распределение априорных вероятностей, минимальный байесовский критерий можно рассматривать как компромисс между традиционным частотным и байесовским подходами. Минимальный байесовский критерий может стать объектом критики представителей обеих школ биостатистики. Некоторые из них назовут его переименованной величиной p. Но, как я уже отмечал, величина p и байесовский критерий — это не просто числа. Используя ту или иную форму байесовского критерия, исследователь освобождается от порочных концепций и неправильного восприятия научных методов, связанных с величиной p.

Подводя итоги: нужны оба подхода, но без величины p

При использовании частотного подхода наибольшую трудность представляет формирование выводов на основании результатов отдельного эксперимента: отрицание роли внешней информации создает серьезные практические и логические проблемы. Однако метод Байеса, предложенный для индуктивной обработки данных отдельного эксперимента, тоже не гарантирует, что выводы, в которых сегодня исследователь уверен на 95%, будут заслуживать такого же доверия завтра [53]. Дело в том, что распределение априорных вероятностей не лучшим образом отражает наши знания (или недостаток знаний) [54, 55], а теорема Байеса представляет собой несовершенную модель познания [54, 56]. Иными словами, мы не можем полностью отказаться от частотного, перспективного взгляда, о чем писали многие статисти ки, которые подчеркивали важность оценки результатов баейсовского анализа и других методов определения правдоподобия с помощью частотных критериев (этим критериям названные методы обычно вполне соответствуют) [6, 13, 32, 53].

В заключение хочется повторить, что в статистике, как и в жизни, нет и не может быть методов, позволяющих оценить конкретную ситуацию и одновременно предсказать, каким образом изменится наше отношение к этой ситуации в будущем. Ни величина p, ни проверка гипотез не в состоянии связать выводы, сделанные в отдельном эксперименте, с числом ошибок, которые будут допущены в серии исследований. Эту связь можно выявить, только оценив доказательность данных с помощью байесовского критерия и объединив ее со всей имеющейся информацией по данному вопросу. До сих пор нет точных рецептов, каким образом следует обрабатывать внешнюю информацию и заставить ее говорить языком цифр. Этот вопрос заслуживает самого пристального изучения.

Сэр Фрэнсис Бэкон, писатель и философ, одним из первых обосновавший научное применение индукции, так высказался о двух возможных подходах к явлениям окружающего мира: "Если мы начнем с исходно известного, мы закончим сомнения ми. Лишь осознавая свои первоначальные сомнения и упорствуя в них, человек в конце концов постигает истину" [57]. Эта цитата применима и к двум статистическим подходам, описанным в данной статье. Частотный подход, лишенный величины p, и байесовский подход дополняют друг друга. Поиск равновесия между требованиями этих методов, порой противоречащими друг другу, делает процесс познания творческим, интересным, непредсказуемым и, самое главное, человечным.

Приложение 1

Вычисление минимального байесовского критерия при нормальном распределении. Правдоподобие гипотезы о наличии эффекта x прямо пропорционально вероятности наблюдать эффект x при условии справедливости этой гипотезы. При нормальном распределении вероятность наблюдать эффект x равна:

 ris_4_1.jpg (12316 bytes)

где m — истинное среднее, s — стандартное отклонение, символ Ѕ- после x означает "при условии".

Поскольку экспонента возводится в отрицательную степень, вероятность максимальна, если показатель экспоненты равен нулю, т.е. m=x (истинное среднее равно наблюдаемому эффекту). Отношение правдоподобия нулевой гипотезы (m=0) и наиболее вероятной альтернативной гипотезы (m=х) и есть минимальный байесовский критерий:

ris_4.jpg (17088 bytes)

Преобразуем формулу с учетом того, что z=x/s:

ris_5.jpg (11588 bytes)

Приложение 2

В первой части статьи приводится пример, когда два исследователя сравнивали у одних и тех же больных два метода лечения А и Б. Исследователи по-разному спланировали эксперимент: первый собирался наблюдать группу из 6 больных, а второй — прекратить опыт, когда будет показано преимущество метода Б. Метод А был более эффективным в первых 5 случаях, метод Б — в последнем случае. Вероятность получения этих данных согласно двум гипотезам такова.

Нулевая гипотеза: вероятность того, что метод А эффективнее метода Б, равна 1/2.

Альтернативная гипотеза: вероятность того, что метод А эффективнее метода Б, равна 5/6.

При обследовании всех 6 больных отношение этих вероятностей составит:

ris_6.jpg (12390 bytes)

Первый элемент произведения равен 6, потому что преимущество лечения Б могло наблюдаться у любого из 6 больных, не влияя на ход рассуждений.

При прекращении исследования, когда будет показано преимущество метода Б, отношение вероятностей составит:

ris_7.jpg (12277 bytes)


Литература

1. Goodman S.N. Toward evidence-based medical statistics. 1: The P value fallacy. Ann Intern Med 1999;130:995—1004.

2. Edwards A. A History of Likelihood. International Statistical Review 1974;42:9—15.

3. Fisher L.D. Comments on Bayesian and frequentist analysis and interpretation of clinical trials. Control Clin Trials 1996;17:423—34.

4. Brophy J.M., Joseph L. Placing trials in context using Bayesian analysis. GUSTO revisited by Reverend Bayes. JAMA 1995;273:871—5.

5. Browne R.H. Bayesian analysis and the GUSTO trial. Global Utilization of Streptokinase and Tissue Plasminogen Activator in Occluded Coronary Arteries [Letter]. JAMA 1995;274:873.

6. Good I. Probability and the Weighing of Evidence. New York: Charles Griffin; 1950.

7. Cornfield J. The Bayesian outlook and its application. Biometrics 1969;25:617—57.

8. Berger J.O., Berry D.A. Statistical analysis and the illusion of objectivity. American Scientist 1988;76:159—65.

9. Berry D. Interim analyses in clinical trials: classical vs. Bayesian approaches. Stat Med 1985;4:521—6.

10. Belanger D., Moore M., Tannock I. How American oncologists treat breast cancer: an assessment of the influence of clinical trials. J Clin Oncol 1991;9:7—16.

11. Omoigui N.A., Silver M.J., Rybicki L.A., Rosenthal M., Berdan L.G., Pieper K., et al. Influence of a randomized clinical trial on practice by participating investigators: lessons from the Coronary Angioplasty Versus Excisional Atherectomy Trial (CAVEAT). CAVEAT I and II Investigators. J Am Coll Cardiol 1998;31:265—72.

12. Goodman S.N., Royall R. Evidence and scientific research. Am J Public Health 1988;78:1568—74.

13. Royall R. Statistical Evidence: A Likelihood Primer. Monographs on Statistics and Applied Probability, #71. London: Chapman and Hall; 1997.

14. Edwards A. Likelihood. Cambridge, UK: Cambridge Univ Pr; 1972.

15. Goodman S.N. Meta-analysis and evidence. Control Clin Trials 1989;10:188—204, 435.

16. Efron B. Empirical Bayes methods for combining likelihoods. Journal of the American Statistical Association 1996;91:538—50.

17. Hardy R.J., Thompson S.G. A likelihood approach to meta-analysis with random effects. Stat Med 1996;15:619—29.

18. Berger J. Statistical Decision Theory and Bayesian Analysis. New York: Springer-Verlag; 1985.

19. Edwards W., Lindman H., Savage L. Bayesian statistical inference for psychological research. Psychol Rev 1963;70:193—242.

20. Diamond G.A., Forrester J.S. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med 1983;98:385—94.

21. Lilford R., Braunholtz D. The statistical basis of public policy: a paradigm shift is overdue. BMJ 1996;313:603—7.

22. Peto R. Why do we need systematic overviews of randomized trials? Stat Med 1987;6:233—44.

23. Pogue J., Yusuf S. Overcoming the limitations of current meta-analysis of randomised controlled trials. Lancet 1998;351:47—52.

24. Fisher R. Statistical Methods and Scientific Inference, 3d ed. New York: Macmillan; 1973.

25. Jeffreys H. Theory of Probability, 2d ed. Oxford: Oxford Univ Pr; 1961.

26. Kass R., Raftery A. Bayes Factors. Journal of the American Statistical Association 1995;90:773—95.

27. Cornfield J. A Bayesian test of some classical hypotheses—with applications to sequential clinical trials. Journal of the American Statistical Association 1966;61:577—94.

28. Kass R., Greenhouse J. Comments on “Investigating therapies of potentially great benefit: ECMO” (by J.H. Ware). Statistical Science 1989;4:310—7.

29. Spiegelhalter D., Freedman L., Parmar M. Bayesian approaches to randomized trials. Journal of the Royal Statistical Society, Series A 1994;157:357—87.

30. Berger J., Sellke T. Testing a point null hypothesis: the irreconcilability of p-values and evidence. Journal of the American Statistical Association 1987;82:112—39.

31. Bayarri M., Berger J. Quantifying surprise in the data and model verification. Proceedings of the 6th Valencia International Meeting on Bayesian Statistics, 1998. 1998:1—18.

32. Carlin C., Louis T. Bayes and Empirical Bayes Methods for Data Analysis. London: Chapman and Hall; 1996.

33. Casella G., Berger R. Reconciling Bayesian and frequentist evidence in the one-sided testing problem. Journal of the American Statistical Association 1987;82:106—11.

34. Howard J. The 2 ґ 2 table: a discussion from a Bayesian viewpoint. Statistical Science 1999;13:351—67.

35. Cornfield J. Sequential trials, sequential analysis and the likelihood principle. American Statistician 1966;20:18—23.

36. Savitz D.A., Olshan A.F. Multiple comparisons and related issues in the interpretation of epidemiologic data. Am J Epidemiol 1995;142:904—8.

37. Perneger T. What's wrong with Bonferroni adjustments. BMJ 1998;316:1236—8.

38. Goodman S.N. Multiple comparisons, explained. Am J Epidemiol 1998;147:807—12.

39. Thomas D.C., Siemiatycki J., Dewar R., Robins J., Goldberg M., Armstrong B.G. The problem of multiple inference in studies designed to generate hypotheses. Am J Epidemiol 1985;122:1080—95.

40. Greenland S., Robins J.M. Empirical-Bayes adjustments for multiple comparisons are sometimes useful. Epidemiology 1991;2:244—51.

41. Rothman K.J. No adjustments are needed for multiple comparisons. Epidemiology 1990;11:43—6.

42. Berry D.A. A case for Bayesianism in clinical trials. Stat Med 1993;12:1377—93.

43. Chaloner K., Church T., Louis T., Matts J. Graphical elicitation of a prior distribution for a clinical trial. The Statistician 1993;42: 341—53.

44. Chaloner K. Elicitation of prior distributions. In: Berry D., Stangl D., eds. Bayesian Biostatistics. New York: Marcel Dekker; 1996.

45. Freedman L. Bayesian statistical methods [Editorial]. BMJ 1996;313:569—70.

46. Fayers P.M., Ashby D., Parmar M.K. Tutorial in biostatistics: Bayesian data monitoring in clinical trials. Stat Med 1997;16:1413—30.

47. Etzioni R.D., Kadane J.B. Bayesian statistical methods in public health and medicine. Ann Rev Public Health 1995;16:23—41.

48. Berry D.A. Benefits and risks of screening mammography for women in their forties: a statistical appraisal. J Natl Cancer Inst 1998;90:1431—9.

49. Hughes M.D. Reporting Bayesian analyses of clinical trials. Stat Med 1993;12:1651—64.

50. Berry D.A., Stangl D., eds. Bayesian Biostatistics. New York: Marcel Dekker; 1996.

51. Berry D.A. Decision analysis and Bayesian methods in clinical trials. Cancer Treat Res 1995;75:125—54.

52. Spiegelhalter D., Thomas A., Best N., Gilks W. BUGS: Bayesian Inference Using Gibbs Sampling. Cambridge, UK: MRC Biostatistics Unit; 1998. Available at www.mrc-bsu.cam.ac.uk/bugs.

53. Rubin D. Bayesianly justifiable and relevant frequency calculations for the applied statistician. Annals of Statistics 1984;12:1151—72.

54. Shafer G. Savage revisited. Statistical Science 1986;1:463—501.

55. Walley P. Statistical Reasoning with Imprecise Probabilities. London: Chapman and Hall; 1991.

56. Tversky A., Kahneman D. Judgment under uncertainty: heuristics and biases. In: Slovic P., Tversky A., Kahneman D., eds. Judgment under Uncertainty: Heuristics and Biases. Cambridge: Cambridge Univ Pr; 1982:1—20.

57. Bacon F. De Augmentis Scientarium, Book I (1605). In: Curtis C., Greenslet F., eds. The Practical Cogitator. Boston: Houghton Mifflin; 1962.


Возврат к содержанию| Возврат на home page "Международного журнала медицинской практики"| Возврат на home page издательства "МедиаСфера"