С.Н. Гудман
На пути к доказательной биостатистике. Часть 1:
обманчивость величины р
Translated, with permission of the ACP — ASIM, from: Goodman S.N. Towards evidence-based medical statistics: 1: The P value fallacy. Ann Intern Med 1999;130:995—1004.
Одна из основных проблем, возникающих при интерпретации результатов современных медицинских исследований, связана с тем, что при анализе количественных данных авторы практически не учитывают природу наблюдаемых явлений и опыт своих предшественников. Это становится очевидным из обсуждений, которые приводятся в статьях, и в конечном итоге отрицательно сказывается на достоверности выводов. Возникновение данной проблемы объясняется недостатками общепринятых методов статистического анализа, благодаря которым исследователи ошибочно полагают, что могут сделать выводы с определенной вероятностью ошибки, не учитывая внешнюю (не зависящую от результатов данного эксперимента) информацию. Эти методы опираются на использование величины р и проверку статистических гипотез и считаются математическим обоснованием логических умозаклю чений. Немногие врачи знают, что подобный подход подразумевает использование несовместимых приемов и на протяжении почти 70 лет вызывает горячие споры в среде математиков. Данная статья посвящена основным причинам этих разногласий, внешней привлекательности и обманчивости величины р, с помощью которой пытаются одновременно оценить результаты серии опытов и статистическую значимость результата отдельного опыта. Первая часть статьи готовит читателя к описанию более прогрессивного статистического инструмента — байесовского критерия, который позволяет отделить доказательность результатов отдельного эксперимента от общих тенденций, отмеченных в ряде исследований, и учесть при статистической обработке новых данных опыт прошлых лет.
В последнее десятилетие мы стали свидетелями быстрого развития доказательной медицины — направления, которое в первую очередь подразумевает проверку эффективности терапевтических вмешательств в клинических испытаниях. Врачи все чаще обращаются к подобным исследованиям для того, чтобы принять правильное решение и понять, чем новые методики отличаются от старых. Однако оценить качество современных исследований невозможно без знания методов обработки информации, с которыми еще недавно большинство врачей были незнакомы.
Эти методы включают статистический анализ, на результаты которого исследователи опираются в своих выводах. К сожалению, используемые в настоящее время методы статистического анализа недостаточно обоснованы и часто неправильно используются. Одно из распространенных заблуждений заключается в том, что статистические методы позволяют получить количественный показатель, который сам по себе, без учета природы изучаемого явления и результатов предыдущих исследований, отражает вероятность ошибочных выводов. Это заблуждение извращает логику умозаключений и сами выводы, затрудняя понимание связи между доказательностью результатов отдельного исследования и убедительностью других доказательств (данные клинических и экспериментальных исследований, накопленный практический опыт). Вот почему результаты многих исследований не выдерживают проверки временем [1, 2].
Данная статья, состоящая из двух частей*, посвящена этой проблеме и некоторым путям ее решения. В первой части статьи я привожу исторические и логические предпосылки для формирования распространенного в настоящее время и порочного по своей сути подхода к биостатистике, который иногда называют частотным. Я подробно объясню в чем заключается его ошибочность, и почему он до сих пор не утратил своей популярности среди исследователей, руководителей здравоохранения и редакторов медицинских журналов. Во второй части статьи [3] я расскажу об альтернативном, доказательном подходе, который основан на методе Байеса и на протяжении последних 20 лет остается одной из наиболее динамично развивающихся областей биостатистики. Байесовские методы постепенно прокладывают себе дорогу в медицинские журналы. Так, Annals of Internal Medicine с 1 июля 1997 г. в разделе, предназначенном для авторов, публикует информацию об интерпретации данных исследований по Байесу.
Метод Байеса будет представлен здесь под иным углом, нежели в предшествующих статьях на эту тему. В центре внимания окажется не оценка степени уверенности в том, что то или иное предположение истинно, а определение весомости количественных доказательств. Мы увидим, как, заменив величину р байесовским критерием (который в простейшей своей форме известен как отношение правдоподобия), можно связать статистические выводы с теоретическими основами биологии и медицины и лучше понять роль статистического анализа в интерпретации данных медицинских исследований.
Показательный пример
Недавно был опубликован отчет о рандомизированном контролируемом испытании гидрокортизона при синдроме хронической усталости, в котором был достигнут пороговый уровень статистической значимости (р=0,06) [4]. В разделе “Результаты и их обсуждение” авторы утверждают: “... лечение гидрокортизоном улучшает состояние больных ... Это первое исследование... продемонстрировавшее эффективность медикаментозной терапии при синдроме хронической усталости” [4].
Адрес для корреспонденции: Steven N. Goodman, MD, Ph.D., John Hopkins University, 550 North Broadway, Suite 409, Baltimore, MD 21205; e-mail: sgoodman@jhu.edu.
*Вторая часть статьи С.Н. Гудмана будет опубликована в одном из следующих номеров МЖМП (Примеч. ред.).
Данная работа может служить типичным примером отчета о клинических исследованиях: в начале обсуждения приводится вывод, основанный на полученных результатах, и лишь потом освещаются предполагаемый биологический механизм и величина наблюдаемого эффекта, а также данные предыдущих исследований. Создается впечатление, что вывод автоматически вытекает из результатов и представляет собой не более чем словесное выражение утверждения “р=0,06”, не нуждаясь в предварительном обсуждении. Таковы последствия применения статистического метода, который почти полностью лишил нас возможности различать математическую обработку данных и научное мышление. Чуть позже мы убедимся, что в этом повинна “обманчивая” величина р.
Немного философии
Прежде чем перейти к разъяснению обманчивости величины р, следует разобраться в основах логики. Процесс, связывающий полученные ранее знания с наблюдаемыми явлениями, называется логическим умозаключением и состоит из двух разнонап равленных компонентов — дедукции и индукции. Рассуждая путем дедукции, исходят из некоей гипотезы или предположения о сущности события и предполагают, что произойдет впоследствии, если эта гипотеза верна. Поскольку между гипотезой и предполагаемым развитием событий существует строгая связь, дедукция считается объективным методом, но она лишь подтверждает или опровергает предложенную гипотезу и не способна создать новые.
Индуктивные рассуждения имеют противоположную направленность: гипотезы строятся и оцениваются на основании данных опыта. В основе доказательства лежит процесс индукции, оно отражает переход от наблюдений к лежащим в их основе закономерностям. Преимущества индуктивного метода рассуждений состоят в том, что с помощью данных опыта получают дополнительную информацию о ранее неизвестных явлениях, строят новые гипотезы и углубляют свои знания о внешнем мире. К сожалению, при этом неизбежно возникает так называемая проблема индукции: мы не можем быть полностью уверенными в правильности наших умозаключений [5—7].
Из своего опыта практикующие врачи очень хорошо знают о небольшом, но очень важном различии между дедукцией и индукцией. Любой студент-медик, вооружившись хорошим учебником, в состоянии исключить или подтвердить наличие заболевания (гипотеза) на основании соответствия или несоответствия диагнозу наблюдаемых симптомов. Этот процесс носит дедуктивный характер и схематически изображен в верхней части рис. 1. Значительно сложнее индуктивная по своей природе дифферен циальная диагностика, которая заключается в определении вероятности различных заболеваний исходя из клинической картины и результатов лабораторных исследований. Таким образом, дедуктивный метод более надежен и объективен, но менее продуктивен, чем индуктивный.
Нечто похожее наблюдается и в статистике. Предположив, что эффективность двух методов лечения одинаковая или, иными словами, что гипотеза об отсутствии различий в их эффективности верна, с помощью дедукции несложно рассчитать частоту всех возможных исходов (см. рис. 1, внизу). Но, получив определенный исход в условиях клинического испытания, совсем непросто, используя индукцию, ответить на более важный вопрос: “Какова вероятность того, что эти методы лечения равноценны?”.
Уже в XX столетии философы разными путями пытались решить или обойти упомянутую выше проблему индукции. К. Поппер предложил концепцию научной методологии, полностью исключающую формальную индукцию и основанную на принципах дедукции (выдвижение гипотез и их последующая фальсификация, т.е. опровержение) [8]. Р. Карнап исходил от обратного, пытаясь подвести под индуктивный компонент умозаключения прочную логическую базу, характерную для дедукции [9, 10]. Но ни тому, ни другому не удалось построить работоспособную модель современной науки. Их неудача доказывает, что решить проблему нашей неуверенности в истинности научных данных методологическим путем невозможно.
Обратная задача (индуктивные рассуждения) заключается в наиболее правдоподобном объяснении полученных данных. Эту задачу количественно решил английский священник Томас Байес более 200 лет назад. Он никому не сообщил о своем открытии, и теорема Байеса была опубликована лишь в 1762 г. — через 20 лет после смерти автора [11]. На рис. 2 представлено словесное описание теоремы Байеса.
С математической точки зрения теорема Байеса не несет в себе никаких противоречий. На ней строится теория игр, скрининговые обследования в медицине. Однако в качестве модели научного мышления она неоднократно подвергалась критике, поскольку подразумевает использование априорной (претестовой*) вероятности того, что выбранная гипотеза верна — показателя, смысл которого остается для многих непонятным [7, 10, 12]. Высказывалось мнение, что именно поэтому Байес решил сохранить свое открытие в тайне. Кроме того, по этой причине теория получила клеймо “субъективной” и редко используется в медицинских исследованиях.
*В медицинских исследованиях вместо терминов “априорный” и “апостериорный” чаще используют термины “претестовый” и “послетестовый”, особенно если речь идет о диагностических исследованиях (Примеч. ред.).

Рис. 1. Использование индукции и дедукции при построении логических умозаключений в медицине (вверху) и статистике (внизу).
D — различия в эффективности лечения.

Рис. 2. Теорема Байеса с пояснениями.
Традиционный (частотный) подход к статистике
В связи с субъективным характером показателя априорной вероятности, предложенного Байесом, в 20—30-х годах нашего столетия предпринимались попытки использовать альтернативный подход, основанный лишь на дедуктивном методе. Он предусмат ривает расчет вероятностей с помощью математических формул, учитывающих (с некоторыми допущениями) частоту развития всех возможных исходов при многократном повторении эксперимента [10]. На подобных представлениях о вероятности основывается величина p — предложенный в 20-х годах Р. Фишером показатель статистической значимости (достоверности) данных [13], а также метод выбора правильной гипотезы, предложенный в начале 30-х годов статистиками Дж. Нейманом и Э. Пирсоном и получивший название метода проверки статистических гипотез [14]. Будучи несовместимыми, эти статистические приемы впоследствии слились воедино и ошибочно воспринимаются многими как неотъемлемые составляющие единого последовательного метода построения логических умозаключений в статистике [6, 15, 16].
Величина p
Величина p представляет собой вероятность получить эффект, равный наблюдаемому или превосходящий последний, при условии справедливости нулевой гипотезы (гипотезы об отсутствии эффекта, т.е. отсутствии различий между сравниваемыми группами — рис. 3). Р. Фишер предложил величину p в качестве меры соответствия полученных данных нулевой гипотезе. Он рекомендовал использовать этот показатель не как составную часть формального построения статистических умозаключений, а как компонент предварительных, качественных выводов, основывающихся на данных наблюдений и учитывающих каким-то образом прошлый опыт [17].

Рис. 3. Колоколообразная кривая, представляющая вероятности возникновения всех возможных исходов при условии справедливости нулевой гипотезы. Ошибка I рода (?) и величина р находятся на периферии этой кривой. Площадь под кривой, соответствующую ошибке I рода, определяют до опыта, и значение величины р может оказаться в любом месте этой области. Величина р становится известна только после опыта и, по определению, результат должен лежать на границе соответствующей ей области.
Нельзя не отметить одну из самых распространенных и грубых ошибок, связанных с интерпретацией величины p [18—20]. Большинство исследова телей и читателей медицинских журналов уверены, что при p=0,05 вероятность того, что нулевая гипотеза справедлива, составляет всего 5%. Когда я преподавал биостатистику врачам из академических центров, подавляющее большинство курсантов считали, что при таком результате исследования вероятность ошибочности нулевой гипотезы составляет 95% или даже больше. Ход их мыслей понятен, но совершенно неправилен, ибо величину р рассчитывают исходя из предположения, что нулевая гипотеза верна. Следовательно, она не может служить мерилом вероятности того, что нулевая гипотеза не верна. Из этой логической ошибки вытекает ложное представление о том, что об истинности гипотезы можно судить исключительно по результатам исследования. Данное заблуждение пытались исправить многие авторы [18, 20]. G.A. Diamond и J.S. Forrester провели повторный анализ результатов нескольких крупных клинических испытаний [19], J.M. Brophy и L. Joseph проделали то же самое с результатами испытания GUSTO (Global Use of Streptokinase and tPA for Occluded Coronary Arteries) [22]. Они показали, что окончательная вероятность отсутствия эффекта лечения, которую можно рассчитать только с помощью метода Байеса, часто не соответствует величине р. Несмотря на то что эта тема очень важна, в данной статье мы попробуем разобраться с более мелкими, но не менее досадными проблемами, связанными с использованием величины p по ее первоначальному назначению — для оценки доказательств, полученных в процессе индукции.
Некоторые ученые, в том числе статистики, усомнились в логическом обосновании и целесообразности применения предложенной Р. Фишером величины p [23, 24]. Пожалуй, чаще всего этот показатель критиковали за то, что статистическую значимость наблюдаемого эффекта оценивается без учета его величины. Небольшой эффект при большом размере выборки может характеризоваться такой же величиной р, как и значительный эффект в исследовании с малым размером выборки. Эта критика привела к тому, что в настоящее время большее значение придается не самой величине p, а доверительным интервалам [25—28]. По иронии судьбы величина p была увековечена в том методе, который должен был заменить ее — в методе проверки статистических гипотез Неймана и Пирсона.
Проверка гипотез
Дж. Нейман и Э. Пирсон считали, что использование величины p не позволяет полностью обойти теорему Байеса при построении логических умозаключений. Дж. Нейман и Э. Пирсон разработали подход, при котором выдвигаются две гипотезы о природе явления: нулевая, обычно подразумевающая отсутствие эффекта, и альтернативная, обычно противоположная нулевой (например, предполагающая, что эффект имеется). Результатом проверки гипотез становится не умозаключение, а решение исследователя об отказе от одной и о принятии другой гипотезы только на основании полученных данных. В результате могут возникнуть ошибки двух типов: ложное заключение о различии в эффективности между двумя методами лечения, когда в действительности такие различия отсутствуют (ложноположительный результат — ошибка I рода, или ошибка ?, см. рис. 3) и ложное заключение об одинаковой эффективности двух методов лечения, когда в действительности между ними существуют различия (ложноотрицательный результат — ошибка II рода, или ошибка ?). Подобный подход привлекателен тем, что, приняв гипотезу, можно рассчитать вероятность этих ошибок с помощью математических формул (дедуктивно, т.е. “объективно”). Подразумевалось, что при проверке гипотез должна учитываться и другая информация (например, при определении величины той и другой ошибки должны учитываться последствия ложноположительного и ложноотрицательного заключения) [12, 14, 29], однако в настоящее время такая практика, к сожалению, не применяется.
Метод проверки статистических гипотез произвел революцию в биостатистике, поскольку он в буквальном смысле слова направляет действия исследователя. С теоретической точки зрения этот метод прогрессивен, но использование его в качестве научно-практической модели имеет свои ограничения. В частности, при проверке гипотез не оценивается степень доказательности результата; между полученными данными и выдвигаемой гипотезой отсутствует количественная связь. Это ограничение обусловлено тем, что любой элемент индукции рано или поздно приводит к теореме Байеса, которую Дж. Нейман и Э. Пирсон пытались обойти. Поэтому они предложили отказаться от индуктивных рассуждений при анализе результатов отдельных исследований и использовать дедуктивные методы для уменьшения количества ошибок, допущенных в серии экспериментов. Дж. Нейман и Э. Пирсон писали [14]: “... ни один критерий, опирающийся на теорию вероятностей, не может обеспечить абсолютной уверенности в правильности или ложности гипотезы. Но можно взглянуть на предназначение этих критериев с другой точки зрения. Не рассчитывая узнать, какая из гипотез, выдвинутых в отдельном исследовании, верна, а какая ложна, можно разработать правила, следуя которым, мы не допустим слишком большого количества ошибок в серии экспериментов”.
Значение этой цитаты трудно переоценить. В ней авторы называют цену, которую исследователи должны заплатить за предполагаемую объективность: отказ от возможности оценивать достоверность (истинность) результатов отдельного эксперимента. На практике это означает, что исследователь ограничится выводом о статистической значимости (или незначимости) результатов и в дальнейшем будет действовать согласно своему заключению. Многим такое отношение покажется антинаучным, но описанная процедура часто приводится как пример научного подхода.
Проверка гипотез похожа на систему юстиции, которая направлена не на выяснение вины или невиновности конкретного обвиняемого (аналог истинности или ложности гипотезы), а на снижение общего числа несправедливых приговоров (аналог общего числа ошибок в серии экспериментов). Стремление ограничить число ошибок в целом ряде опытов, равно как справедливость требует наказания преступника и оправдания невиновного, так же и научный подход требует, чтобы в отдельных исследованиях были сделаны правильные выводы.
Проверка гипотез ставит ученых перед фаустовским выбором: отдай свое право определять ценность отдельного опыта и познавать скрытую в нем истину — и во всех твоих опытах, вместе взятых, станет меньше ошибок. Маловероятно, что проверка гипотез завоевала бы такую популярность, какой она пользуется в настоящее время, если бы не некое дополнение, благодаря которому, казалось бы, удалось избежать этой жертвы. Таким дополнением стала величина p — к неудовольствию Р. Фишера, Дж. Неймана, Э. Пирсона и многих других специалистов по статистике.
“Разрешение” проблемы с помощью величины p
Как же удалось с помощью величины p “разрешить” неразрешимую проблему? Отчасти благодаря приписываемому этой величине свойству отражать степень достоверности результатов отдельного эксперимента, не нарушая логику проверки статистических гипотез, требующую сведения к минимуму числа ошибок в серии экспериментов. Из рис. 3 видно, как похожи показатель p и ошибка I рода. Обе величины укладываются в периферическую область кривой распределения, описывающей нулевую гипотезу, причем площадь под кривой, соответствую щую ошибке I рода (ложноположительному результату), определяют перед опытом (почти всегда выбирая значение 0,05), а площадь под кривой, соответствующую величине p, определяют на основании его результатов. Кажущееся сходство этих показателей наводит на мысль, что p есть некая разновидность ошибки I рода, адаптированной к полученным данным. Кроме того, следуя рассуждениям Р. Фишера о величине p как о степени отклонения результатов исследования от нулевой гипотезы (иными словами, как о свидетельстве против нее), мы получим показатель, совмещающий функции адаптированной к данным отдельного опыта ошибки I рода (по Нейману и Пирсону) и критерия несоответствия этих данных нулевой гипотезе (по Фишеру) [6, 15, 17].
Типичная цитата из стандартной книги по биостатистике, где ошибку I рода называют “уровнем значимости”, показывает, как легко ее отождеств ляют с величиной p [30]:
“Утверждение "р<0,01" свидетельствует о статистически значимом несоответствии среднего значения в выборке нулевой гипотезе даже при таком консервативном уровне значимости, как 1%. Утверждение "р=0,006" означает, что результат статистически значим при любом уровне значимости до 0,6%”.
Такая двойная интерпретация величины р кажется нам интуитивно правильной — чем больше доказательств лежит в основе вывода, тем меньше вероятность ошибки. Интуиция нас не обманывает, но может ли один и тот же показатель (вероятность) представлять одновременно степень доказательности данных, свидетельствующих против нулевой гипотезы, и вероятность ошибочно отвергнуть эту гипотезу? Если да, то Дж. Нейман и Э. Пирсон ошибались, утверждая, что нельзя одновременно ограничить число ошибок в серии исследований и в то же время делать выводы об истинности результатов отдельных экспериментов. Но такое заключение противоречит логике.
Обманчивость величины р
Идея о возможности универсального использования величины р основана на ложном предположении о том, что одно и то же явление можно одновременно рассматривать в ближайшей и отдаленной перспективе. В первом случае оценивают достоверность результатов отдельного исследования с помощью индуктивного метода. Во втором случае используют дедукцию, анализируя данные отдельного эксперимента вместе с другими исходами, которые могут возникнуть при его гипотетическом повторении. Объединив оба этих подхода, можно было бы поставить дедукцию (объективный расчет вероятности) на службу индукции (заключение о научной ценности отдельного опыта).
Но это в принципе невозможно, поскольку результат отдельного опыта (ближайшая перспектива) может быть включен в анализ данных различных серий опытов (отдаленная перспектива). Классическим примером тому служит изучение двух методов лечения (А и Б) у 6 больных. Метод А превосходил по эффективности метод Б у первых 5 больных, но у шестого преимущества имел метод Б. Следуя рассуждениям R. Royall, предположим, что данный эксперимент проводят два исследователя. Не имея ни малейшего представления о намерениях друг друга, они выбрали одних и тех же больных, но организовали свои работы по-разному [6]. Первый решил исследовать 6 больных и получил величину p, равную 0,11. Второй решил прекратить исследование, когда будет показано преимущество метода Б (в группе, не превышающей 6 больных), и получил величину p, равную 0,03 (см. Приложение). При одних и тех же больных, одних и те же методах лечения и исходах были получены совершенно разные значения величины р (и, возможно, сделаны различные выводы). Все это произошло только потому, что исследователи по-разному представляли себе результаты гипотетических повторных экспериментов. То же самое можно продемонстрировать на примере доверительных интервалов.
Этот загадочный и обескураживающий результат был получен из-за попытки описать результаты отдельного эксперимента и серии опытов (ближайшую и отдаленную перспективу) с помощью одного-единственного показателя. На рис. 4 представлены все исходы, которые могли бы наблюдать оба исследователя, продолжи они свои опыты. Результаты двух серий опытов разительно отличаются друг от друга. На самом деле общими в этих исследованиях были бы только данные, полученные в описанном наблюдении и в том случае, когда у всех 6 больных метод А оказался более эффективным. Комбинируя результаты наблюдения, описанного в начале примера, с результатами последующих опытов, каждый из исследователей получил свое значение величины p (см. Приложение).
Обманчивость величины р можно объяснить иначе. Результат не может быть единственным в своем роде (отдельный эксперимент, ближайшая перспектива) и в то же время — безликим членом группы взаимозаменяемых результатов (серия экспериментов, отдаленная перспектива) [6, 15, 31]. Во второй части этой статьи я покажу, как при оценке доказательности данных по результатам отдельного исследования анализ сходных данных дает похожие результаты, независимо от его структуры.
С этим связано большинство трудностей при расчете величины p. Так называемая дискуссия о множественных сравнениях посвящена вопросу, можно или нельзя рассматривать отдельное сравнение вне связи со всеми другими сравнениями [32—35]. Спор о форме представления величины p в случаях, когда исследование прекращено из-за явного преимущества изучаемого метода лечения, связан с отсутствием единого мнения о том, следует ли рассматривать полученные данные изолированно или в сочетании с другими результатами, которые могли бы быть получены при использовании изучаемого метода [36—39]. В испытании экстракорпоральной мембранной оксигенации у новорожденных анализ одних и тех же данных дал самые разные значения величины p [40]. Эта проблема отражается и на организации исследований. Поскольку частотный подход подразумевает однозначную интерпретацию серии экспериментов, он требует жесткого планирования опыта, например фиксированных размеров выборки и заранее оговоренных условий прекращения исследования. Многие считают подобные требования не издержками отдельной философской концепции, а неотъемлемыми чертами научного подхода.

Рис. 4. Возможные исходы двух гипотетических исследований, включавших 6 больных (см. Приложение).
Общие в этих исследованиях только данные, полученные в наблюдении, которое описано в тексте, и в том случае, когда у всех 6 больных метод А оказался более эффективным.
Величина p, призванная одновременно выполнять две роли, оказалась непригодной ни для одной из них. Это очевидно из анализа следующего утверждения: “результат, который характеризуется р=0,05, относится к группе исходов, вероятность развития которых при условии истинности нулевой гипотезы составляет 5%”. С формальной точки зрения такое утверждение правильно, но вместе с тем оно означает, что мы не только относим упомянутый результат к определенной группе (т.е. считаем его безликим членом этой группы), но и определяем его место в группе, считая его наиболее правдоподобным (иными словами, полагаем, что его можно выделить из общей массы). Ситуация напоминает пример с учащимся, который в своем классе является десятым (или двадцатым) по успеваемости, попадая в лучшую десятку (двадцатку) [15]. Мы знаем, что он — худший из лучших, поэтому утверждение “он входит в лучшую десятку (двадцатку)” будет обманчивым, хотя также формально правильным. По той же самой причине (и не только) величина р не подходит для определения степени достоверности данных, свидетельствующих против нулевой гипотезы. Во второй части данной статьи будет показано, что при p=0,05 доказательность данных в действительности значительно ниже, чем можно было бы предположить, исходя из этого значения величины p.
Если бы обманчивость величины p проявлялась только в сфере математической статистики, она вряд ли заслуживала бы такого подробного обсуждения. Но, как патологический ген нарушает жизнедеятельность всего организма, величина p, наделенная не присущими ей функциями, способствовала созданию метода, который возвел обманчивость в ранг концептуальной ошибки. Последняя извратила наши представления о научном поиске и самой природе истины.
Создание комбинированного метода
Величина p казалась простой и надежной, поэтому ее включили в метод проверки статистических гипотез и получили комбинированный метод, при котором до начала опыта задают значения ошибки I рода, или ошибки a (почти всегда 5%), и статистической мощности (чувствительности) критерия (почти всегда і80%), с помощью которого оценивают вероятность нулевой гипотезы, а затем рассчитыва ют величину p и отвергают нулевую гипотезу, если p меньше установленного значения ошибки I рода.
При этом, используя только дедукцию, вероятность (величину p) связывают с нулевой гипотезой в рамках метода, ограничивающего величину ошибок. В данном контексте особое внимание следует обратить на слово “вероятность”. Вероятность считают абсолютным показателем, не допуская даже мысли о том, что этот показатель может не отражать истинности гипотезы или что его нельзя использовать механически. Биологическое обоснование наблюдаемых явлений, степень убедительности проверяемой гипотезы и достоверность результатов предшествующих исследований становятся второстепенными вопросами, которым не придается большого значения. Они не влияют на упомянутую вероятность и не обязательны для ее интерпретации. При подобных “объективных” логических умозаключениях можно делать выводы, избежав дилеммы, о которой писали Дж. Нейман и Э. Пирсон (невозможность оценивать достоверность данных отдельного эксперимента), и не учитывая прошлый опыт, как рекомендовал поступать Р. Фишер.
В дидактической литературе по биологии и медицине произошло настолько тесное слияние двух подходов к статистике, что иногда о нем и не вспоминают, а величину p интерпретируют как вероятность ошибки I рода. Во взятой из журнала по хирургии статье, посвященной биомедицинской статистике, в разделе “Ошибки при построении логического умозаключения”, название которого невольно отражает его содержание, читаем: “Если ошибочно отвергается H0 (нулевая гипотеза — С.Г.), имеет место ошибка I рода, а ее вероятность соответствует знакомой нам величине p” [41].
Создатели упомянутых статистических подходов — Р. Фишер, Дж. Нейман и Э. Пирсон — прекрасно понимали значение своих методов для научных исследований и горячо спорили о том, какой из них лучше, не стесняясь при этом переходить на личности [15, 16]. Тем не менее они никогда не одобряли комбинированный метод. Несмотря ни на что, эти подходы были объединены, в результате чего получился весьма популярный метод, внутренние противоречия и концептуальную ограниченность которого упорно не хотят замечать. О различиях между двумя подходами задолго до меня писали специалисты по математической статистике [42—45], но авторы практических руководств по медицине и статей в медицинских журналах единодушно представляют комбинированный метод как абстрактную математическую истину, редко снисходя до обсуждения его слабых сторон. Следует заметить, что, не будучи стройной законченной системой, комбинированный метод был по-разному адаптирован представителями прикладных дисциплин, таких как психология, физика, экономика и генетическая эпидемиология [16].
Возникает закономерный вопрос: почему этот метод завоевал такую популярность и получил дальнейшее развитие в медицине и других науках? Несмотря на то что данный вопрос изучен не до конца, в книгах H.M. Marks [46], T.M. Porter [47], J.R. Matthews [48], G. Gigerenzer et al. [16] были названы некоторые научные и социальные предпосылки. Не вдаваясь в подробности, отметим, что в основе лежит стремление реформаторов академической медицины, государственных чиновников, исследователей и редакторов медицинских журналов оперировать методом количественной оценки результатов, который, якобы, позволяет делать выводы независимо от того, кто получил эти результаты. Исходя из объективности статистических методов считается, что полученные с их помощью выводы надежны, “научны” и могут служить основанием для принятия врачебных решений и выработки государственной политики в области медицины.
Таким образом, комбинированный метод способствовал постепенному, не всегда ощутимому переходу пальмы первенства от исследователей, стремящихся проникнуть в природу наблюдаемых явлений, к тем, кто в совершенстве владеет методами количественной оценки результатов или вообще интересуется только цифрами, как будто голые цифры умеют говорить. В наше время этот процесс получил отражение в статьях некоторых апологетов доказательной медицины, которые время от времени подвергают нападкам биологическое обоснование терапевтических вмешательств, заявляя, что его нельзя рассматривать в качестве доказательства [49—51].
Влияние комбинированного метода на интерпретацию результатов медицинских исследований
Применение комбинированного метода привело к тому, что результаты медицинских исследований стали интерпретироваться автоматически, хотя о порочности такой оценки на протяжении многих лет писали клиницисты, статистики и ученые, изучающие методологию медицинских исследований [18, 52—68]. Ученик Р. Фишера, статистик и генетик Э. Эдвардс язвительно отметил по этому поводу: “То, что раньше называлось рассуждением, теперь называют предрассудком, а то, что раньше считалось предрассудком, теперь величают нулевой гипотезой... эта опасная ересь, загримированная под научный метод, успеет нанести большой вред, прежде чем она повсеместно будет заклеймена как таковая” [69].
Другой статистик был обеспокоен “непреднамеренной тиранией” статистических методов, которая подавляет другие типы научного мышления [70].
Такая тирания выхолащивает раздел “Результаты и их обсуждение” в медицинских статьях, отодвигая на второй план или вообще вытесняя теоретическое обоснование наблюдаемых явлений и накопленный практический опыт. Недавнее исследование, посвященное рандомизированным клиническим испытаниям, результаты которых были опубликованы в ведущих медицинских журналах, показало, что очень немногие авторы упоминают о предыдущих исследованиях по той же теме [71]. Это — закономерное следствие использования методологии, подразумевающей самодостаточность отдельного опыта, на основании результатов которого можно сделать выводы с определенной вероятностью ошибки, не учитывая информацию из других источников.
Пример, который я привел в начале этой статьи, был выбран не потому, что в нем были допущены какие-то необычные ошибки, а именно потому, что эти ошибки типичны для медицинской литературы. Утверждение о существовании связи между терапией гидрокортизоном и улучшением состояния больных с синдромом хронической усталости требует индуктивного подхода, построения логической цепочки между утверждением “p=0,06” и заключением “лечение... снижает выраженность симптомов заболевания”. Эта цепочка должна содержать информацию, отраженную во второй части обсуждения, где говорится о выраженности эффекта (кстати, небольшой), влиянии на другие исходы (которое отсутствует), результатах других исследований по данной теме (в которых не было показано подобного эффекта) и вероятном (вернее, маловероятном) биологическом обосновании полученного результата. В идеале все это нужно было учесть при анализе результатов с более чем скромной статистической значимостью, после чего можно было бы делать выводы об эффективности или неэффективности гидрокортизона. Авторы не рекомендовали применять препарат при синдроме хронической усталости, но отнюдь не из-за незначительного благоприятного эффекта гидрокортизона, а в связи с тем, что этот эффект перевешивается риском угнетения функции надпочечников.
Примечательно и то, как мало внимания уделяют авторы значению величины p. При p<0,001 их первоначальный вывод был бы сформулирован точно так же. Такая трактовка величины р напрямую связана с той составляющей комбинированного метода, которая до слияния была методом проверки статистических гипотез. Нужно воздать должное авторам и редакторам журнала за то, что они предпочли не следовать слепо логике проверки гипотез, согласно которой при р=0,06 результаты должны считаться статистически незначимыми, но, отказавшись от этой логики, они были обязаны учесть степень доказательности полученных данных. К сожалению, ни сам Р. Фишер, ни другие статистики не смогли разъяснить, каким образом значение величины p должно влиять на выводы. Байесовский критерий, напротив, позволяет учитывать при формировании выводов степень доказательности полученных данных, в чем мы сможем убедиться во второй части статьи.
На практике при переходе от результатов к выводам величину p обычно награждают различными эпитетами, что совершенно бессмысленно и особенно бросается в глаза, когда вывод о статистической значимости противоречит имеющимся данным или представлениям исследователя. Если последний изначально предполагал, что различия между группами отсутствуют, то, получив р=0,12, он назовет вещи своими именами. Если же исследователь ожидал, что эффект в сравниваемых группах будет разным, при том же самом значении величины p он начнет рассуждать о неких “тенденциях”, “предположениях” и в конечном итоге объяснит отрицательный результат исследования малым размером выборки или найдет какое-нибудь другое объяснение. И наоборот, неожиданно полученную величину р=0,01 можно объяснить погрешностями статистической обработки, связанными с отбором данных (более подробно об этом см. во второй части статьи) или влиянием не учтенных при анализе сопутствующих факторов. Но хуже (и популярнее) всего другое заблуждение, когда заключение о статистической значимости или незначимости воспринимают в качестве универсального показателя наличия или отсутствия связи между изучаемыми явлениями. В основе этих ошибок лежит сознательное стремление доказать, что выводы родились непосредственно из данных и не зависят ни от какой внешней информации, ибо построение гипотезы непосредственно на данных якобы редко приводит к ошибочным выводам и считается эталоном “научности”. Методология, которая ставит цифры превыше всего, также питает эту порочную идею, превращая цифры в своеобразный знак качества исследования.
Споры о методологии медицинских исследований, касающиеся множественных сравнений, построении гипотезы до или после получения данных, основных и дополнительных критериях оценки исходов, повторного анализа накопленных данных на самом деле отражают разные взгляды на организацию научных исследований и не имеют никакого отношения к статистике. Терминология и характер этих споров часто исключают участие в них исследователей, стремящихся глубже проникнуть в природу наблюдаемых явлений. В качестве примера можно привести недавно опубликованную серию статей, которые были посвящены организованному Управлением США по контролю за качеством пищевых продуктов и лекарственных препаратов обсуждению карведилола — препарата для лечения сердечно-сосудистых заболеваний. Авторы статей высказывали свои мнения о том, были или не были нарушены при исследовании этого препарата “законы” статистики и если были, то какие именно [72—74]. Главной задачей науки мне представляется оценка и обсуждение достоверности данных, полученных из различных источников, в том числе в ходе лабораторных экспериментов и клинических наблюдений, с последующим включением этой информации в статистический анализ и, наконец, формированием выводов. Комбинированный метод, подразумевающий проверку статистических гипотез с использованием величины p, не позволяет решить эту проблему.
Возможные пути решения проблемы
Для решения упомянутых выше проблем предлагались различные пути [18, 52—67]. В большинстве случаев они подразумевают более активное использование доверительных интервалов и в той или иной степени опираются на здравый смысл. Доверительные интервалы, при расчете которых применяют тот же частотный подход, что и при проверке статистических гипотез, представляют собой “согласующийся с полученными данными” диапазон выраженности эффекта. Их преимущество перед “механическим” анализом данных с помощью проверки гипотез с использованием величины p заключается в том, что они заставляют задуматься о размерах наблюдаемого эффекта. Доверительные интервалы все чаще упоминаются в отчетах о медицинских исследованиях, но их роль в интерпретации результатов до сих пор не вполне ясна. Часто доверительными интервалами просто заменяют проверку гипотез [75] и, убедившись, что нулевой эффект находится за пределами интервала, даже не пытаются судить о клиническом значении, которое может иметь диапазон выраженности эффекта. Доверительным интервалам не удалось вытеснить величину p из журнальных статей, что говорит о сильной зависимости исследователей от инструмента, позволяющего оценить статистическую значимость полученного результата, без которого они чувствуют себя, как без рук [76, 77]. При этом доверительные интервалы нельзя считать панацеей, так как они несут в себе многие противоречия и ограничения, характерные для популярных сейчас статистических методов, хоть и не столь явные [78]. Главный недостаток доверительных интервалов — невозможность объединить данные отдельного опыта с внешней информацией. Это прогрессивный метод, но он не может разрешить главной проблемы частотного подхода. Альтернатива доверительным интервалам — отношения правдоподобия (метод Байеса) [6, 19, 20, 79—84]. Во второй части данной статьи мы рассмотрим, как использовать байесовский критерий для оценки убедительности доказательств и как метод Байеса влияет не только на количественные результаты, но и на наши представления о них.
Заключение
Сторонники стандартных статистических методов обычно отмечают огромную практическую ценность этих методов и хаос, который царил в медицинской науке до их появления. И то и другое верно, отчасти потому, что статистики, зная слабые стороны стандартных методов, интерпретируют количественные результаты, в особенности величину p, совсем не так, как это делают неспециалисты в этой области [67, 85, 86]. Но сейчас, когда исследователи вооружаются все более изощренным программным обеспечением для статистического анализа, когда статистическое представление результатов исследований в журналах становится все более сложным, а эмпирические доказательства оказывают все возрастающее влияние на принятие клинических и административных решений [87—89], глубокое понимание сути статистических методов необходимо не только специалистам в этой области.
Приложение. Расчет величины р при сравнении двух методов лечения (А и Б) у 6 больных
Нулевая гипотеза: вероятность того, что метод А эффективнее метода Б, составляет 1/2.
Прекращение исследования после обследования всех 6 больных. Вероятность получить наблюдаемый результат (преимущество метода Б в 1 случае, а метода А — в 5 случаях) равна 6ґ(1/2)ґ(1 /2)5. Первый элемент произведения равен 6, поскольку преимущество лечения Б могло наблюдаться у любого из 6 больных.
Результатом, превосходящим полученный, будем считать выявление преимущества метода А во всех 6 наблюдениях. Его вероятность при условии истинности нулевой гипотезы составляет (1/2)6. Односторонняя величина p представляет собой сумму этих вероятностей:

Прекращение исследования после того, как будет показано преимущество метода Б. При такой структуре исследования преимущество метода Б может быть выявлено сразу или после нескольких случаев преимущества метода А. Количество наблюдений не может превышать 6. Вероятность получения такого же результата, как и в первом случае (преимущество метода А в 5 случаях и метода Б в 1 случае), составит (1/2)5ґ( 1/2) (без умножения на 6, поскольку преимущество метода Б может быть обнаружено только в последнем наблюдении). Результатом, превосходя щим полученный, тоже считается выявление преимущества метода А во всех 6 наблюдениях. Односторонняя величина p составит:

Литература
1. Simon R., Altman D.G. Statistical aspects of prognostic factor studies in oncology [Editorial]. Br J Cancer 1994;69:979—85.
2. Tannock I.F. False-positive results in clinical trials: multiple significance tests and the problem of unreported comparisons. J Natl Cancer Inst 1996;88:206—7.
3. Goodman S.N. Toward evidence-based medical statistics. 2: The Bayes factor. Ann Intern Med 1999;130:1005—13.
4. McKenzie R., O'Fallon A., Dale J., Demitrack M., Sharma G., Deloria M., et al. Low—dose hydrocortisone for treatment of chronic fatigue syndrome: a randomized controlled trial. JAMA 1998;280:1061—6.
5. Salmon W.C. The Foundations of Scientific Inference. Pittsburgh: Univ of Pittsburgh Pr; 1966.
6. Royall R. Statistical Evidence: A Likelihood Primer. Monographs on Statistics and Applied Probability #71. London: Chapman and Hall; 1997.
7. Hacking I. The Emergence of Probability: A Philosophical Study of Early Ideas about Probability, Induction and Statistical Inference. Cambridge, UK: Cambridge Univ Pr; 1975.
8. Popper K. The Logic of Scientific Discovery. New York: Harper & Row; 1934;59.
9. Carnap R. Logical Foundations of Probability. Chicago: Univ of Chicago Pr; 1950.
10. Howson C., Urbach P. Scientific Reasoning: The Bayesian Approach, 2d ed. La Salle, IL: Open Court; 1993.
11. Stigler S.M. The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, MA: Harvard Univ Pr; 1986.
12. Oakes M. Statistical Inference: A Commentary for the Social Sciences. New York: Wiley; 1986.
13. Fisher R. Statistical Methods for Research Workers, 13th ed. New York: Hafner; 1958.
14. Neyman J., Pearson E. On the problem of the most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society, Series A. 1933;231:289—337.
15. Goodman S.N. p-Values, hypothesis tests, and likelihood: implications for epidemiology of a neglected historical debate. Am J Epidemiol 1993;137:485—96.
16. Gigerenzer G., Swijtink Z., Porter T., Daston L., Beatty J., Kruger L. The Empire of Chance. Cambridge, UK: Cambridge Univ Pr; 1989.
17. Fisher R. Statistical Methods and Scientific Inference, 3d ed. New York: Macmillan; 1973.
18. Browner W., Newman T. Are all significant P values created equal? The analogy between diagnostic tests and clinical research. JAMA 1987;257:2459—63.
19. Diamond G.A., Forrester J.S. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med 1983;98:385—94.
20. Lilford R.J., Braunholtz D. For debate: The statistical basis of public policy: a paradigm shift is overdue. BMJ 1996;313:603—7.
21. Freeman P.R. The role of p-values in analysing trial results. Stat Med 1993;12:1442—552.
22. Brophy J.M., Joseph L. Placing trials in context using Bayesian analysis. GUSTO revisited by Reverend Bayes. JAMA 1995;273:871—5.
23. Berkson J. Tests of significance considered as evidence. Journal of the American Statistical Association 1942;37:325—35.
24. Pearson E. "Student" as a statistician. Biometrika 1938;38:210—50.
25. Altman D.G. Confidence intervals in research evaluation. ACP J Club 1992;Suppl 2:A28—9.
26. Berry G. Statistical significance and confidence intervals [Editorial]. Med J Aust 1986;144:618—9.
27. Braitman L.E. Confidence intervals extract clinically useful information from data [Editorial]. Ann Intern Med 1988;108:296—8.
28. Simon R. Confidence intervals for reporting results of clinical trials. Ann Intern Med 1986;105:429—35.
29. Pearson E. Some thoughts on statistical inference. Annals of Mathematical Statistics 1962;33:394—403.
30. Colton T. Statistics in Medicine. Boston: Little, Brown; 1974.
31. Seidenfeld T. Philosophical Problems of Statistical Inference. Dordrecht, the Netherlands: Reidel; 1979.
32. Goodman S. Multiple comparisons, explained. Am J Epidemiol 1998;147:807—12.
33. Savitz D.A., Olshan A.F. Multiple comparisons and related issues in the interpretation of epidemiologic data. Am J Epidemiol 1995;142:904—8.
34. Thomas D.C., Siemiatycki J., Dewar R., Robins J., Goldberg M., Armstrong B.G. The problem of multiple inference in studies designed to generate hypotheses. Am J Epidemiol 1985;122:1080—95.
35. Greenland S., Robins J.M. Empirical—Bayes adjustments for multiple comparisons are sometimes useful. Epidemiology 1991;2:244—51.
36. Anscombe F. Sequential medical trials. Journal of the American Statistical Association 1963;58:365—83.
37. Dupont W.D. Sequential stopping rules and sequentially adjusted P values: does one require the other? Controlled Clin Trials 1983;4:3—10.
38. Cornfield J., Greenhouse S. On certain aspects of sequential clinical trials. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, CA: Univ of California Pr; 1977;4:813—29.
39. Cornfield J. Sequential trials, sequential analysis and the likelihood principle. American Statistician 1966;20:18—23.
40. Begg C. On inferences from Wei's biased coin design for clinical trials. Biometrika 1990;77:467—84.
41. Ludbrook J., Dudley H. Issues in biomedical statistics: statistical inference. Aust N Z J Surg 1994;64:630—6.
42. Cox D., Hinckley D. Theoretical Statistics. New York: Chapman and Hall; 1974.
43. Barnett V. Comparative Statistical Inference. New York: Wiley; 1982.
44. Lehmann E. The Fisher, Neyman—Pearson theories of testing hypotheses: one theory or two? Journal of the American Statistical Association 1993;88:1242—9.
45. Berger J. The frequentist viewpoint and conditioning. In: LeCam L., Olshen R., eds. Proceedings of the Berkeley Conference in Honor of Jerzy Neyman and Jack Kiefer. vol. 1. Belmont, CA: Wadsworth; 1985;15—43.
46. Marks H.M. The Progress of Experiment: Science and Therapeutic Reform in the United States, 1900—1990. Cambridge, UK: Cambridge Univ Pr; 1997.
47. Porter T.M. Trust In Numbers: The Pursuit of Objectivity in Science and Public Life. Princeton, NJ: Princeton Univ Pr; 1995.
48. Matthews J.R. Quantification and the Quest for Medical Certainty. Princeton, NJ: Princeton Univ Pr; 1995.
49. Feinstein A.R., Horwitz R.I. Problems in the “evidence” of “evidence-based medicine.” Am J Med 1997;103:529—35.
50. Spodich D.H. “Evidence-based medicine”: terminologic lapse or terminologic arrogance? [Letter] Am J Cardiol 1996;78:608—9.
51. Tonelli M.R. The philosophical limits of evidence-based medicine. Acad Med 1998;73:1234—40.
52. Feinstein A.R. Clinical Biostatistics. St. Louis: Mosby; 1977.
53. Mainland D. The significance of “nonsignificance.” Clin Pharmacol Ther 1963;12:580—6.
54. Morrison D.E., Henkel R.E. The Significance Test Controversy: A Reader. Chicago: Aldine; 1970.
55. Rothman K.J. Significance questing [Editorial]. Ann Intern Med 1986;105:445—7.
56. Rozeboom W. The fallacy of the null hypothesis significance test. Psychol Bull 1960;57:416—28.
57. Savitz D. Is statistical significance testing useful in interpreting data? Reprod Toxicol 1993;7:95—100.
58. Chia K.S. “Significantitis”—an obsession with the P-value. Scand J Work Environ Health 1997;23:152—4.
59. Barnett M.L., Mathisen A. Tyranny of the p-value: the conflict between statistical significance and common sense [Editorial]. J Dent Res 1997;76:534—6.
60. Bailar J.C. 3d, Mosteller F. Guidelines for statistical reporting in articles for medical journals. Amplifications and explanations. Ann Intern Med 1988;108:266—73.
61. Cox D.R. Statistical significance tests. Br J Clin Pharmacol 1982;14:325—31.
62. Cornfield J. The bayesian outlook and its application. Biometrics 1969;25:617—57.
63. Mainland D. Statistical ritual in clinical journals: is there a cure?—I. Br Med J (Clin Res Ed). 1984;288:841—3.
64. Mainland D. Statistical ritual in clinical journals: is there a cure?—II. Br Med J (Clin Res Ed) 1984;288:920—2.
65. Salsburg D. The religion of statistics as practiced in medical journals. American Statistician 1985;39:220—3.
66. Dar R., Serlin R.C., Omer H. Misuse of statistical tests in three decades of psychotherapy research. J Consult Clin Psychol 1994;62:75—82.
67. Altman D., Bland J. Improving doctors' understanding of statistics. Journal of the Royal Statistical Society, Series A 1991;154:223—67.
68. Pocock S.J., Hughes M.D., Lee R.J. Statistical problems in the reporting of clinical trials. A survey of three medical journals. N Engl J Med 1987;317:426—32.
69. Edwards A. Likelihood. Cambridge, UK: Cambridge Univ Pr; 1972.
70. Skellam J. Models, inference and strategy. Biometrics 1969;25:457—75.
71. Clarke M., Chalmers I. Discussion sections in reports of controlled trials published in general medical journals: islands in search of continents? JAMA 1998;280:280—2.
72. Moyй L. End-point interpretation in clinical trials: the case for discipline. Control Clin Trials 1999;20:40—9.
73. Fisher L.D. Carvedilol and the Food and Drug Administration (FDA) approval process: the FDA paradigm and reflections on hypothesis testing. Control Clin Trials 1999;20:16—39.
74. Fisher L., Moyй L. Carvedilol and the Food and Drug Administration (FDA) approval process: an introduction. Control Clin Trials 1999;20:1—15.
75. Poole C. Beyond the confidence interval. Am J Public Health 1987;77:195—9.
76. Lang J.M., Rothman K.J., Cann C.I. That confounded P-value [Editorial]. Epidemiology 1998;9:7—8.
77. Evans S.J., Mills P., Dawson J. The end of the p-value? Br Heart J 1988;60:177—80.
78. Feinstein A.R. P-values and confidence intervals: two sides of the same unsatisfactory coin. J Clin Epidemiol 1998;51:355—60.
79. Freedman L. Bayesian statistical methods [Editorial]. BMJ 1996;313:569—70.
80. Etzioni R.D., Kadane J.B. Bayesian statistical methods in public health and medicine. Annu Rev Public Health 1995;16:23—41.
81. Kadane J.B. Prime time for Bayes. Control Clin Trials 1995;16:313—8.
82. Spiegelhalter D., Freedman L., Parmar M. Bayesian approaches to randomized trials. Journal of the Royal Statistical Society, Series A 1994;157:357—87.
83. Goodman S.N., Royall R. Evidence and scientific research. Am J Public Health 1988;78:1568—74.
84. Barnard G. The use of the likelihood function in statistical practice. In: Proceedings of the Fifth Berkeley Symposium, v 1. Berkeley, CA: Univ of California Pr; 1966;27—40.
85. Wulff H.R., Anderson B., Brandenhoff P., Guttler F. What do doctors know about statistics? Stat Med 1987;6:3—10.
86. Borak J., Veilleux S. Errors of intuitive logic among physicians. Soc Sci Med 1982;16:1939—47.
87. Concato J., Feinstein A.E., Holford T.R. The risk of determining risk with multivariable models. Ann Intern Med 1993;118:201—10.
88. Altman D.G., Goodman S.N. Transfer of technology from statistical journals to the biomedical literature. Past trends and future predictions. JAMA 1994;272:129—32.
89. Hayden G. Biostatistical trends in pediatrics: implications for the future. Pediatrics 1983;72:84—7.
Возврат к содержанию| Возврат на home page "Международного журнала медицинской практики"| Возврат на home page издательства "МедиаСфера"