Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Берикашвили Л.Б.

ФГБНУ «Федеральный научно-клинический центр реаниматологии и реабилитологии» Минобрнауки России

Поляков П.А.

ФГБНУ «Федеральный научно-клинический центр реаниматологии и реабилитологии» Минобрнауки России

Ядгаров М.Я.

ФГБНУ «Федеральный научно-клинический центр реаниматологии и реабилитологии» Минобрнауки России

Лихванцев В.В.

ФГБНУ «Федеральный научно-клинический центр реаниматологии и реабилитологии» Минобрнауки России

Промежуточный анализ данных и преждевременное завершение исследований эффективности: рекомендации и практическое руководство по множественному тестированию основной гипотезы исследования

Авторы:

Берикашвили Л.Б., Поляков П.А., Ядгаров М.Я., Лихванцев В.В.

Подробнее об авторах

Просмотров: 799

Загрузок: 10


Как цитировать:

Берикашвили Л.Б., Поляков П.А., Ядгаров М.Я., Лихванцев В.В. Промежуточный анализ данных и преждевременное завершение исследований эффективности: рекомендации и практическое руководство по множественному тестированию основной гипотезы исследования. Анестезиология и реаниматология. 2024;(3):49‑57.
Berikashvili LB, Polyakov PA, Yadgarov MYa, Likhvantsev VV. Interim data analysis and premature termination in superiority trials: a comprehensive guide and recommendations for multiple testing of the primary study hypothesis. Russian Journal of Anesthesiology and Reanimatology. 2024;(3):49‑57. (In Russ.)
https://doi.org/10.17116/anaesthesiology202403149

Введение

Основополагающая роль в доказательной медицине принадлежит рандомизированным контролируемым исследованиям (РКИ), цель которых — оценка эффективности и безопасности изучаемого вмешательства [1, 2]. Любое РКИ должно быть проведено в соответствии с заранее подготовленным протоколом, которому необходимо неукоснительно следовать в течение всего периода проведения исследования. Соблюдение рекомендаций SPIRIT 2013 [3], определяющих стандартные пункты протокола клинического исследования, повышает его качество, прозрачность и полноту [4]. Одним из важнейших пунктов рекомендаций SPIRIT является указание наличия или отсутствия изменения процесса исследования, а также представление правил принятия решений относительно дальнейшего проведения клинического исследования на основании результатов промежуточных анализов. Данный пункт определяет, какой дизайн имеет исследование: фиксированный или адаптивный, последний предполагает возможность внесения изменений в процессе проведения исследования. Одним из видов адаптивного дизайна является групповой последовательный дизайн (ГПД), позволяющий на основании результатов промежуточных анализов прекратить исследование до набора рассчитанного объема выборки. Другими словами, если исследователи планируют проведение промежуточных анализов данных в ходе выполнения клинического исследования, им необходимо определить дизайн клинического исследования как групповой последовательный и придерживаться правил работы в рамках выбранного дизайна.

Цель исследования — обсудить основы ГПД как вида адаптивного дизайна и составить рекомендации по его применению в клинических исследованиях эффективности (superiority trial) с четким описанием методологии при множественном тестировании основной гипотезы (первичной конечной точки).

Следует отметить, что данные рекомендации не распространяются на тестирование нескольких гипотез (анализ первичной и вторичных конечных точек) в рамках промежуточных анализов, а также на исследования эквивалентности (equivalence), в которых изучается вопрос, сопоставима ли одна методика с другой (не хуже, но и не лучше), и на исследования соответствия стандарту (non-inferiority), в которых изучается вопрос, не хуже ли одна методика, чем другая.

Историческая справка

Основные принципы последовательного анализа заложены еще в 40-х годах XX века Абрахамом Вальдом, который разработал последовательный тест отношения вероятностей — SPRT (англ. sequential probability ratio test) — новый метод, необходимый для принятия решений на каждом этапе сбора данных [5]. Первоначально SPRT разработан для использования в исследованиях по контролю качества в сфере производства с целью как можно раньше принимать или отклонять партии изготовленных изделий по причине производственного брака [6].

В 70-х и 80-х годах XX века принципы последовательного анализа Вальда расширены до концепции группового последовательного дизайна [7]. Пионеры в этой области Стюарт Дж. Покок, Питер С. О’Брайен и Томас Р. Флеминг разработали для каждого этапа промежуточного анализа специальные пограничные p-value, при достижении которых исследование может быть обоснованно завершено по причине наличия явно выраженного эффекта или же по причине бесперспективности (тщетности — англ. futility) данного исследования [8, 9].

ГПД в своем первоначальном виде подразумевал наличие равноудаленных промежуточных анализов данных [10]. В настоящее время ограничение равноудаленности точек анализа решено с помощью обсуждаемой далее функция альфа-расхода [11]. Тем не менее основной принцип принятия решений относительно преждевременного завершения исследования остался незыблемым.

Терминологическая база группового последовательного дизайна

Фиксированный объем выборки (Nfix) — заранее определенное количество пациентов, которые будут включены в исследование с фиксированным дизайном (без промежуточных анализов данных) [12].

Максимальный объем выборки (Nmax) — заранее запланированное максимальное количество пациентов, которые могут быть включены в исследование с ГПД, если оно будет продолжаться до окончательного анализа без досрочного прекращения. Данный объем выборки всегда немного больше, чем фиксированный объем выборки, ввиду необходимости удержания вероятности ошибок первого и второго рода на заданном изначально уровне (например, α — 0,05, β — 0,1) в условиях множественного тестирования гипотезы. Соотношение максимального и фиксированного объемов выборки (Nmax/Nfix) называется коэффициентом инфляции (англ. inflation factor). Переменные, влияющие на коэффициент инфляции, отражены на рис. 1.

Рис. 1 (авторский). Параметры группового последовательного дизайна, влияющие на коэффициент инфляции и максимальный объем выборки.

Z-тест — параметрический статистический критерий, используемый для определения наличия/отсутствия статистически значимых различий между двумя независимыми выборками, данные которых представлены в количественном формате (например, уровень гемоглобина крови) и имеют нормальное распределение и известное среднеквадратическое отклонение для сравниваемых выборок. При применении Z-теста на выходе будут получены два важных значения: Z-score и p-value, по которым можно будет судить о наличии или отсутствии различий между основной и контрольной группами. Именно эти значения используются в ГПД для обозначения границ эффективности, бесперспективности и вреда (см. ниже). При нормальном распределении количественных данных указанный тест будет предпочтительным в случае сравнения независимых выборок большого объема. В ином случае допустимо использование непараметрических статистических тестов для промежуточных анализов, ведь значения p-value и Z-score (стандартизованная оценка критерия) также могут быть вычислены при их использовании.

Кумулятивная вероятность ошибки первого типа (англ. Familywise Error RateFWER) — определяется как вероятность совершения хотя бы одной ошибки первого типа при проведении множественного тестирования гипотезы. Основная задача исследователей при проведении промежуточных анализов — удержать кумулятивную вероятность ошибки первого типа ниже заданного уровня 5%. Причина увеличения FWER при проведении множественного тестирования гипотезы заключается в явлении альфа-инфляции.

Альфа-инфляция (англ. alpha inflation) — это явление роста вероятности ошибки первого типа (α) при проведении множества статистических тестов для проверки одной гипотезы. Степень инфляции уровня альфа (α) описывается уравнением:

1–(1–α)n,

где n — это количество тестирований гипотезы.

Результат данного уравнения определяет значение кумулятивной вероятности ошибки первого типа [FWER=1–(1–α)n].

Так, в исследованиях с фиксированным дизайном использование в рамках единственного итогового анализа уровня α=0,05 (двустороннего) означает 5% вероятность совершить ошибку первого типа [1–(1–0,05)1=1–0,95=0,05]. Однако в клиническом исследовании с двумя промежуточными и одним итоговым анализом данных (например, после того как 50%, 70% и 100% пациентов достигнут первичной конечной точки), в каждом из которых используется уровень α=0,05, кумулятивная вероятность ошибки первого типа после проведения итогового анализа возрастает до 14,3%, согласно приведенной выше формуле [1–(1–0,05)3] [13], поскольку выполнено множественное (3 раза) сравнение для проверки одной и той же гипотезы.

Функция альфа-расхода (англ. alpha-spending function) — в контексте ГПД клинических исследований представляет собой математическую функцию, определяющую распределение (расходование) кумулятивной вероятности ошибки первого типа (α) на протяжении нескольких этапов анализа данных при условии сохранения ее в пределах заранее установленного уровня (как правило, на уровне менее 0,05). Таким образом, в ГПД выполняется множественное тестирование гипотезы и именно функция α-расхода позволяет удержать FWER на всех этапах ниже заданного уровня 5%. По своему смыслу функция α-расхода очень похожа на поправку Бонферрони, которая является обоснованным, но консервативным подходом к контролю вероятности ошибки первого рода для множественных сравнений. Более того, поправка Бонферрони позволяет внести корректировку вероятности только ошибки первого рода, но не второго, поэтому не может являться полноценной альтернативой последовательному групповому дизайну клинического исследования по современным меркам. При планировании исследования с ГПД необходимо определиться с видом α-функции, которая позволит исследователям досрочно завершить исследование по причине явно выраженного эффекта. Чаще всего α-функция вычисляется тремя методами: О’Брайена—Флеминга, Покока, Хейбиттла—Пето. Выбор функции зависит от специфики испытания, включая ожидаемый эффект лечения, темпы накопления и желаемую гибкость при досрочном прекращении исследования.

Функция α-расхода О’Брайена—Флеминга реализует подход, при котором бóльшая часть величины альфа (α) «расходуется» на более поздних этапах анализа. При этом на ранних этапах нет чересчур низких значений уровня α [14]. Функция α-расхода Хейбиттла—Пето диктует более строгие критерии, обычно требующие, чтобы p-value при каждом промежуточном анализе было менее 0,001 [14]. Функция α-расхода Покока и ее использование характеризуются тем, что величина альфа «расходуется» равномерно на протяжении всех этапов анализа. Функция Покока зачастую критикуется исследователями, так как по сравнению с предыдущими функциями она усложняет достижение необходимого уровня значимости на итоговом этапе анализа [14]. Для большей наглядности разницы данных подходов приводим таблицу расчета функций α-расхода при равноудаленности этапов анализа данных (таблица).

Границы эффективности для α-функций расхода на основании методов О’Брайена—Флеминга, Хейбиттла—Пето и Покока [14]

Количество этапов анализа

Номер промежуточного анализа

Функция α-расхода

методы

О’Брайена—Флеминга

Хейбиттла—Пето

Покока

Z-score

α

Z-score

α

Z-score

α

2

1

2,782

0,0054

3,000

0,002

2,178

0,0294

2

1,967

0,0492

1,960

0,05

2,178

0,0294

3

1

3,438

0,0006

3,291

0,001

2,289

0,0221

2

2,431

0,0151

3,291

0,001

2,289

0,0221

3

1,985

0,0471

1,960

0,05

2,289

0,0221

4

1

4,084

0,00005

3,291

0,001

2,361

0,0182

2

2,888

0,0039

3,291

0,001

2,361

0,0182

З

2,358

0,0184

3,291

0,001

2,361

0,0182

4

2,042

0,0412

1,960

0,05

2,361

0,0182

5

1

4,555

0,000005

3,291

0,001

2,413

0,0158

2

3,221

0,0013

3,291

0,001

2,413

0,0158

3

2,630

0,0085

3,291

0,001

2,413

0,0158

4

2,277

0,0228

3,291

0,001

2,413

0,0158

5

2,037

0,0417

1,960

0,05

2,413

0,0158

Примечание. Уровень альфа (α) в данной таблице двусторонний.

Границы эффективности — это заранее вычисленные уровни p-value и Z-score, при пересечении которых клиническое исследование может быть завершено досрочно по причине наличия явно выраженного эффекта. Именно функция α-расхода определяет форму границы эффективности, и в зависимости от того, какая функция α-расхода будет использоваться, значения p-value и Z-score границ эффективности будут разными (см. табл. 1). Фактически граница эффективности — это графическое отображение математического смысла функции α-расхода.

Функция бета-расхода (англ. beta-spending function) это математическая функция, определяющая распределение (расходование) общей вероятности ошибки второго рода (β) на протяжении нескольких этапов анализа данных. Как видно из описания, функция α-расхода и функция β-расхода очень близки по своей сути, с разницей в том, что задача функции β-расхода — это поддержание необходимого уровня мощности исследования. β-функцию также чаще всего вычисляют по одному из трех методов: О’Брайена—Флеминга, Покока, Хейбиттла—Пето. Данная функция позволяет исследователям досрочно завершать исследование по причине его бесперспективности.

Границы бесперспективности — это заранее вычисленные уровни p-value и Z-score, при пересечении которых клиническое исследование может быть завершено досрочно по причине отсутствия эффекта. Границы бесперспективности могут быть обязательными и необязательными. При пересечении обязательной границы бесперспективности исследование должно быть завершено безапелляционно, в то время как при пересечении необязательной границы бесперспективности исследование может быть продолжено по решению руководящего комитета исследования. Тип границы бесперспективности обязательно должен быть определен заранее, так как данный параметр учитывается при определении точных значений границы бесперспективности. Функция β-расхода определяет форму границы бесперспективности, и в зависимости от того, какая функция β-расхода будет использоваться, значения p-value и Z-score границ бесперспективности будут разными. Фактически граница бесперспективности — это графическое отображение математического смысла функции β-расхода.

Двустороннее (двухвостое, англ. two-tailed) p-value и одностороннее (однохвостое, англ. one-tailed) p-value — это два варианта описанного ранее уровня p-value, полученные в результате применения двусторонних или же односторонних статистических тестов соответственно. Оба варианта используются для проверки гипотезы о наличии или отсутствии различий между сравниваемыми группами. Различие заключается в том, что одностороннее p-value показывает не только статистическую значимость эффекта, но и направление различий между группами (т.е. проверяется значимость того, что величина изучаемого параметра в исследуемой группе именно меньше или именно больше, чем в контрольной группе, а не просто отличается).

В ГПД для обозначения границ эффективности и бесперспективности используются односторонние p-value.

Как двустороннее, так и одностороннее значение p-value вычисляются на основе рассчитанного значения статистического теста (как параметрического, так и непараметрического). Например, Z-score (стандартизированная оценка, z-оценка), равная 1,96 (или –1,96), соответствует двустороннему p-value, равному примерно 0,05 [15]. Это означает, что при использовании двустороннего теста различия между группами считаются статистически значимыми, если вычисленное значение p-value (двустороннее) меньше 0,05 или если Z-score больше 1,96, равно как и меньше –1,96. То же самое значение Z-score, равное 1,96, соответствует одностороннему p-value, равному примерно 0,025, если проверяется гипотеза о том, что значение изучаемого параметра в основной группе больше, чем в контрольной группе. Аналогично значение Z-score, равное –1,96, соответствует одностороннему p-value, равному примерно 0,025, но для проверки гипотезы о том, что значение в основной группе меньше, чем в контрольной группе.

Визуализация границ эффективности и бесперспективности исследований эффективности и интерпретация результатов

В исследованиях с фиксированным дизайном имеется лишь одна граница (α=0,05), относительно которой мы принимаем решение: p-value (двустороннее) ≥0,05 — методика неэффективна, p-value (двустороннее) <0,05 — методика эффективна (примечание: обсуждается вывод исследований дизайна эффективности, superiority trial). Следует отметить, что одна граница формирует две области: эффективности и неэффективности. В случае ГПД мы имеем две границы — границу эффективности и границу бесперспективности, которые обозначаются рассчитанными значениями Z-score и односторонними значениями p-value для каждого конкретного случая исследования. Заметим, что наличие двух границ приводит к формированию трех областей: эффективности, неопределенности и бесперспективности. С целью демонстрации построения границ авторский коллектив предлагает спланировать проведение клинического исследования с групповым последовательным дизайном. В качестве исходных условий выберем следующие: количество этапов анализа (промежуточные анализы вместе с итоговым) — 5; мощность исследования — 90%; вероятность ошибки первого рода (α) — 5%; рассчитанный фиксированный объем выборки (Nfix) — 276 пациентов; этапы промежуточных анализов — 50%, 65%, 80% и 90% от максимального объема выборки (Nmax); функция α-расхода для границы эффективности — функция О’Брайена—Флеминга; функция β-расхода для границы бесперспективности — функция О’Брайена—Флеминга; тип границы бесперспективности — необязательный. Nmax в таком случае составит 313 пациентов вместо 276. На рис. 2 граница эффективности разделяет области эффективности и неопределенности. Граница бесперспективности разделяет области бесперспективности и неопределенности. В данном примере первый промежуточный анализ проводится на этапе, когда 157 пациентов завершат исследование, это составляет 50% от Nmax (313 пациентов). Чтобы завершить исследование на этапе первого промежуточного анализа по причине явно выраженного эффекта, расчетный уровень p-value (одностороннего) при сравнении контрольной и основной групп должен быть менее 0,0015 (а не 0,05 как обычно). Если же расчетный уровень p-value составил больше 0,3504, то исследование может быть завершено по причине бесперспективности в условиях выбора необязательной границы. В случае если ни граница эффективности, ни граница бесперспективности не пересечены, т.е. 0,0015≤p-value≤0,3504, то можно заключить, что на текущем этапе результаты первого промежуточного анализа свидетельствуют о неопределенности и исследование необходимо продолжить до следующего промежуточного анализа. На втором этапе промежуточного анализа, когда 203 пациента завершат исследование (65% от Nmax), границей эффективности будет уровень p-value (одностороннего) равный 0,0050, а границей бесперспективности — 0,1650. При достижении Nmax (313 пациентов, 100%) к этапу проведения последнего итогового анализа данных границы эффективности и бесперспективности для данного дизайна исследования сходятся. Таким образом, если расчетный уровень p-value (одностороннего) при сравнении контрольной и основной групп на итоговом этапе исследования будет менее 0,0188 (или двустороннее p-value менее 0,0376), это будет свидетельствовать о том, что группы статистически значимо различаются. Если p-value (одностороннее) будет более 0,0188 (или двустороннее p-value более 0,0376), то статистически значимых различий нет (см. рис. 2). Важно, что для исследований equivalence (эквивалентности) или non-inferiority (соответствия стандарту) подход, приведенный на рис. 2, неприменим, так как в данных вариантах исследований иные области результата.

Рис. 2. Схематическое изображение границ эффективности и бесперспективности для гипотетического исследования эффективности с применением группового последовательного дизайна.

Ось абсцисс — объем выборки (общее количество пациентов, включенных в исследование); ось ординат слева — значение Z-score; ось ординат справа — значение p-value; сплошная черная кривая — линия, разделяющая область эффективности и область неопределенности; пунктирная черная кривая — линия, разделяющая область бесперспективности и область неопределенности; — область эффективности; — область неопределенности; — область бесперспективности; уровни p-value (одностороннего) в блоках с фоном — границы эффективности; уровни p-value (одностороннего) в блоках с фоном — границы бесперспективности; p-value (одностороннее) в блоке с фоном — критический уровень значимости для итогового анализа. Данный рисунок описывает границы эффективности и бесперспективности только для исследования эффективности с групповым последовательным дизайном. Исследования соответствия стандарту и эквивалентности имеют иные границы эффективности и бесперспективности.

Граница вреда исследований эффективности: условия прекращения исследования по соображениям безопасности

В рамках ГПД можно определять не только границы эффективности и границы бесперспективности, но и границы вреда. Схематическое изображение областей принятия решений и соответствующих границ представлено на рис. 3.

Рис. 3. Схематическое изображение границ эффективности, бесперспективности и «вреда» для исследования эффективности с групповым последовательным дизайном (адаптировано из [16]).

Ось абсцисс — объем выборки (общее количество пациентов, включенных в исследование); ось ординат слева — значение Z-score; ось ординат справа — значение p-value; кривая с черными точками в верхней части графика — линия, разделяющая область эффективности и область неопределенности; кривая с черными точками в нижней части графика — линия, разделяющая область «вреда» и область бесперспективности; кривая с белыми точками — линия, разделяющая область бесперспективности и область неопределенности; — область эффективности; — область неопределенности; — область бесперспективности; — область «вреда»; надпись с фоном — граница эффективности для первого промежуточного анализа; надпись с фоном — граница «вреда» для первого промежуточного анализа; p-value указано одностороннее.

Фактически граница вреда является зеркальным отражением границы эффективности относительно оси абсцисс, поэтому значения уровня p-value для границы эффективности и границы вреда одинаковы, разница лишь в направлении различий, которое можно определить по значению Z-score либо по описательным характеристикам сравниваемых выборок. Практически это означает, что одно и то же изменение, направленное в разные стороны, воспринимается исследователями по-разному. Например, 5% статистически значимое снижение летальности при применении нового препарата указывает на эффективность терапии, в то время как 5% статистически значимое увеличение летальности говорит о вреде препарата. В первом случае исследование может быть преждевременно завершено по причине эффективности, во втором случае — по причине вреда, но значения уровня p-value в обоих случаях будут одинаковыми.

Важно, что критерии прекращения клинического исследования в связи с причинением вреда пациенту должны быть заранее определены в протоколе исследования с учетом мнения экспертов изучаемой области относительно его (вреда) клинической значимости [16]. Это особенно важно ввиду широкого понятия вреда и различных вариантов соотношения вреда и пользы. Так, статистически значимое увеличение частоты тошноты не может являться основанием для прекращения исследования нового химиотерапевтического препарата, потенциально увеличивающего исходы выживаемости пациентов.

Существуют два принципиальных варианта преждевременного завершения исследования по причине вреда.

Этические соображения. Преждевременное завершение исследования по этическим соображениям возможно в том случае, если тенденции в вопросах вреда, наблюдаемые в процессе промежуточного анализа, значительно превышают потенциальную пользу. Так, в 1992 г. по требованию комитета по мониторингу данных было рекомендовано прекратить исследование CONSENSUS II, в рамках которого изучалось использование эналаприла в сравнении с плацебо у пациентов с острым инфарктом миокарда. Исследование завершено преждевременно по причине тенденции к более высокой частоте развития ранней гипотензии и повышению летальности от прогрессирующей сердечной недостаточности в основной группе по сравнению с контрольной [17].

Статистически значимый отрицательный эффект. Преждевременное завершение исследования по причине статистически значимого отрицательного эффекта возможно в случае обнаружения такого эффекта при проведении промежуточного анализа. Тем не менее не следует забывать о соотношении клинического эффекта вреда и вероятной пользы при решении вопроса о прекращении исследования по указанной выше причине. Примером такого варианта завершения исследования может являться исследование BART 2008 г., в рамках которого проводилось сравнение апротинина и аналогов лизина при кардиохирургических операциях высокого риска. Данное исследование прекращено досрочно по причине более высокой частоты летальных исходов у пациентов, получавших апротинин [18]. Относительный риск смерти в группе апротинина по сравнению с таковым в двух других группах, получавших аналоги лизина, составил 1,53 (95% ДИ 1,06—2,22).

Преимущества группового последовательного дизайна

Мы выделяем следующие преимущества группового последовательного дизайна.

Ресурс-ориентированность. Использование данного вида дизайна позволяет получать доказательства результативности вмешательства (методики/препарата) до момента формирования всей выборки. С одной стороны, эффективные вмешательства с большим клиническим эффектом могут быть обнаружены быстрее, чем в фиксированном варианте дизайна исследования, что позволит быстрее внедрить исследуемые вмешательства в клиническую практику, а также высвободить исследовательский ресурс на новые исследования. С другой стороны, неэффективные методики/препараты также могут быть обнаружены быстрее, что позволяет не тратить время и исследовательский ресурс на их изучение.

Безопасность. В рамках исследований крайне важно рассматривать вопрос безопасности новых вмешательств. Особенно важной данная задача представляется в исследованиях эквивалентности, в которых изначально предполагается, что исследуемое вмешательство «не лучше, но и не хуже». Наличие ГПД позволяет подтверждать/опровергать безопасность исследуемой методики/препарата в рамках промежуточных анализов данных. Зафиксированное на этапе промежуточного анализа неблагоприятное влияние вмешательства позволяет завершить исследование преждевременно, не подвергая пациентов необоснованному риску.

Недостатки группового последовательного дизайна

Выделяют следующие недостатки группового последовательного дизайна.

1. Профессиональная требовательность. Групповой последовательный дизайн крайне требователен к уровню профессионализма исследовательской группы:

а) подразумевается наличие у команды глубокого уровня знаний принципов доказательной медицины и статистического анализа, так как все этапы промежуточного анализа, методы статистического анализа при его необходимости, выбор функций расхода, правила принятия решений после каждого этапа анализа должны быть определены в протоколе исследования до начала набора пациентов;

б) каждый промежуточный анализ требует подготовки базы данных исследования к статистическому анализу, что происходит много раз за период исследования. Данная процедура подразумевает не только занесение данных в электронном виде, но и проверку достоверности занесенных данных, независимую оценку клинических исходов пациентов несколькими независимыми исследователями, выявление неоформленных особенностей течения периода наблюдения и т.д.;

в) соблюдение принципов конфиденциальности результатов промежуточного анализа, в том числе для членов исследовательской группы, непосредственно задействованных в наборе пациентов. Знание о статистически незначимых тенденциях способно привести в ряде случаев к возникновению систематических ошибок в работе исследовательской группы.

2. Значительный объем выборки. Объем выборки, необходимый для проведения исследования с групповым последовательным дизайном, исчисляется сотнями пациентов. Причина такого рекомендованного авторами данной статьи минимального объема выборки кроется в большом удельном весе каждого исхода при малом объеме выборки. В таких условиях величина эффекта может быть сильно переоценена за счет случайности при формировании выборки (random error) (рис. 4).

Рис. 4. Схематическое изображение вариабельности размера эффекта и уровня p-value в зависимости от объема выборки.

Ось абсцисс — объем выборки (доля пациентов, включенных в исследование); ось ординат слева — значение размера эффекта; ось ординат справа — значение p-value; — реальная величина размера эффекта; — наблюдаемый эффект в исследовании; — промежуточные анализы; — промежуточные анализы с ложноположительным результатом.

3. Преждевременность выводов. Исследование с групповым последовательным дизайном с первичной конечной точкой, оценивающей краткосрочные исходы, рискует предоставить медицинскому сообществу преждевременные выводы в случае завершения при промежуточном анализе. Проведение промежуточного анализа инициируется при прохождении определенным процентом пациентов временной рамки для оценки первичной конечной точки, поэтому в случае оценки краткосрочных результатов такой подход может привести к преждевременности выводов и даже к их некорректности для долгосрочных исходов.

Основания для проведения исследования с групповым последовательным дизайном

1. Ожидаемая высокая величина эффекта. ГПД позволяет сохранить исследовательские и временные ресурсы.

2. Высокий вероятный риск нежелательных эффектов. ГПД позволяет не допустить использования опасного вмешательства у всего планируемого количества пациентов.

3. Сильная неопределенность относительно эффекта лечения. ГПД позволяет сохранить ресурс за счет возможности определения бесперспективных вмешательств.

4. Условия ограниченного временного ресурса. ГПД позволяет провести исследования в короткие сроки с целью скорейшего получения результатов относительно вмешательства (важно в условиях эпидемии или пандемии).

Рекомендации по использованию группового последовательного дизайна в исследованиях эффективности

При планировании и проведении исследований с ГПД мы предлагаем придерживаться следующих принципов работы с целью повышения качества исследований.

1. Не проводить клинические исследования с ГПД при фиксированном объеме выборки менее 200 пациентов.

2. Указывать наличие промежуточных анализов данных (ГПД) и их подробное описание в протоколе клинического исследования, а также при регистрации клинического исследования в международных базах данных исследований.

3. В качестве первичной конечной точки в клинических исследованиях выбирать жесткие, важные для пациентов конечные точки, характеризующие среднесрочный или долгосрочный периоды.

4. При проведении клинических исследований использовать следующую частоту промежуточных анализов:

а) объем выборки 200—299 пациентов — 1 промежуточный анализ не менее чем на 70% от максимального объема выборки;

б) объем выборки 300—399 пациентов — 1 промежуточный анализ не менее чем на 60% от максимального объема выборки;

в) объем выборки 400—499 пациентов — 1 промежуточный анализ не менее чем на 50% от максимального объема выборки;

г) объем выборки 500—1000 пациентов — не более 2 промежуточных анализов, первый из них не менее чем на 50% от максимального объема выборки;

д) объем выборки более 1000 пациентов — не более 3 промежуточных анализов, первый из них не менее чем на 40% от максимального объема выборки.

5. В случае получения данных с нормальным распределением использовать методы параметрической статистики.

6. В случае получения данных с распределением, отличным от нормального, использовать методы непараметрической статистики (т.е. не применять нормализацию данных).

7. Рассмотреть использование метода О’Брайена—Флеминга для расчета функций расхода как для границы эффективности (α), так и для границы бесперспективности (β) ввиду наиболее либеральных критериев.

8. Использовать необязательный тип границы бесперспективности с целью наличия возможности продолжения исследования по решению руководящего комитета исследования.

Готовые к использованию шаблоны группового последовательного дизайна

Авторы данной статьи в помощь всем заинтересованным разработали несколько готовых шаблонов для ГПД, которые опубликованы в методических рекомендациях (ISBN: 978-5-6051624-4-5; https://disk.yandex.ru/i/us9Gs5HzDVaDbg), и которые можно брать за основу для новых исследований.

Заключение

Проведение крупных рандомизированных контролируемых исследований в настоящее время является неотъемлемой частью медицинской науки. Возможность преждевременного завершения исследования позволяет не только экономить научные и временные ресурсы, но и предотвращать вероятное негативное воздействие исследуемых вмешательств на здоровье пациентов. Представленные медицинскому сообществу рекомендации и принципы интерпретации результатов способны улучшить подходы к работе исследователей с данным видом адаптивного дизайна исследований эффективности при множественном тестировании основной гипотезы исследования (первичной конечной точки).

Авторы заявляют об отсутствии конфликта интересов.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail

Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.