Э. Джастис, К. Ковински, Дж. Берлин
Оценка обобщаемости прогноза


Translated, with permission of the ACP—ASIM, from: Justice A.C., Covinsky K.E., Berlin J.A.. Assessing the generalizability of prognostic information. Ann Intern Med 1999;130:515—24.


Врачам часто приходится прогнозировать течение болезни, и естественно, что они стремятся повысить точность своих оценок. С этой целью разрабатываются различные прогностические системы. В данной работе предлагается способ оценки достоверности (точности и избирательности) и обобщаемости (воспроизводимости и применимости) прогноза, полученного с помощью таких систем. Воспроизводимость — это возможность получения точного прогноза у больных, которые не участвовали в разработке прогностической системы, но принадлежит к той же популяции. Применимость прогноза предполагает, что он достоверен в других условиях, т.е. в других популяциях больных или при других методах сбора и обработки информации. Обобщаемость прогноза обычно зависит от времени и места проведения исследования, используемых методов, стадии и течения изучаемого заболевания, а также от длительности наблюдения.

В качестве примера приводится использование результатов определения стадии рака толстой кишки по Дьюксу и Джесу применительно к больному, страдающему раком ободочной кишки. Предлагаемый способ пригоден для оценки обобщаемости прогноза, полученного с помощью любых прогностических систем, — дискретных (как классификации Дьюкса и Джеса), непрерывных или позволяющих определять прогноз в различных временных точках, поскольку сама система при этом рассматривается как "черный ящик" (т.е. оценивается лишь конечный результат ее применения). Чтобы оценить обобщаемость прогноза, нужно проверить его точность в различных условиях. Чем более многочисленны и разнообразны эти условия, тем вероятнее, что прогноз окажется достоверным и в других ситуациях.

Представьте, что вы получили результаты обследования 45-летнего учителя из Кливленда (штат Огайо, США), страдающего раком ободочной кишки. Хирург диагностировал стадию C1 по классификации Дьюкса (опухоль в пределах стенки кишки с метастазами в 1 из 28 регионарных лимфоузлов), а гистолог — IV стадию по классификации Джеса. Каким образом на основании полученных данных можно судить о прогнозе у этого больного?

Времени мало. Проведя поиск в базе данных MEDLINE по ключевым словам "Дьюкс" и "Джес", вы обнаруживаете 18 статей, опубликованных с 1966 по 1997 г. [1—18]. В 4 из них представлены независимые сообщения о показателях смертности при раке толстой кишки [8, 11, 17, 19]. Кроме того, изучив оригинальные статьи, посвященные использованию классификаций Дьюкса и Джеса, вы узнаете, что обе классификации были разработаны в госпитале Св. Марка в Лондоне более 30 лет назад [20, 21]. Классификация Дьюкса основана на оценке глубины инвазии опухоли, наличия регионарных и отдаленных метастазов [20], а классификация Джеса — на данных микроскопического исследования опухолевой ткани [21]. Однако сведения о смертности при различных стадиях заболевания противоречивы для обеих классификаций. Какую классификацию и какие данные о смертности следует предпочесть?

Прогнозировать течение болезни приходится часто [22, 23]. Чтобы прогноз был стандартизованным и как можно более достоверным, создаются прогностические системы, в которых учитываются прогностические факторы и стадии заболевания, используются правила принятия решений, статистические модели и компьютерные алгоритмы [24, 25]. Методы, применяемые при разработке прогностических систем, разнообразны, однако во всех случаях необходимо отобрать группу больных, имеющих общий признак (заболевание или состояние), наблюдать их в течение некоторого времени (оценивая при этом клинические исходы) и выявить связь определенных характеристик этих больных с конкретным исходом. В дальнейшем использование прогностической системы позволит предсказать тот или иной исход заранее. Однако определенная система не всегда применима в другой выборке больных, отличающейся от исходной, так как точность прогноза при этом может существенно снижаться (т.е. система оказывается не универсальной) [26].

Хотя оценке прогностических систем посвящено много публикаций [25, 27—40], проблема обобщаемости результатов прогнозирования рассматривается лишь в немногих из них [29]. Основное внимание уделяется достоверности прогноза, которая зависит от характеристик исходной выборки, используемых в статистической модели переменных и методов разработки прогностической системы. Эти факторы очень важны, но их нельзя считать достаточными для будущей обобщаемости прогноза (т.е. его применимости к другим группам больных) [25].

В рамках данной статьи обосновывается необходимость систематической проверки обобщаемости прогноза. Вначале обсуждаются взаимосвязь между достоверностью и обобщаемостью прогноза, а также их компоненты (точность и избирательность, воспроизводимость и применимость). Далее описывается применимость прогноза в различных популяциях больных (т.е. отдельные типы применимости) и предлагается 5 последовательных уровней оценки внешней обоснованности прогноза. В качестве примера приводится использование результатов определения стадии рака толстой кишки по Дьюксу и Джесу применительно к больному, 45-летнему учителю, страдающему раком ободочной кишки. Предлагаемый способ пригоден для оценки обобщаемости прогноза, полученного с помощью прогностической системы любого уровня сложности, поскольку сама система при этом рассматривается как "черный ящик" (т.е. оценивается лишь конечный результат ее применения).

Адрес для корреспонденции: Amy C. Justice, MD, PhD, Pittsburgh Veterans Affairs Health Care System, Section of General Internal Medicine (11E), University Drive C, Pittsburgh, PA 15240, USA.

Достоверность и обобщаемость прогноза

Достоверность и обобщаемость прогноза — понятия взаимосвязанные (табл. 1). Достоверность отражает соответствие прогноза наблюдаемым исходам. Обобщаемость характеризует применимость прогноза к другим группам больных.

tab_1.gif (16514 bytes)

Компоненты достоверности прогноза

Прогноз может оказаться недостоверным по двум причинам: из-за низкой точности (вероятность развития клинического исхода завышена или занижена) или низкой избирательности (не учитывается оценка индивидуального риска). Допустим, что в группе больных раком ободочной кишки 5-летняя смертность составила 50%. Если и по результатам применения прогностической системы риск смерти в течение 5 лет для каждого больного составил 50%, прогноз абсолютно точен, но одинаков как для выживших, так и для умерших больных. Если же вероятность смерти составила 10% для выживших и 11% для умерших, прогноз избирателен, но далеко не точен.

Относительное значение точности и избирательности прогноза зависит от цели прогнозирования. Конкретному больному в первую очередь необходима точная информация. Его волнует не то, насколько он болен по сравнению с другими, а вероятность того, что в течение определенного времени заболевание приведет к смерти или другому важному для него клиническому исходу (например, потере трудоспособности). Точность прогноза важна и для исследований в области здравоохранения: так, существенные различия между наблюдаемой и ожидаемой смертностью могут быть связаны не с качеством медицинской помощи, а с низкой точностью прогноза [41]. В свою очередь избирательность прогноза имеет значение в тех случаях, когда больных необходимо распределить на группы в зависимости от стадии заболевания (чтобы сравнить эффективность лечения на каждой стадии). В этом случае важно, чтобы в пределах каждой стадии вероятность того или иного клинического исхода была одинаковой [41].

Методы оценки точности и избирательности различны. Для оценки точности обычно используют графики соответствия ожидаемых и наблюдаемых исходов (калибровочные кривые) [42]. Избирательность измеряется как площадь под характеристической кривой [43] и принимает значения от 0,5 (прогноз не избирателен) до 1,0 (прогноз полностью избирателен). Если прогноз избирателен, то ожидаемый риск смерти для умерших больных выше, чем для выживших. Площадь под характеристической кривой можно непосредственно определить с помощью таблицы наблюдаемых и ожидаемых исходов [44]. Для непрерывных данных (с учетом или без учета выбывших больных) вычисления проводят с помощью методов C-статистики [37]. Подробнее оценка точности и избирательности обсуждается в других публикациях [37, 41—43, 45—49].

Компоненты обобщаемости прогноза

Какой бы точностью и избирательностью ни обладал прогноз, он бесполезен, если применим только к больным, участвовавшим в разработке прогностической системы [25, 50]. Обобщаемость прогноза определяется его воспроизводимостью и применимостью в других условиях.

Воспроизводимость прогноза

Прогноз воспроизводим в том случае, если он достоверен в популяции, из которой были выбраны больные, участвовавшие в разработке прогностической системы. Для оценки этого параметра определяют удельный вес факторов, действительно связанных с прогнозируемым исходом, и иных факторов, связь которых с исходом случайна. Чем меньше отношение числа оцениваемых факторов к числу больных, тем вероятнее, что на прогноз влияют случайные факторы [37]. Обобщаемость такого прогноза невелика.

Оценка воспроизводимости прогноза (его восприимчивости к влиянию случайных факторов) основана на повторном анализе собранных данных, подробно описанном в других работах [32, 35, 51, 52]. Методы, позволяющие оценить избирательность и точность прогноза, особенно важны при малом объеме исходной выборки [35, 52].

Применимость прогноза в других условиях

Прогноз может быть воспроизводимым (достоверным в популяции, из которой выбраны участвовавшие в разработке прогностической системы больные), но в других условиях его достоверность может снижаться из-за недооценки значимых прогностических факторов [37, 53]. Например, прогноз при раке молочной железы, не учитывающий наличие метастазов, может быть достоверным в группе больных без метастазов, но недостоверным в менее однородной популяции. В данном случае при разработке прогностической системы допущена явная ошибка, но может оказаться, что исследователи не выявили какой-либо неизвестный фактор, влияние которого на прогноз не столь очевидно. Поскольку любая выборка может оказаться однородной по значимому прогностическому признаку (известному или неизвестному), прогностическую систему необходимо оценивать в различных условиях.

Применимость прогноза предполагает, что он достоверен в других условиях, т.е. в других популяциях больных или при использовании других методов сбора и обработки данных. В рассматриваемом примере нужно определить, применимы ли классификации, разработанные в госпитале Св. Марка в Лондоне более 30 лет назад, к 45-летнему учителю из Кливленда, прошедшему обследование в американской больнице в 1998 г. При недооценке значимых прогностических факторов прогноз может быть воспроизводимым, но не применимым в других условиях [50]. Для оценки применимости прогноза прогностическую систему необходимо использовать в популяции, отличающейся от исходной (т.е. от той, из которой были отобраны больные, участвовавшие в разработке этой системы) [50].

В зависимости от признаков, по которым другая популяция или другой способ сбора и обработки данных отличаются от исходных, выделяют разные типы применимости. В данной статье рассмотрены 5 из них: историческая; территориальная; методологическая; применимость, связанная со стадией и течением болезни; применимость, связанная с длительностью наблюдения. В приведенных ниже примерах площадь под характеристической кривой измерялась с помощью стандартных методов, описанных в литературе [44]. Прогноз может быть применимым в большей или меньшей степени, в зависимости от условий его проверки. Каковы должны быть тип и степень применимости прогноза, зависит от цели прогнозирования.

Историческая применимость характеризует достоверность прогноза в когортах, отобранных в разные календарные периоды времени. Она особенно важна в тех случаях, когда тяжесть заболевания со временем может измениться, например в связи с появлением более совершенных методов ранней диагностики и лечения. Так, прогностическая система A.C. Justice et al. [54] обладала хорошей избирательностью в когорте больных СПИДом, госпитализированных в период с 1981 по 1987 г. (площадь под характеристической кривой составила 0,81 при 95% доверитель ном интервале — ДИ — от 0,73 до 0,89). Однако в двух последующих когортах (отобранных в периоды с 1987 по 1988 г. и с 1990 по 1991 г.) ее избирательность существенно снизилась: площадь под характеристической кривой составила соответственно 0,68 при ДИ от 0,61 до 0,75 и 0,65 при ДИ от 0,60 до 0,70 [55, 56]. В рассматриваемом примере следует выяснить, применимы ли результаты определения стадии заболевания по классификациям Дьюкса и Джеса, разработанным более 30 лет назад, к больному, который должен прийти на прием сегодня?

Территориальная применимость характеризует достоверность прогноза в когорте из другого географического региона. A.G. Mocroft et al. [57] разработали систему, позволяющую получить достаточно избирательный прогноз в трех когортах больных СПИДом, получавших лечение в лондонских клиниках (площадь под характеристической кривой составила соответственно 0,88 при ДИ от 0,83 до 0,92; 0,93 при ДИ от 0,67 до 1,0; 0,89 при ДИ от 0,86 до 0,95). Однако в итальянской когорте [58] избирательность прогноза оказалась гораздо ниже: площадь под характеристической кривой составила 0,71 при ДИ от 0,56 до 0,76. Удивительно, но авторы итальянского исследования решили, что их данные подтверждают обобщаемость прогностической системы A.G. Mocroft et al., вместо того, чтобы усомниться в этом. В рассматриваемом примере нужно выяснить, применимы ли классификации, разработанные в Лондоне (Великобритания), к больному из Кливленда (США).

Методологическая применимость характеризует достоверность прогноза при использовании других методов сбора и обработки данных. По мнению M.E. Charlson et al. [36], именно отсутствие методологической применимости чаще всего бывает причиной недостаточной обобщаемости прогноза. Различия в методах определения прогностических факторов и способах сбора данных, способны существенно влиять на достоверность прогноза. Если прогностическая система не может использоваться другими исследователями, ее обобщаемость сомнительна. Однако это справедливо только в том случае, когда нет явного несоответствия между используемыми и рекомендуемыми методами. Примером может служить оценка методологической применимости индекса коморбидности Чарлсона. При разработке и первичной проверке обоснованности применения этого индекса использовались данные историй болезни, избирательность индекса оказалась достаточно высокой (площадь под характеристической кривой составила соответственно 0,82 при ДИ от 0,78 до 0,87 и 0,98 при ДИ от 0,95 до 1,0) [26]. Однако, когда в ходе дальнейшей проверки обоснованности были использованы коды диагнозов при выписке, избирательность индекса существенно снизилась (площадь под характеристической кривой составила 0,57 при ДИ от 0,46 до 0,64) [59]. В рассматриваемом примере следует определить, согласуются ли методы интраоперационной и гистологической оценки стадии заболевания, применявшиеся когда-то в госпитале Св. Марка в Лондоне, с методами, используемыми хирургами и гистологами в Кливленде.

Применимость, связанная со стадией и течением заболевания , характеризует достоверность прогноза в группе больных с другой стадией или другим течением болезни. Стадия и особенности течения болезни влияют на информативность любых диагностических методов [60—62]. Что касается прогностических систем, то от степени тяжести заболевания зависит общая частота развития клинических исходов, что может сказаться, во-первых, на точности прогноза. В идеале больных надо распределить на группы в зависимости от риска смерти, чтобы точность прогноза в группах не снижалась; если группы значительно различаются по степени тяжести болезни, точность прогноза в них существенно варьирует [41]. Это обусловлено тем, что точность прогноза определяют в соответствии с общей частотой развития клинических исходов в исходной выборке. Во-вторых, тяжесть заболевания влияет и на избирательность прогноза, особенно если прогностическую систему применяют к выборке, в которой у большинства больных отмечается среднетяжелое и лишь у немногих — легкое или тяжелое течение болезни.

Применимость, связанная с длительностью наблюдения , характеризует достоверность прогноза, рассчитанного на другой период наблюдения. Различия в длительности наблюдения также влияют на частоту выявления клинических исходов, а следователь но, на точность прогноза. При изменении длительности наблюдения может измениться и избирательность прогноза. Если в прогностической системе не учитываются факторы, от которых зависит развитие ранних и отдаленных клинических исходов, то при изменении длительности наблюдения достоверность прогноза снижается. В рассматриваемом примере больному могут потребоваться сведения о выживаемости не за 5 лет, а за другой период времени. Позволяют ли результаты определения стадии опухоли по классификациям Дьюкса и Джеса получить такой прогноз?

Уровни оценки обоснованности прогноза

В зависимости от проверки применимости результатов прогнозирования в других условиях и степени его достоверности (точности и избирательности) в этих условиях мы выделяем 5 уровней оценки внешней обоснованности (табл. 2). Добиться всесторонней проверки обобщаемости прогностической системы невозможно, так как никогда нельзя быть уверенным в том, что прогноз можно будет применить к следующему больному, который придет на прием. Однако, чем более многочисленны и разнообразны условия, в которых прогноз оказался достоверным, тем вероятнее, что прогностическая система применима и в других ситуациях. Таким образом, оценка внешней обоснованности прогноза представляет собой непрерывный, кумулятивный процесс. Предлагаемую схему нельзя считать исчерпывающей, однако она вполне пригодна для стандартно организованных исследований.

0 уровень. Для подтверждения внутренней обоснованности прогноза (т.е. его достоверности только в выборке больных, отобранных для разработки прогностической системы) используют методы исключения данных (случайная расщепленная выборка) или методы повторного анализа полученной информации [32, 35, 36, 51, 52]. Эти методы помогают оценить только воспроизводимость и не позволяют судить о внешней обоснованности прогноза; однако воспроизводимость прогноза — необходимое условие его обобщаемости [63].

1-й уровень. Методы проспективного подтверждения внешней обоснованности прогноза применяются для проверки его достоверности в выборке, сформированной после разработки прогностической системы; они обычно используются самими разработчиками в рамках того же учреждения и позволяют оценить воспроизводимость прогноза и его применимость в группе больных, отобранных в другой период времени, незначительно отличающийся от исходного (историческая применимость). Иногда при этом оцениваются методологическая и территориальная применимость прогноза.

2-й уровень . Методы независимого подтверждения внешней обоснованности прогноза помогают определить его достоверность при условии, что данные были собраны независимыми исследователями. Как правило, подобная проверка проводится на базе другого учреждения и в другое время. Сохранение достоверности прогноза в таких условиях очень важно, поскольку характеристики новой выборки и используемые исследователями методы сбора и обработки данных скорее всего будут отличаться от исходных [36].

3-й уровень. В ходе многоцентровой проверки обоснованности прогноза определяется его достоверность в когортах, отобранных из разных территориальных регионов. При этом непосредственно оценивается территориальная, а в определенной мере и методологическая применимость. При разработке и проверке обоснованности применения прогностических систем исследователи довольно часто используют данные из разных регионов [64—67], однако о выявленных регионарных различиях сообщается редко. Мы полагаем, что если размеры выборки позволяют исключить влияние случайных факторов, такие различия необходимо отмечать. Многоцентровое формирование выборки позволяет также косвенно оценить применимость, связанную со стадией и течением болезни, поскольку в разных медицинских центрах эти характеристики могут различаться.

4-й уровень. Множественная независимая оценка обобщаемости прогноза представляет собой определение его достоверности при условии, что данные были собраны отдельными независимыми исследователями и в различных регионах. Это более надежный способ оценки методологической применимости. Применение прогностической системы несколькими независимыми исследователями позволяет с большей вероятностью выявить различия в методах, используемых при разработке системы и в повседневной клинической практике.

5-й уровень. Множественная независимая оценка обобщаемости прогноза с учетом разной длительности наблюдения представляет собой определение достоверности прогноза при условии, что данные были собраны отдельными независимыми исследователями в разных регионах и при разной продолжительности наблюдения. При прочих равных условиях наибольшей обобщаемостью обладает прогноз, рассчитанный на разную длительность наблюдения. Если прогноз представлен в виде кривых Каплана—Мейера [68], его точность и избирательность можно рассчитать для любого интересующего отрезка времени.

Составление прогноза для конкретного больного

Вернемся к рассматриваемому в данной статье примеру. На основе статей, посвященных использованию классификаций Дьюкса и Джеса, составим три сводные таблицы (табл. 3, 4 и 5; подробности составления этих таблиц приведены в разделе Приложение). Поскольку ни для одной из классификаций не была указана ожидаемая частота развития исходов в зависимости от стадии, оценить точность прогноза в исходной выборке не представляется возможным. Однако мы можем сравнить результаты, полученные при разработке этих классификационных систем, с результатами последующих исследований по проверке их обоснованности (рис. 1 и 2). В целом можно сказать, что при проверке обоснованности обеих классификаций точность прогноза снижается. Например, при раке толстой кишки в стадии B (по классификации Дьюкса) смертность колеблется от 14 до 53% (см. табл. 4 и рис. 1), а при раке III стадии (по классификации Джеса) риск смерти в течение ближайших 5 лет составляет от 33 до 67% (см. табл. 5 и рис. 2). Следовательно, применение обеих классификаций не позволяет получить достаточно точный прогноз.

Рис. 1. Оценка точности прогноза, основанного на результатах использования классификации Дьюкса.

Точки на графиках обозначают риск смерти в течение 5 лет по данным исследований, посвященных разработке и подтверждению обоснованности классификации Дьюкса (см. табл. 3). Если в статьях не были указаны показатели смертности для стадий B1, B2, C1 и C2, при расчетах использовались показатели смертности для стадий B и C.

Однако на более поздних этапах заболевания точность прогноза выше. При раке толстой кишки в стадии C (по классификации Дьюкса) смертность колеблется от 49 до 79% (см. табл. 4). В стадии C1 этот показатель немного ниже и более постоянен (от 49 до 57%), но данные об этой стадии были представлены только в двух исследованиях. При раке IV стадии (по классификации Джеса) смертность составляет от 70 до 84% (см. табл. 5 и рис. 2). Таким образом, по мере прогрессирования болезни точность прогноза увеличивается. Кроме того, для больных, участвовавших в разработке обеих систем, прогноз оказался достаточно избирательным (площадь под характеристической кривой составила 0,84 для классификации Дьюкса и 0,85 для классификации Джеса), причем в последующих исследованиях избирательность изменялась незначительно. Однако здесь возникают два вопроса: насколько различались условия при проверках обоснованности этих классификаций, и какие из этих условий в большей степени применимы к больному из Кливленда, штат Огайо?

Воспроизводимость

Ни в одном из исследований с применением классификаций Дьюкса и Джеса не использовались методы повторного анализа собранных данных, поэтому влияние случайных факторов на прогноз в исходной выборке оценить невозможно. Обе классификации достаточно простые, что повышает вероятность низкой воспроизводимости прогноза. Однако его достоверность может оказаться достаточно высокой, если при отборе больных, участвовавших в разработке классификаций, исследователи учитывали большое число параметров.

Примечание. * — в скобках указаны 95% доверительные интервалы; по возможности площадь под характеристической кривой оценивалась с помощью параметрических критериев, чтобы уменьшить влияние числа стадий [44]. нд — нет данных.

tab_4.gif (23937 bytes)

Примечание . * — классификация Дьюкса подверглась многочисленным изменениям, но во всех случаях стадии обозначали буквами A, B, C и D. Стадия D не была включена в анализ, так как сведения о ней приведены лишь в одном исследовании.

tab_5.gif (22371 bytes)

Историческая применимость

На разработку и оценку обоснованности применения классификации Джеса ушло 23 года (1960—1983). Классификация Дьюкса подверглась еще более тщательной проверке: она разрабатывалась с 1928 по 1952 г., а ее обоснованность оценивалась с 1960 по 1983 г. Стоит отметить, что за эти годы прогноз при раке толстой кишки существенно не улучшился. Тем не менее точность обеих систем со временем изменилась. В исследованиях, ближайших по времени к периоду разработки классификаций [20, 21], различия в показателях смертности на каждой стадии рака между исходной и последующей выборками были меньше, чем в исследованиях, проводимых позднее (см. рис. 1 и 2). В случае с больным из Кливленда предпочтительнее руководствоваться самыми современными сведениями: по данным E.R. Fisher et al. [17], риск смерти в течение ближайших 5 лет при раке в стадии C1 по Дьюксу составляет 57%, а в IV стадии по Джесу — 80% (см. табл. 4 и 5). Избирательность прогноза, основанного на той и другой классификации, по-видимому, изменилась не столь значительно (см. табл. 3).

Рис. 2. Оценка точности прогноза, основанного на результатах использования классификации Джеса.

Точки на графиках обозначают риск смерти в течение 5 лет по данным исследований, посвященных разработке и подтверждению обоснованности классификации Джеса (см. табл. 3). Поскольку в исследовании J.P. Neoptolemos et al. не приводятся данные о смертности в III стадии, на соответствующей кривой в этой точке указана средняя величина, рассчитанная по уровням смертности во II и IV стадиях.

Территориальная применимость

Классификации Дьюкса и Джеса разрабатывались в одном и том же госпитале в Лондоне. Их последующая оценка проводилась в Бирмингеме (Англия), Генуе (Италия), Мемфисе (штат Теннесси, США), а также в других клинических центрах США и Канады. По-видимому, применение обеих этих систем позволяет получить достаточно избирательный прогноз независимо от места проведения исследования (тем более что одно из самых последних исследований, посвященных оценке обоснованности рассматриваемых классификаций, проводилось именно в США).

Методологическая применимость

Существенное значение имеют два вопроса: 1) можно ли применять классификации, разработанные для рака прямой кишки, при раке ободочной кишки (как в исследованиях J.P. Neoptolemos et al. [8] и G.B. Secco et al. [19]); 2) сопоставимы ли методы сбора и оценки данных, использованные при разработке этих систем, с методами, которые использовали другие исследователи.

По-видимому, классификацию Дьюкса можно с достаточной степенью достоверности применять к больному раком ободочной кишки. Избирательность прогноза в исследованиях J.P. Neoptolemos et al. [8] и G.B. Secco et al. [19] оказалась такой же, как и в исследованиях, включавших только больных раком прямой кишки. По данным G.B. Secco et al., при использовании классификации Джеса площадь под характеристической кривой оказалась небольшой, причем этот показатель был значительно ниже, чем в исходной выборке (0,67 и 0,85 соответственно; см. табл. 3). Отмечено также существенное отклонение калибровочной кривой (см. рис. 2). Поэтому применимость классификации Джеса к больному раком ободочной кишки сомнительна. Более того, нельзя полагаться и на сопоставимость методов сбора и обработки данных, ведь микроскопическое исследование опухолевой ткани, забиравшейся у Вашего больного, проводилась в современной американской больнице, а не в лондонском госпитале Св. Марка [12]. Поэтому при составлении прогноза лучше ориентироваться на стадию рака, установленную на основе классификации Дьюкса.

Применимость, связанная со стадией и течением болезни

Общая 5-летняя смертность в исследованиях, посвященных подтверждению обоснованности обеих классификаций, значительно различалась (от 26 до 49%). Это свидетельствует о том, что тяжесть и течение заболевания весьма вариабельны. Избирательность прогноза, основанного на классификации Дьюкса (смертность в исходной выборке 42%), не зависит от общей смертности, в то время как избирательность прогноза, основанного на классификации Джеса (смертность в исходной выборке 26%), в выборках с низкой общей смертностью оказалась выше (см. табл. 5). Поскольку наш больной принадлежит к возрастной группе, для которой характерно более тяжелое течение заболевания, предпочтительнее использовать классификацию Дьюкса.

Применимость, связанная с длительностью наблюдения

Для обеих классификаций избирательность прогноза увеличивается, если длительность наблюдения превышает 1 год. Различия в избирательности более существенны в период между 1-м и 3-м годами наблюдения по сравнению с периодом между 3-м и 5-м годами (см. табл. 3). Обе системы позволяют получить достаточно точный долгосрочный прогноз. Сохранение избирательности в течение длительного времени указывает на то, что прогноз практически не зависит от продолжительности наблюдения .

Совокупная обобщаемость

Итак, проведена всесторонняя оценка обобщаемости прогноза, основанного на применении классификаций Дьюкса и Джеса (см. табл. 3, 4, 5, рис.1 и 2), включающая определение его исторической, территориальной (ряд стран Европы и Северной Америки), методологической применимости, применимости, связанной со стадией и течением болезни, а также применимости, связанной с длительностью наблюдения (5 лет). Проверку обоснованности применения классификаций проводили многие независимые исследователи в разных географических регионах и в разное время (т.е. она соответствует 5-му уровню оценки внешней обоснованности). Однако высокая точность и избирательность прогноза сохранялась не во всех исследованиях, поэтому в действительности его обобщаемость оказалась не столь высокой.

В целом и точность, и избирательность обеих систем значительно варьировали. Если сопоставить эти различия с конкретными стадиями болезни и различными видами применимости, можно лучше понять ограничения каждой из этих систем при оценке совокупной обобщаемости. Хотя ни одна из классификаций не сохраняет исходную точность, обе позволяют получить достаточно достоверный прогноз на более поздних стадиях заболевания. Оказалось также, что обобщаемость прогноза, основанного на использовании классификации Джеса, существенно ниже при раке ободочной кишки и в тех случаях, когда ее применяют другие исследователи. Классификация Дьюкса этими недостатками не обладает.

Итак, проведенный анализ имеющихся данных позволил получить полезную для нашего больного информацию. Теперь ему можно сообщить, что обоснованность применения обеих классификаций при определении стадии рака толстой кишки прошла тщательную проверку, подтвердившую достаточно высокую достоверность и обобщаемость прогноза на поздних стадиях заболевания. В соответствии с обеими классификациями у больного имеется рак ободочной кишки в последней стадии, при которой 5-летняя выживаемость составляет 40—50% (смертность — 50—60%). Используя кривые Каплана—Мейера, можно определить прогноз на любой другой интересующий больного промежуток времени. Сообщать эту информацию следует с большой осторожностью [69—71], учитывая ее возможное неблагоприятное психологическое воздействие [22], однако больной имеет право знать истинный прогноз [72, 73]. Эти вопросы рассмотрены в других работах [74—76].

Ограничения метода

Представленный метод оценки обобщаемости прогностической информации имеет ряд существенных ограничений. Во-первых, сопоставимость результатов исследований оценивается без учета их методологического качества. Рекомендации по определению методологического качества прогностических исследований приведены в других статьях [25, 27—40]. Тем не менее мы полагаем, что предлагаемый нами метод оценки совокупной внешней обоснованности результатов применения прогностической системы позволяет наиболее полно судить о ее качестве.

Во-вторых, классификации Дьюкса и Джеса были разработаны в период, когда еще не использовались методы повторного анализа данных. Это не позволяет определить, что в большей степени способствовало снижению исходной точности прогноза — его низкая воспроизводимость (внутренняя обоснованность) или только низкая применимость (внешняя обоснованность).

В-третьих, классификации Дьюкса и Джеса дискретны и достаточно просты (включают III и IV стадии соответственно), поэтому их применимость в других условиях низка. Эти классификации выбраны для того, чтобы рассматриваемый пример был понятен врачам, не знакомым со сложными прогностическими моделями. Тем не менее представленный здесь основной метод оценки обобщаемости прогноза можно применить к любой прогностической системе, которая позволяет судить о вероятности какого-либо определенного клинического исхода (например, срока первой госпитализации или рождения ребенка с низкой массой тела). Большинство описанных методик можно использовать также при анализе выживаемости с учетом выбывших из-под наблюдения больных [35, 37].

При прогнозировании течения болезни врачам следует использовать как можно больше источников прогностической информации, обобщаемость которой уже была подтверждена. Классификации Дьюкса и Джеса были выбраны лишь для иллюстрации описываемого метода. Другие источники, возможно, позволят получить дополнительную важную информацию.

Заключение

Обобщаемость (или внешняя обоснованность) прогноза означает, что он остается достоверным (т.е. точным и избирательным) в других группах больных [41, 64]. При снижении избирательности прогноза снижается и его точность [37, 41], однако при снижении точности избирательность может сохраняться. Поскольку относительная важность точности и избирательности зависит от цели прогнозирования, оценивать необходимо и ту, и другую характеристику. Кроме того, обобщаемость прогноза определяется его воспроизводимостью, а также применимостью в других условиях. Воспроизводимость можно оценить в выборке, участвовавшей в разработке прогностической системы, а для оценки применимости необходимо сформировать новую выборку больных.

Поскольку значение достоверности и обобщаемости прогноза для системы здравоохранения возрастает, методы получения такого прогноза усложняются. Чтобы оценить обобщаемость результатов прогнозирования, нужно проверить достоверность полученного прогноза в различных условиях. Чем более многочисленны и разнообразны эти условия, тем вероятнее, что прогностическая система позволит получить достоверный результат и в других случаях. Предложенный способ оценки достоверности и обобщаемости прогноза поможет врачам и исследователям лучше ориентироваться в современных методах работы с прогностической информацией.

Приложение

Поиск статей для обзора был проведен в базе данных MEDLINE (с 1966 г. по декабрь 1997 г.) по ключевым словам "Дьюкс" и "Джес". Из 18 найденных публикаций [1—18] 3 не содержали отчета об оригинальных исследованиях [7, 13, 16], а в 4 не оценивалась выживаемость [2, 4, 9, 10]. Данные 6 из оставшихся 11 статей не позволяли провести анализ таблиц смертности [1, 3, 5, 6, 12, 18]. Одна работа была опубликована в труднодоступном журнале (Minerva Chirurgica) [15]. Поиск по фамилии автора выявил статью с таким же названием, опубликованную в том же году в журнале Digestion [19]. В этой статье, а также в 3 публикациях, найденных при первоначальном поиске, содержались данные о смертности в зависимости от стадии заболевания [8, 11, 17, 19]. Поиск по библиографическим ссылкам позволил обнаружить 2 оригинальные статьи о разработке рассматриваемых классификаций [20, 21].

Выбирались данные об особенностях исследований (структура исследования, время его проведения, характеристики больных, стадия и течение заболевания, длительность наблюдения). Доля больных, у которых действительно наблюдался изучаемый исход, определялась непосредственно или рассчитывалась, исходя из имеющейся информации. При анализе смертности по кривым Каплана—Мейера два автора независимо друг от друга определяли риск смерти в течение 1, 3 и 5 лет. При этом согласованность их оценок была высокой (98%, или 87 случаев из 89) при отклонении показателей смертности в пределах 5%. Распределение смертности от рака по его стадиям (в %) рассчитывали как отношение числа случаев смерти на этой стадии к общему числу больных с данной стадией. Поскольку в большинстве публикаций время выбывания больных из-под наблюдения не указано, числитель и знаменатель определяли по исходным размерам выборки. В случае разногласий использовали среднее значение определяемого показателя. Площадь под характеристической кривой рассчитывали с использованием стандартного программного обеспечения на основании данных из отобранных публикаций [44].


Литература

1. Poller D.N., Baxter K.J., Shepherd N.A. p53 and Rb1 protein expression: are they prognostically useful in colorectal cancer? Br J Cancer 1997;75:87—93.

2. Jass J.R., Ajioka Y., Allen J.P., Chan Y.F., Cohen R.J., Nixon J.M., et al. Assessment of invasive growth pattern and lymphocytic infiltration in colorectal cancer. Histopathology 1996;28:543—8.

3. Secco G.B., Campora E., Fardelli R., Lapertosa G., De Lucchi F., Gianquinto D., et al. Chromogranin-A expression in neoplastic neuroendocrine cells and prognosis in colorectal cancer. Tumori 1996;82:390—3.

4. Liabakk N.B., Talbot I., Smith R.A., Wilkinson K., Balkwill F. Matrix metalloprotease 2 (MMP—2) and matrix metalloprotease 9 (MMP-9) type IV collagenases in colorectal cancer. Cancer Res 1996;56:190—6.

5. Ofner D., Riehemann K., Maier H., Riedmann B., Nehoda H., Totsch M., et al. Immunohistochemically detectable bcl—2 expression in colorectal carcinoma: correlation with tumour stage and patient survival. Br J Cancer 1995;72:981—5.

6. Gagliardi G., Stepniewska K.A., Hershman M.J., Hawley P.R., Talbot I.C. New grade—related prognostic variable for rectal cancer. Br J Surg 1995;82:599—602.

7. Vecchio F.M. The pathologist's role in the diagnosis and therapy of rectal cancer. Rays 1995;20:15—20.

8. Neoptolemos J.P., Oates G.D., Newbold K.M., Robson A.M., McConkey C., Powell J. Cyclin/proliferation cell nuclear antigen immunohistochemistry does not improve the prognostic power of Dukes' or Jass' classifications for colorectal cancer. Br J Surg 1995;82:184—7.

9. Darzi A., Lewis C., Menzies-Gow N., Guillou P.J., Monson J.R. Laparoscopic abdominoperineal excision of the rectum. Surg Endosc 1995;9:414—7.

10. Gagliardi G., Kandemir O., Liu D., Guida M., Benvestito S., Ruers T.G., et al. Changes in E—cadherin immunoreactivity in the adenoma—carcinoma sequence of the large bowel. Virchows Arch 1995;426:149—54.

11. Harrison J.C., Dean P.J., el-Zeky F., Vander Zwaag R. From Dukes through Jass: pathological prognostic indicators in rectal cancer. Hum Pathol 1994;25:498—505.

12. Deans G.T., Heatley M., Anderson N., Patterson C.C., Rowlands B.J., Parks T.G., et al. Jass' classification revisited. J Am Coll Surg 1994;179:11—7.

13. Fucci L., Pirrelli M., Caruso M.L. Carcinoma and synchronous hyperplastic polyps of the large bowel. Pathologica 1994;86: 371—5.

14. Ofner D., Totsch M., Sandbichler P., Hallbrucker C., Margreiter R., Mikuz G., et al. Silver stained nucleolar organizer region proteins (Ag—NORs) as a predictor of prognosis in colonic cancer. J Pathol 1990;162:43—9.

15. Secco G.B., Fardelli R., Lapertosa G., Fulcheri E., Rovida S., Ratto G.B., et al. [The prognostic value of Jass' histopathological classification of cancer of the left colon and rectum.]. Minerva Chir 1990;45:1347—53.

16. Jass J.R. Dukes and Jass systems [Letter]. Dis Colon Rectum 1990;33:721—2.

17. Fisher E.R., Robinsky B., Sass R., Fisher B. Relative prognostic value of the Dukes and the Jass systems in rectal cancer. Findings from the National Surgical Adjuvant Breast and Bowel Projects (Protocol R-01). Dis Colon Rectum 1989;32:944—9.

18. Stahle E., Enblad P., Pahlman L., Glimelius B. Can mortality from rectal and rectosigmoid carcinoma be predicted from histopathological variables in the diagnostic biopsy? APMIS 1989;97:513—22.

19. Secco G.B., Fardelli R., Campora E., Lapertosa G., Fulcheri E., Rovida S., et al. Prognostic value of the Jass histopathologic classification in left colon and rectal cancer: a multivariate analysis. Digestion 1990;47:71—80.

20. Dukes C.E., Bussey H.J. The spread of rectal cancer and its effect on prognosis. Br J Cancer 1958;12:309—20.

21. Jass J.R., Love S.B., Northover J.M. A new prognostic classification of rectal cancer. Lancet 1987;1:1303—6.

22. Christakis N.A. Prognostication and Death in Medical Thought and Practice. Philadelphia: Univ of Pennsylvania Pr; 1995.

23. Christakis N.A., Iwashyna T.J. Attitude and self-reported practice regarding prognostication in a national sample of internists. Arch Intern Med 1998;158:2389—95.

24. Wagner D.P., Knaus W.A., Harrell F.E., Zimmerman J.E., Watts C. Daily prognostic estimates for critically ill adults in intensive care units: results from a prospective, multicenter, inception cohort analysis. Crit Care Med 1994;22:1359—72.

25. Braitman L.E., Davidoff F. Predicting clinical states in individual patients. Ann Intern Med 1996;125:406—12.

26. Charlson M.E., Pompei P., Ales K.L., MacKenzie C.R. A new method of classifying prognostic comorbidity in longitudinal studies: development and validation. J Chronic Dis 1987;40:373—83.

27. Laupacis A., Wells G., Richardson S., Tugwell P. Users' guides to the medical literature. V. How to use an article about prognosis. Evidence—Based Medicine Working Group. JAMA 1994;272:234—7.

28. Heckerling P.S., Conant R.C., Tape T.G., Wigton R.S. Reproducibility of predictor variables from a validated clinical rule. Med Decis Making 1992;12:280—5.

29. Fletcher R.H., Fletcher S.W., Wagner E.H. Clinical Epidemiology. The Essentials. 3d ed. Baltimore: Williams & Wilkins; 1998.

30. Feinstein A.R. Clinical biostatistics. XIV. The purposes of prognostic stratification. Clin Pharmacol Ther. 1972;13:285—97.

31. Feinstein A.R. Clinical Judgment. Baltimore: Williams & Wilkins; 1967.

32. Wasson J.H., Sox H.C., Neff R.K., Goldman L. Clinical prediction rules. Applications and methodological standards. N Engl J Med 1985;313:793—9.

33. Laupacis A., Sekar N., Stiell I.G. Clinical prediction rules. A review and suggested modifications of methodological standards. JAMA 1997;277:488—94.

34. Senn S.J. Covariate imbalance and random allocation in clinical trials. Stat Med 1989;8:467—75.

35. Harrell F.E. Jr., Lee K.L., Califf R.M., Pryor D.B., Rosati R.A. Regression modelling strategies for improved prognostic prediction. Stat Med 1984;3:143—52.

36. Charlson M.E., Ales K.L., Simon R., MacKenzie R. Why predictive indexes perform less well in validation studies. Is it magic or methods? Arch Intern Med 1987;147:2155—61.

37. Harrell F.E. Jr., Lee K.L., Mark D.B. Tutorial in biostatistics. Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Stat Med 1996;15:361—87.

38. Baxt W.G. Application of artificial neural networks to clinical medicine. Lancet 1995;346:1135—8.

39. Wyatt J. Nervous about artificial neural networks? Lancet 1995;346:1175—7.

40. Hart A., Wyatt J. Evaluating black—boxes as medical decision aids: issues arising from a study of neural networks. Med Inf (Lond). 1990;15:229—36.

41. Ash A.S., Shwartz M. Evaluating the performance of risk—adjustment methods: dichotomous measures. In: Iezzoni LI, ed. Risk Adjustment for Measuring Health Care Outcomes. Ann Arbor, MI: Health Administration Pr; 1994:313—46.

42. Poses R.M., Cebul R.D., Centor R.M. Evaluating physicians' probabilistic judgments. Med Decis Making 1988;8:233—40.

43. Hanley J.A., McNeil B.J. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982;143:29—36.

44. Centor R.M. A Visicalc program for estimating the area under a receiver operating characteristic (ROC) curve. Med Decis Making 1985;5:139—48.

45. Diamond G.A. What price perfection? Calibration and discrimination of clinical prediction models. J Clin Epidemiol 1992;45:85—9.

46. Hilden J., Habbema D.F., Bjerregaard B. The measurement of performance in probabilistic diagnosis. II. Trustworthiness of the exact values of the diagnostic probabilities. Methods Inform Med 1978;17:227—37.

47. Hilden J., Habbema D.F., Bjerregaard B. The measurement of performance in probabilistic diagnosis. III. Methods based on continuous functions of the diagnostic probabilities. Methods Inform Med 1978;17:238—46.

48. Swets J.A. Measuring the accuracy of diagnostic systems. Science 1988;240:1285—93.

49. Yates J.F. External correspondence: decompositions of the mean probability score. Organizational Behavior and Human Performance 1982;30:132—56.

50. Lindsay M.R., Ehrenberg A.S. The design of replicated studies. American Statistician 1993;47:217—28.

51. Mosteller F., Tukey J.W. Data Analysis and Regression: A Second Course in Statistics. Reading, MA: Addison—Wesley; 1977.

52. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. Classification and Regression Trees. Pacific Grove, CA: Wadsworth and Brooks/Cole Advanced Books and Software; 1984.

53. Concato J., Peduzzi P., Holford T.R., Feinstein A.R. Importance of events per independent variable in proportional hazards analysis. I. Background, goals, and general strategy. J Clin Epidemiol 1995;48:1495—501.

54. Justice A.C., Feinstein A.R., Wells C.K. A new prognostic staging system for the acquired immunodeficiency syndrome. N Engl J Med 1989;320:1388—93.

55. Justice A.C., Aiken L.H., Smith H.L., Turner B.J. The role of functional status in predicting inpatient mortality with AIDS: a comparison with current predictors. J Clin Epidemiol 1996;49:193—201.

56. Stone V.E., Seage G.R. 3d, Hertz T., Epstein A.M. The relation between hospital experience and mortality for patients with AIDS. JAMA 1992;268:2655—61.

57. Mocroft A.J., Johnson M.A., Sabin C.A., Lipman M., Elford J., Emery V., et al. Staging system for clinical AIDS patients. Royal Free/Chelsea and Westminster Hospitals Collaborative Group. Lancet 1995;346:12—7.

58. Cozzi Lepri A., Pezzotti P., Phillips A.N., Petrucci A., Rezza G. Clinical staging system for AIDS patients [Letter]. Lancet 1995;346:1103.

59. Deyo R.A., Cherkin D.C., Ciol M.A. Adapting a clinical comorbidity index for use with ICD—9—CM administrative databases. J Clin Epidemiol 1992;45:613—9.

60. Ransohoff D.F., Feinstein A.R. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N Engl J Med 1978;299:926—30.

61. Shea J.A., Berlin J.A., Escarce J.J., Clarke J.R., Kinosian B.P., Cabana M.D., et al. Revised estimates of diagnostic test sensitivity and specificity in suspected biliary tract disease. Arch Intern Med 1994;154:2573—81.

62. Lachs M.S., Nachamkin I., Edelstein P.H., Goldman J., Feinstein A.R., Schwartz J.S. Spectrum bias in the evaluation of diagnostic tests: lessons from the rapid dipstick test for urinary tract infection. Ann Intern Med 1992;117:135—40.

63. Rothman K.J. Modern Epidemiology. Boston: Little, Brown; 1986.

64. Knaus W.A., Draper E.A., Wagner D.P., Zimmerman J.E. APACHE II: a severity of disease classification system. Crit Care Med 1985;13:818—29.

65. Brewster A.C.., Karlin B.G., Hyde L.A., Jacobs C.M., Bradbury R.C., Chae Y.M. MEDISGPS: a clinically based approach to classifying hospital patients at admission. Inquiry 1985;22:377—87.

66. Iezzoni L.I., Moskowitz M.A. A clinical assessment of MedisGroups. JAMA 1988;260:3159—63.

67. Alemi F., Rice J., Hankins R. Predicting in-hospital survival of myocardial infarction. A comparative study of various severity measures. Med Care 1990;28:762—75.

68. Lang T.A., Secic M. Assessing time to an event as an endpoint. In: How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Philadelphia: American Coll of Physicians; 1997:137—46.

69. O'Connor A.M. Effects of framing and level of probability on patients' preferences for cancer chemotherapy. J Clin Epidemiol 1989;42:119—26.

70. O'Connor A.M., Pennie R.A., Dales R.E. Framing effects on expectations, decisions, and side effects experienced: the case of influenza immunization. J Clin Epidemiol 1996;49:1271—6.

71. Mazur D.J., Merz J.F. How the manner of presentation of data influences older patients in determining their treatment preferences. J Am Geriatr Soc 1993;41:223—8.

72. Annas G.J. Informed consent, cancer, and truth in prognosis. N Engl J Med 1994;330:223—5.

73. Smith T.J., Swisher K. Telling the truth about terminal cancer [Editorial]. JAMA 1998;279:1746—8.

74. Buckman R., Kason Y. How to Break Bad News: A Guide for Health Care Professionals. Baltimore: Johns Hopkins Univ Pr; 1992.

75. Brewin T.B. Three ways of giving bad news. Lancet 1991;337: 1207—9.

76. Ptacek J.T., Eberhardt T.L. Breaking bad news. A review of the literature. JAMA 1996;276:496—502.


Возврат к содержанию| Возврат на home page "Международного журнала медицинской практики"| Возврат на home page издательства "МедиаСфера"