Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Плеханова О.С.

ГБОУ ВПО «Уральский государственный медицинский университет»;
Лаборатория SmartLab — АО «Группа Компаний «Медси»

Цвиренко С.В.

ГБОУ ВПО «Уральский государственный медицинский университет»

Калачева О.С.

Лаборатория SmartLab — АО «Группа Компаний «Медси»

Савельев Л.И.

ГБОУ ВПО «Уральский государственный медицинский университет»;
Областная детская клиническая больница;
ГАУЗ СО «Институт медицинских клеточных технологий»

Принципы методов непрямого определения референтных интервалов

Авторы:

Плеханова О.С., Цвиренко С.В., Калачева О.С., Савельев Л.И.

Подробнее об авторах

Журнал: Лабораторная служба. 2022;11(2): 27‑39

Просмотров: 2108

Загрузок: 133


Как цитировать:

Плеханова О.С., Цвиренко С.В., Калачева О.С., Савельев Л.И. Принципы методов непрямого определения референтных интервалов. Лабораторная служба. 2022;11(2):27‑39.
Plekhanova OS, Tsvirenko SV, Kalacheva OS, Saveliev LI. Principles of methods for indirect determination of reference intervals. Laboratory Service. 2022;11(2):27‑39. (In Russ.)
https://doi.org/10.17116/labs20221102127

Рекомендуем статьи по данной теме:
Дол­жны ли мы за­ви­сеть от ре­фе­рен­тных ин­тер­ва­лов, ука­зан­ных в инструк­ции про­из­во­ди­те­ля? Срав­не­ние ре­фе­рен­тных ин­тер­ва­лов ти­ре­от­роп­но­го гор­мо­на и сво­бод­но­го ти­рок­си­на от че­ты­рех про­из­во­ди­те­лей с ре­зуль­та­та­ми сов­ре­мен­ных неп­ря­мых ме­то­дов и пря­мо­го ме­то­да. Ла­бо­ра­тор­ная служ­ба. 2024;(3):50-60
Ре­фе­рен­тные ин­тер­ва­лы ТТГ у под­рос­тков в йо­до­де­фи­цит­ном ре­ги­оне. Срав­не­ние пря­мо­го и неп­ря­мых ме­то­дов рас­че­та. Ла­бо­ра­тор­ная служ­ба. 2025;(1):21-31

Введение

Референтные интервалы

Современные клинические лаборатории должны обеспечить врача не только данными результатов исследования, но и необходимой информацией для их интерпретации. В этом контексте понятен интерес к инструментам постаналитической интерпретации результатов, и в первую очередь это касается референтных интервалов (РИ) и отличий результатов в динамике. При кажущейся ясности подобной процедуры оценки есть существенные проблемы установления РИ для большинства биохимических и гематологических показателей.

Референтными интервалами принято называть ограничивающий двумя пределами центральный 95% диапазон значений лабораторного теста для референтной популяции здоровой группы лиц, характеризующейся определенными признаками [1]. Эти интервалы могут быть получены различными способами и предоставляются лабораторией. Лаборатория ответственна за предоставление этих значений и способность охарактеризовать источники их получения [2].

Прямые методы определения РИ

Методы определения РИ описаны в протоколе C28-A3 CLSI [1] и ГОСТ Р 53022.3—2008 [3]. Традиционный подход к установлению РИ получил название прямого метода. Прямое определение РИ подразумевает сбор биологического материала у большого количества условно здоровых лиц (минимум 120 человек для каждой исследуемой субпопуляции — пол, возраст, масса тела, аналитический метод), отобранных по строгим критериям. Референтные интервалы обусловлены биологической вариацией и зависят от ее значений для каждого аналита. Биологическая вариация — вариация концентрации (содержания, активности) аналитов в течение некоторого периода времени в зависимости от физиологического состояния, суточных, биологических ритмов, а также отличие в зависимости от пола, возраста, расы, «географии». Поэтому РИ должны рассчитываться и исследоваться отдельно для разных групп [1, 3].

Прямое определение РИ экономически затратно и трудоемко, а также связано со значительными логистическими и этическими проблемами. Представляет сложности определение РИ у детей. Кроме того, использование прямых методов часто приводит к существенным различиям между референтной популяцией и целевой популяцией, в которой в конечном итоге используются РИ — из-за наличия пациентов, имеющих сопутствующие заболевания, принимающих лекарственные препараты и т.д.

Для преодоления описанных проблем с прямым методом определения РИ предлагается использовать непрямые методы расчета на основе имеющейся лабораторной базы данных результатов лабораторных исследований [4].

Непрямое измерение РИ

Многие лаборатории обеспечены электронными медицинскими системами и, соответственно, базами данных с большим количеством результатов лабораторных исследований. Появилась возможность рассчитывать РИ непрямым способом, то есть использовать результаты лабораторных данных смешанной популяции (и больных, и здоровых субъектов). Подход предполагает селекцию госпитальной базы данных и удаление заведомо патологических результатов и/или применение математических алгоритмов разделения результатов смешанной выборки. В дальнейшем мы в основном обсуждаем особенности наиболее широко используемых алгоритмов разделения смешанных выборок с последующим расчетом РИ.

Впервые метод непрямого расчета РИ предложил Хоффманн в 1963 г. [5]. Так как лаборатория работает с пробами пациентов, у которых наблюдаются как нормальные, так и патологические значения, для разделения значений этих концентраций и оценки РИ ретроспективно Хоффманн (Hoffmann) предлагает графический метод. В достаточно большом наборе данных с преобладающей долей «нормальных» значений исследуемого аналита можно оценить распределение непатологических значений. Предполагается, что результаты патологических тестов не будут иметь существенного влияния на РИ. Однако методика подразумевает только работу с Гауссовым распределением. В дальнейшем получили развитие другие методики, которые решали задачи расчета РИ у аналитов с негауссовым распределением, определяли способ преобразования данных, автоматизации расчетов в отличие от первых «ручных» методик.

Виды разделения результатов «здоровых» субъектов и патологических результатов

В литературе можно найти некоторое количество непрямых методов расчета РИ. Каждый из них представляет собой различный набор инструментов для расчета. Ключевыми можно считать метод Хоффманна и его усовершенствованный вариант, метод Бхаттачария (Bhattacharaya), методы декомпозиции, усеченная минимальная оценка Хи-квадрат (TMC), оценка максимального правдоподобия на усеченном интервале (TML), есть возможность применить их на практике с использованием различного программного обеспечения. Все они основаны на предположении о том, что в используемой госпитальной базе подавляющее большинство данных пациентов находится в пределах «нормы». Вместе с этим возникает проблема расчета РИ в случае, если распределение скошено, то есть не соответствует распределению Гаусса.

Систематизировать и описать эти инструменты лучше всего относительно способов разделения общего распределения на нормальные и патологические значения результатов. Возможно разделить методы расчета РИ на следующие подходы:

1. Исключение из подсчета патологических результатов из набора данных. Подход основывается на том, что патологические результаты базы данных лаборатории представляют собой выбросы относительно подавляющего большинства данных здоровых пациентов. Основная методика здесь — исключение патологических данных методом их выброса.

2. Представление о том, что выборка является смесью выборок здоровой популяции и патологических значений. При таком подходе патологические значения невозможно исключить методом выбросов, так как существует отрезок, на котором патологические значения и «нормальные» пересекаются. Соответственно, основная задача здесь — поиск и выделение той части распределения, на которой расположены значения только здоровых; с последующей интерполяцией на все распределение «здоровых».

3. Техники декомпозиции, в соответствии с которыми данные рассматриваются как сумма некоторого количества распределений, на которые и раскладывается исходное распределение. При этом нет конкретного указания на распределение, соответствующее здоровой популяции или патологическим значениям. Соответственно, методики основаны на поиске нескольких распределений и выделении распределения «здоровых» из смешанной выборки. В процессе методики предлагается несколько распределений, и выбор распределения, относящегося к условно здоровым, остается за исследователем. Часто предполагают, что «здоровым» принадлежит нормальное распределение суммарного распределения.

Ниже, в той же последовательности и нумерации, приведены более подробная информация и описание этих подходов и методик, которые можно было бы к ним причислить.

1. Исключение из подсчета патологических результатов из набора данных

Предположение, что патологические результаты являются выбросами и нахождение выбросов при помощи статистических критериев с дальнейшей оценкой РИ на распределении, из которого эти выбросы исключены. Считается, что это и есть выборка, которая нас интересует, она представляет собой значения «здоровой» популяции, по которой возможно определить значения РИ.

Выбросы оцениваются разными способами: самый распространенный — метод Tukey, изложенный Horn и соавт., и представленный как наиболее удачный [6, 7]. Используется также критерий Шовене (Chauvenet’s) [8, 9]. После удаления выбросов либо оценивается характер оставшихся данных с помощью параметров симметрии, либо оценивается нормальность распределения. На данный момент отсутствуют критерии проверки валидности этих методик, есть также риск неверного исключения данных. Для тестов с низким индексом индивидуальности, в которых межиндивидуальная вариабельность CVI превышает внутрииндивидуальную вариабельность CVG и, соответственно, степень пересечения патологических и непатологических образцов высока, с помощью выбросов использовать разделение двух популяций не рекомендуется. По этой же причине эти методы не получили широкого распространения.

2. Выборка как смесь двух популяций

Группа разнообразных методов, в которых предполагается, что выборка представляет собой смесь популяций: «здоровой» и «патологической», которые пересекаются на определенном отрезке. Точки отсечения патологических значений от непатологических не существует, так как эти значения могут значительно пересекаться. Предполагается также, что основное количество данных в базе получено от здоровых, и методики основаны на выделении части (либо целого распределения), содержащей только «непатологические» данные образцов.

Такой стратегии придерживаются при использовании методов Хоффманна, модификации метода Хоффманна с оценкой QQ plot, Бхаттачария и Arzideh.

Основная задача этой стратегии — охарактеризовать часть распределения, свободную от патологических значений. Первые методики непрямого расчета РИ (метод Хоффманна, Бхаттачария) предлагались авторами до массового использования компьютерных технологий, поэтому способ их исполнения — графический, и, хотя и в наши дни они нашли отображение в компьютерном формате, идея графического разделения выборок расчета не изменилась. В этих методах делается допущение, что нормальное распределение внутри смешанного и есть распределение здоровой популяции; в найденном нормальном распределении РИ представляет собой 95% центральный интервал. Эти методики ограничены возможностью их использования только в том случае, если значения аналита распределены нормально.

Далее стали появляться методики, в которых авторы попытались решить проблему корректного разделения других видов распределений, отличных от гауссовского. В методе ТМС, например, предполагается поиск выделенного интервала распределения, свободного от патологических значений. После этот интервал используется для дальнейшей оценки РИ. Отсутствие такого выделенного интервала, то есть, слишком большое «перемешивание» патологических образцов и «здоровых» на всем распределении, не позволит определить РИ [10]. Методы TMC и TML, подробно описанные ниже, основаны на методе максимального правдоподобия и могут быть выполнены с использованием открытого кода в среде R либо онлайн- и оффлайн-программ, таких как Truncation Points и Kolmogorov-Smirnov Distance [11]; Truncated minimum chi-square [12].

Для всей группы методов не исключают, что за пределами считаемого РИ могут находиться значения непатологических образцов, но не учитывает их. Но в подходах учитываются патологические образцы внутри основной части распределения.

Метод Хоффманна

Метод Хоффманна положен в основу многих существующих на данный момент методов или используется напрямую (некоторое распространение получил также «неверный» метод расчета [13, 14]).

Этот метод представляет собой графическое разделение значений, полученных от «здоровой» популяции и «патологических» значений, сумма которых выглядит как скошенное гауссово распределение.

Суммарная часть распределения выстраивается в координатах относительно накопленной частоты значений концентрации по оси ординат, и самой концентрации по оси абсцисс (в таблице приведен пример построения подобной таблицы с использованием данных условно здоровых пациентов). Это делается для того, чтобы расположить распределение в одной плоскости, так как построение графика относительно накопленной частоты полученных значений позволяет «выпрямить» график.

Частота распределения концентрации глюкозы в сыворотке 60 условно здоровых пациентов

(1)

Глюкоза, мг/100мл

(2)

Счет

(3)

Кол-во, N

(4)

Накопленная частота

(5)

Накопленный %

70—74

|

1

1

1,7

75—70

||||| ||

7

8

13,3

80—84

||||| ||||| |

11

19

31,7

85—89

||||| ||||| ||||| |

16

35

58,3

09—94

||||| ||||| ||

12

47

78,3

95—99

||||

4

51

85,0

100—104

||||

4

55

91,7

105—109

||

2

57

95,0

110—74114

||

2

59

98,4

115—119

|

1

60

100

Примечание. На первом этапе предлагается ранжирование результатов тестов от минимума к максимуму с выбранным шагом. Затем внутри каждого ранга подсчитывается количество измерений, результаты которых попали в этот ранг (столбец 2). При этом ведется арифметический подсчет этих измерений (столбец 3), а также накопленной частоты, то есть суммарного значения каждого последующего числа с суммой предыдущих (столбец 4). Затем эта частота выражается в процентах в столбце 5.

Методика была предложена в 1963 г., и авторы использовали линейку для прочерчивания линии «на глаз» через выравненные точки гауссовой кривой, взяв за основу 50% точек (боковая шкала) и их вес как максимальный. После этого графически выделяется «нормальная» часть распределения, экстраполяция линейных областей этой линии, обозначающей здоровых, от оси ординат в области 2,5 и 97,5% на ось абсцисс, дает значения РИ. Из суммарного распределения («нормальные» плюс патологические) значения здоровых субъектов выделяются тем же способом, как показано на рис. 1, распределение графически раскладывается на нормальное и «патологическое».

Рис. 1. Схематическое изображение выделения нормальной компоненты популяции и определение границ РИ.

Авторы предупреждают, что более горизонтальное положение линии (то есть изначально более скошенное распределение) может привести к более широким границам РИ и предлагают оценить клиническую приемлемость полученных значений.

Метод Хоффманна. Современный подход

Метод из графического воплощен в расчетный [13, 15, 16]. В современной версии этой методики подход Хоффманна основан на том же принципе трансформации распределения в нормальное и после этого – стандартного определения РИ как среднее +/–1,96 SD. Отличие от оригинальной версии метода состоит в том, что по оси Y вместо накопленной частоты значений концентрации используется накопленная вероятность, т.е. присвоение i-му упорядоченному измерению кумулятивной вероятности (n — общее количество исследований), в результате чего формируется CDF — кумулятивная функция распределения. Далее CDF оценивается в координатах нормального распределения Гаусса и соответствующих квантилей, что является основным отличием от оригинального метода. Такой тип оценки — частный случай графика квантиль-квантиль (QQ-plot): построение наблюдаемых квантилей распределения относительно ожидаемых значений стандартного распределения.

После формирования такого графика выделяется приблизительно линейный участок кривой, соответствующий значениям здоровых субъектов, и добавляется линия экстраполяции. Далее оценка РИ происходит как в методе Хоффманна: определение X-координат точек, где экстраполированная линия пересекает горизонтальные линии, соответствующие вероятностям 0,025 и 0,975 или эквивалентны стандартным квантилям Гаусса –1,96 и +1,96. Полученный этим способом лучше совпадает с РИ, определенным прямым способом [13, 17]. Удобство использования этой методики состоит в доступности готового кода в программной среде R [13]. Но, несмотря на лучший вариант выделения интервала значений здоровой субпопуляции, методика не свободна от ограничения работы преимущественно с нормальным типом распределения результатов лабораторных тестов. Также Haeckel и соавт. [18] указывают, что в этом способе расчета РИ заложено неверное предположение: если данные представляют собой смесь двух распределений, и минимум одно из них является нормальным, то тогда точки, принадлежащие нормальному распределению, не лежат на прямой линии. Авторы приводят аргумент: смесь кумулятивной функции распределения и другой функции уже не равно кумулятивной функции распределения.

Метод Прайса (Pryce)

Метод был предложен в 1960 г., похожая модификация использовалась в 1970 г. [19, 20]. Авторы исходят из предположения, что центральная часть распределения не изменяется, если патологические значения распределения находятся по обе стороны от выборки. Предполагается, что выборка представляет собой Гауссово распределение. В этом случае определяется центральное значение (медиана) и 1 SD (16-й и 84-й перцентиль) по обе стороны распределения как часть выборки «здоровых» пациентов.

В случае если патологические значения оцениваются только с одной стороны распределения (например, АСТ), что смещает выборку целиком, то авторы предлагают определять центральное значение определением моды. Затем от значения моды (самого часто встречающегося значения) отсчитывается 34% значений (количество, равное одному SD) в сторону, противоположную от той, на которой располагаются патологические значения.

Метод Бхаттачария

Метод Бхаттачария [21, 22] преобразует ячейки гистограммы представления данных. РИ как и в методе Хоффманна определяются графически. Все данные распределяются по ячейкам, соответствующим диапазону концентраций. На графике по оси Y выстраиваются значения (рис. 2) — логарифм разницы процентного соотношения количества данных в каждой ячейке; по оси X располагаются средние значения ячеек. Благодаря этому все точки Гауссовсовской компоненты смешанного распределения выстраиваются в прямую линию с отрицательным наклоном. Эта линия соответствует части с нормальным распределением, то есть значениям результатов здоровых, и выглядит как точки, разбросанные по прямой с отрицательным наклоном. Параметры распределения определяются по наклону и пересечениям линии (среднее значение и стандартное отклонение). Считается, что участок с этой линией должен быть достаточно большим для успешного проведения методики (не менее 40% всех значений) [23].

Рис. 2. «Бхатаграмма», симулированные данные нормального распределения.

Сейчас для определения этой линии (линия наилучшего соответствия) доступны онлайн-ресурсы [24, 25]. Тем не менее оператор выбирает отрезок, на котором нужно произвести расчет, что не всегда просто [26].

Этот метод считают более субъективным, так как помимо поиска области данных для выделения линии наилучшего соответствия необходимо задать размер ячеек данных и, соответственно, их количество для каждого набора данных. Сложность состоит еще в том, чтобы проследить, что в каждой ячейке находится достаточное количество данных, но не делать размер ячейки слишком большим [23, 27]. При этом расчет в программах будет произведен в любом случае, поэтому некоторые авторы рекомендуют предварительно исключать данные по клиническим признакам [28].

В 1990 г. было проведено сравнение РИ, полученных прямым методом, рекомендованным IFCC, и методом Бхаттачария, и была выявлена несогласованность результатов, вызванная, по мнению авторов, зависимостью метода Бхаттачария от вида распределения [26]. Несмотря на субъективность, метод активно используется и сейчас, в особенности потому, что при большом наборе данных вышеперечисленные проблемы с размерами ячеек нивелируются [28].

Оценка максимального правдоподобия на усеченном интервале, Truncated Maximum Likelihood (TML)

Этот метод основан на оценке максимального правдоподобия параметров нормального распределения для усеченного набора данны х и предложен Arzideh и соавторами [29—31].

Предполагается, что распределение данных состоит из трех подгрупп: здоровых и двух подгрупп с патологическими значениями — на левом и правом концах распределения подгруппы здоровых. В качестве подготовительного шага метод создает функцию плотности данных. Это имеет такое преимущество перед гистограммой, что данные сглаживаются в непрерывную функцию. Метод, используемый для создания такой функции, известен как ядерная оценка плотности (kernel density estimation). В этом методе каждая наблюдаемая точка данных заменяется небольшой функцией Гаусса с центром в точке данных («ядре»). Затем функции ядра для всех точек данных суммируются, так получается общая сглаженная непрерывная функция плотности вероятности для совокупности. По ней оценивается поиск «здоровых» и «больных».

Основная задача методики — выделить подгруппы здоровых (выделенного интервала) и привести данные к параметрическому виду. Для этого используется преобразования Бокса—Кокса распределения выделенного интервала. С использованием этого преобразованного выделенного интервала моделируется нормальное распределение «здоровой» популяции. Параметры преобразования Бокса—Кокса и усеченного нормального распределения оцениваются с помощью метода максимального правдоподобия и выбирается наилучшим образом соответствующее ему нормальное распределение «здоровой» группы.

Это приводит к параметрическому распределению «здоровых» образцов, после чего возможен расчет РИ по 2,5-й и 97,5-й процентилям распределения [32]. Описан вариант РИ как точек пересечения между двумя функциями плотности — патологических образцов и части с результатами «здоровых» [31].

Метод Kosmic

Продолжением разработок методики TML, основанных на максимальном правдоподобии, служит метод Kosmic [11] (рис. 3). Он также основан на допущении, что доля физиологических выборок во входном наборе данных может быть смоделирована с помощью параметрического распределения (распределения Гаусса после преобразования данных Бокса—Кокса), и что в наборе данных существует интервал, в котором доля аномальных результатов теста незначительна. Важно отметить, что эта методика способна работать с большинством видов распределений аналитов: гауссовым, логнормальным, и после трансформации Бокса—Кокса.

Рис. 3. Пример использования гистограммы набора данных при использовании метода Kosmic. Вертикальные пунктирные линии обозначают 2,5% и 97,5% РИ.

В работе с методикой не делается никаких предположений относительно распределения патологических образцов.

В отличие от TML алгоритм использует минимальное расстояние Колмогорова—Смирнова для оценки качества модели распределения выделенной части и реального распределения результатов теста образцов «здоровых» после преобразования Бокса—Кокса. Для расчета возможно воспользоваться программными средами Python, C++. В открытом доступе есть онлайн-версия для расчета РИ [11].

Усеченная минимальная оценка хи-квадрат (ТМС)

Метод TMC [12] (рис. 4), как и TML, относится к методам максимального правдоподобия. Основное его отличие в практическом применении: он работает, как правило, с интервальными данными, исходя из того, что реальные данные всегда являются интервальными либо вследствие округления, либо из-за предела обнаружения (т.е. в случае, когда большая часть данных находится вне пределов обнаружения, например, при измерении тропонина). То есть моделируется распределение не единичных, а интервальных значений данных и процедура использует данные, которые могут уложиться в гистограмму. Это позволяет работать с данными вида «

Рис. 4. Пример гистограммы набора данных при использовании методики TMC. Вертикальные пунктирные линии обозначают 2,5% и 97,5% РИ.

В методике присутствуют шаги, сходные с TML: необходимо выделить интервал, содержащий значения здоровой популяции, смоделировать и подобрать наилучшее нормальное распределение, максимально соответствующее выделенному интервалу со «здоровыми» образцами. Параметры для модели гипотетического нормального распределения оцениваются путем представления данных на графике квантиль-квантиль (QQ) — отсылка к методу Хоффманна. QQ обеспечивает довольно точные данные для нахождения этих параметров.

Выбор наилучшей модели между наблюдаемой и предсказанными моделями получают путем минимизации расстояния хи-квадрат (χ2). Для проверки предположения о характере распределения используется критерий согласия (goodness of fit test).

Преимуществом метода ТМС служит то, что относительно методик непрямых расчетов РИ, в которых требуются данные, полностью очищенные от патологических значений, здесь необходимо определить лишь часть, свободную от них. С другой стороны, этот интервал должен быть достаточно большим, чтобы обеспечить надежную оценку параметров. Отсутствие такого интервала (то есть, невозможность выделить его), который был бы обнаружен внутренней проверкой предположения о распределении, делает оценку РИ невозможной. Еще одна опасность в использовании метода заключается в том, что интервал со значениями здоровых субъектов не должен содержать большого количества патологических значений. Они могут входить в этот интервал, но их присутствие не должно вызвать отклонение критерия согласия, выдвигающего гипотезу о нормальном распределении.

Применение ТМС на практике. Тропонин T

Для вышеперечисленных методик представляют сложности определение РИ у аналитов в случае работы с распределением, которое проходит через точку предела чувствительности, при том что предел принятия клинического решения находится близко к пределу чувствительности. То есть большой процент результатов находится за пределами детекции. Например, это высокочувствительный тропонин, С-реактивный белок и ПСА. Расчеты подобного рода, когда большинство значений здоровых лиц находятся вне зоны детекции аналита, возможно произвести только с помощью метода ТМС [33]. Это приводит к сглаживанию/выравниванию линии распределения значений относительно «скачков» между субпопуляциями, возникающими из-за разницы содержания аналита. Авторы Haeckel и др. рассчитали РИ для высокочувствительного тропонина, концентрация которого может значительно отличаться из-за возраста [34]. Для подобного распределения нижний предел «отрезаемого интервала» начинается от 0. Полученные значения согласуются с представленными в литературе и полученными прямым способом.

3. Техники декомпозиции

Основанием подобных техник служит тот факт, что данные представляют собой взвешенную сумму нескольких различных распределений, включая несколько патологических; эту сумму можно декомпозировать на составляющие распределения, одно из которых будет отображать здоровую популяцию. Для этих методик характерно два больших отличия от вышеописанных техник: при работе с ними нет необходимости в поиске интервала, свободного от патологических значений, но важным становится тип(ы) распределения патологических данных, который нужно указать в процессе работы. При этом метод не позволяет точно определить, какое именно из распределений принадлежит здоровой популяции. В большинстве простых случаев распределением значений здоровых субъектов считается нормальное распределение, остальные — патологическими данными. В некоторых случаях, приняв это за истину, можно прийти к заведомо неверным выводам. Однако эти методы не требуют преобразования данных и, соответственно, характеризуются отсутствием погрешности, связанной с процессом преобразования.

Методы деконволюции

Несмотря на то что метод Бхаттачария относится к другой категории методов, его можно назвать предвестником этого типа методов, так как уже в нем используется предположение, что лабораторные данные представляют собой смесь гауссовых распределений. Отличием служит то, что во время проведения методики пользователем определяются параметры только для распределения, которое считается распределением значений здоровых лиц. При деконволюции требуется определение параметров всех компонентов.

Метод Бхаттачария несколько раз усложнялся и совершенствовался: было предложено преобразование Бокса—Кокса обоих распределений («здоровых» и патологических) значений. Параметры всех компонентов смеси автоматически оцениваются алгоритмом максимизации ожидания (EM). Этот подход, представляющий собой смешанный подход деконволюции и обобщающий подход Бхаттачария, предложил Concordet [35]. Отрицательным моментом здесь является обязательное предположение, что патологические значения лежат по одну сторону от непатологического компонента.

В общих подходах деконволюции тип распределения каждого компонента, а также количество компонентов должны быть указаны пользователем. Это означает, что даже если распределение патологических значений обычно не представляет интереса, его необходимо смоделировать. Доступные пакеты в среде R (например, flexmix, mixmod, mixdist, mixtools [36]) предлагают широкий спектр методов деконволюции вместе с большим выбором типов распределения компонентов помимо нормального и логнормального, включая даже непараметрические распределения. Веса и параметры распределений компонентов выбираются численным методом, который минимизирует расстояние между полным распределением данных и смесью. В этих методах применяется подход максимального правдоподобия для подгонки гауссовского или гамма-распределения к смешанному набору данных. Пакет R mixdist [37] позволяет реализовать разделения выборок без дополнительных погрешностей, связанных с преобразованием Бокса—Кокса. Примеры применения деконволюции с применением пакета mixdist для непрямого определения РИ были приведены Holmes и Buhr [13].

Некоторой сложностью использования этих пакетов может стать тот факт, что они не являются готовым «продуктом» для работы с референтными интервалами, а решают любые задачи, связанные с декомпозицией распределений, и представляют собой набор большого числа различных функций.

Интерпретация результата деконволюции также может быть сложной. В простых случаях наибольший компонент смеси можно интерпретировать как компонент, описывающий непатологические данные. Но если это предположение было неверным, деконволюция даст результат, в котором непатологические данные описываются не одним компонентом, а суммой компонентов, и пользователь должен выяснить, какой из компонентов описывает непатологические данные. Хотя при хорошем владении методики эффективным может стать поиск дополнительных малочисленных популяций.

Виды распределения результатов и работа с ними

Самая простая задача при расчете РИ непрямым способом — рассчитать их, если распределение нормальное. Другие виды распределений должны быть приведены в вид нормального и для этого есть инструменты, но сложность состоит в том, что после проведения подобных процедур теряется точность относительно изначального распределения и корректность определяемых РИ.

Считается, что сложные преобразования обычно не приводят к большим различиям в определении РИ, если коэффициент асимметрии распределения не будет выше 0,6 или коэффициент эксцесса — не более 2,7 [38]. В остальных случаях данные необходимо преобразовать.

Сегодня в литературе можно найти не так много сведений о типах распределения аналитов. Часть методов использует классическую статистику и рассчитана только на работу с нормальным распределением (Хоффманн, Бхаттачария). Но распределение значений аналитов обычно не совпадает с гауссовым, и существуют методы для работы с другими видами распределений, например, гамма-распределением, со скошенными распределениями [39].

Считается, что гамма-распределения, которые часто используются в экономике и маркетинге, могут быть применены к данным в медицине [40]. К семейству гамма-распределения принадлежат экспоненциальное, c2 и распределение Эрланга, которые описываются несколькими параметрами «формы» и «масштаба» (a, l). Эти распределения описаны Gram-Charlier [41]. С гамма-распределением может работать метод Бхаттачария, в котором вводятся дополнительные параметры распределения: форма распределения и эффект сжатия/растяжения кривой.

Скошенное распределение в практике встречается часто. Оно может быть скошенным само по себе, такой же эффект может возникнуть из-за скошенного распределения патологических значений внутри суммарного либо из-за существования нескольких нормальных распределений внутри скошенного (что суммарно приводит к общему скошенному виду распределения) [42].

Поэтому большое значение имеет публикация собственных данных о полученных распределениях аналитов для возможности сравнения своих результатов с результатами других авторов, и чтобы избежать ошибок в расчете и интерпретации РИ, из-за неверных изначальных предположений о распределении аналитов.

Скошенные распределения усложняют расчет, в частности, из-за близости медианы к нулю. Поэтому часть техник расчетов РИ нацелены на трансформацию в нормальное распределение. Для данных, скошенных вправо, может быть использована лог-трансформация, что соответствует лог-нормальной модели. Это означает перевод данных в логарифмически распределенные, после чего становится возможным работать с распределением как с нормальным. Такой вид трансформации может использоваться для гормонов, ферментов и онкомаркеров [43]. Если скошенность логарифмического распределения больше самого распределения, подход станет неинформативным.

Более популярный подход — трансформация Бокса-Кокса (Box-Cox) или Мэнли (Manly). Трансформацию Бокса—Кокса рекомендуют IFCC и CLSI. Но при использовании трансформации есть риск попадания патологических результатов в нормализованное распределение. Такое может произойти, если распределение непатологических значений скошено, и патологические значения лежат в области этой скошенности.

При работе с открытыми пакетами R, для возможности выбрать тип распределения (нормальное/логнормальное) и соответствующего типа работы с ним, то есть определять, нужно ли трансформировать данные, если они не распределены нормально, Klawonn и соавт. [16] предлагают воспользоваться коэффициентом сдвига Боули (Bowley’s skewness coefficient).

Распределение патологических образцов — обсуждаемый вопрос, некоторые методики непрямого подсчета требуют указания пользователем типа распределения (например, модели, основанные на декомпозиции), в этом случае, обыкновенно, делается допущение, что тип распределения тот же, что и у непатологических образцов. Методы, основанные на выделении интервала с непатологическими образцами (TMC и TML), не требуют предположений о распределении патологических значений.

Машинное обучение

Искусственный интеллект уже используется в оценке определения здоровых субъектов для расчета РИ. Это было сделано в рамках исследования Laboratory Mining for Individualized Threshold (LIMIT), в котором использовался неконтролируемый алгоритм машинного обучения для идентификации диагностических кодов, которые в значительной степени связаны с выбросами результатов по аналиту. Компонент «обучения» алгоритма включал установку значений для 4-х параметров (один из которых, например, определял чувствительность к обнаружению выбросов). Эти значения были установлены с использованием данных натрия (аналит был выбран из-за четко установленного референтного интервала). Алгоритм вывел эталонный интервал для гемоглобина крови, который был сравним с интервалом, полученным методом экспертного исключения. Также был получен референтный интервал для калия в сыворотке, который соответствовал согласованному референтному интервалу [44].

Технические требования

Важный вопрос при расчете РИ из баз данных возникает относительно достаточного объема выборки. Различные авторы сходятся на том, что для минимизации эффекта случайной вариации достаточно от 1500 до 2000 результатов исследований [23]. Минимальный необходимый для статистической достоверности (с учетом потенциального присутствия патологических значений) объем выборки для каждой популяции — 400 значений, это количество считается приемлемым для расчета по редко выполняемым тестам. Согласно IFCC C-RIDL [36] рекомендовано использовать минимум 1000 точек и хотя бы 750 точек для каждой субкатегории (обычно по полу и возрасту) [30].

В любом случае лучше брать в расчет данные минимум за год, чтобы учесть сезонные изменения концентрации аналитов.

Haeckel R. и соавт. предлагают для возможности сравнения с прямыми методами включить в исследование образцы, взятые в то же время, в которое необходимо осуществлять взятие биоматериала для исследования референсной популяции, то есть, к примеру, с 7 до 10 утра. Это актуально для аналитов, концентрация которых изменяется в течение дня [45].

Разделение на субпопуляции и определение разницы в РИ

Если в распределении наблюдается разделение на субпопуляции (например, из-за составляющей биологической вариации), для дальнейшей стратификации необходимо понять, есть ли клиническая значимость этих отличий. Предлагается несколько тестов для этой цели:

— Тест Harris и Boyd [46] рекомендован для разделения референтных интервалов, если коэффициент между стандартными отклонениями распределений субгрупп более 1,5, или если Z-статистика между двумя субгруппами распределения превышает 3.

— Lahti и соавт. [47] предложили разделение на субпопуляции, если более чем 4,5% субгруппы выходят за пределы референтного интервала.

Разницу полученных РИ результатов возможно оценить с помощью сравнения доверительных интервалов [12, 45]. Также предложен вариант использования предела эквивалентности: предел рассчитывается из допустимого стандартного отклонения (psA,RL), pD1=≤±psA,RL×1,28 [48]. Расчет по большому количеству аналитов можно выполнить на домашней странице Немецкого общества Клинической химии и Лабораторной медицины (DGKL) [49].

Автор Henny и соавт. предлагают оценить рассчитанный РИ таким образом: полученный РИ не должен быть шире, чем в 0,2 раза ширины самого полученного РИ [50].

В решении о разделении РИ на субпопуляции большую роль может сыграть биологическая вариация, а именно индекс индивидуальности. Речь идет о значении отношения внутрииндивидуальной вариации на межиндивидуальную, и если оно менее 0,6, то РИ теряет смысл [51]. Выделение субгрупп может увеличить индекс индивидуальности каждой из них и позволит сделать РИ диагностически полезными. Выделение субгрупп остается проблемой, но некоторые программы предлагают алгоритмы их разделения (TMC, TML)

Допущения при расчетах

Перед расчетом РИ из медицинской базы данных целесообразно учесть потенциальные аналитические изменения или несоответствия (например, изменения методологии, изменения калибратора или партии реагентов), которые могут привести к потенциальным ошибкам.

Также следует провести предварительную работу в виде исключения данных, которые заведомо могут повлиять на результат. Если речь идет о стационаре, то для расчета лучше исключить все результаты мониторинга одного и того же пациента, и в общую выборку попадают либо первые, либо последние результаты регулярно проводимых пациенту тестов [41, 52—56]. Возможно исключить результаты из отделений, в которых часто встречается патология по тесту, по которому ведется расчет, а также по комбинации результатов тестов, по которой можно судить о патологии, которую для расчета лучше исключить [57].

В качестве самого источника данных, с одной стороны, рекомендуется использовать данные пациентов первичного звена и/или амбулаторных больных. Стационарные больные имеют острые патофизиологические состояния, подвергаются лечению с обильным введением внутривенных жидкостей и др., что может способствовать внесению шума в данные [22, 58]. С другой стороны, непрямые методы могут позволить включать эти результаты в расчет [59].

Обсуждение

Источники информации о референтных интервалах разнообразны: вкладыши к реагентам, статьи, литературные обзоры, справочники, учебники, значения, применяемые в другой лаборатории. Однако нужно принять во внимание, что не все из них соответствуют хорошо проведенной процедуре определения РИ, а также что исследованная популяция совпадает с исследуемой в лаборатории. С развитием возможности хранения и использования информации баз данных получил новое развитие расчет РИ непрямым способом. Методики предполагают три разнообразных подхода работы с данными, каждый из которых обладает своими плюсами и минусами. Большим преимуществом обладают методы, в которых подразумевается работа со смешанными данными. Методы Хоффманна и Бхаттачария в исследовании авторов Farrell и др. дают схожий результат [29]. Согласно исследованию Holmes и Buhr [13] методы на основе максимального правдоподобия превзошли методы Хоффманна и Бхаттачария.

Каждый из методов имеет свои преимущества и недостатки: в виде сложности определения пула здоровых, неточности после трансформации данных, необходимости параметров определения патологических данных.

Но в литературе пока недостаточно данных для того, чтобы выделить один наиболее точный метод. На данный момент, пока существует эта неопределенность, при расчете РИ правильным видится тщательное предварительное исследование данных лабораторной базы на предмет поиска различных субпопуляций в одной выборке. Также один из вариантов — сопоставление полученных данных по разделению аналитов с известной информацией о существовании возрастных изменений содержания аналитов или эффектов, которые могут быть оказаны на тип распределения аналитов. Хорошая практика — обращение к литератуным данным для получения сведений о распределениях, наблюдаемых у коллег. Работы с базами данных и выделение потенциально здоровой популяции для примерного представления вида распределения — хороший возможный вариант для представления вида данных распределения по всей базе. Такой вариант описан в виде выделения и визуализации заведомо здоровой популяции либо по признаку периодического медицинского обследования, либо выделения потенциально здоровой популяции по значениям других аналитов. Совместное изучение методик представляет широкие возможности к их использованию в будущем.

В дополнение ко всему вышесказанному, непрямой расчет РИ — хороший инструмент для верификации установленных РИ в лаборатории. После проведения этой процедуры представляется целесообразным определение количества выходящих за пределы полученного референтного интервала данных, и анализа причин несоответствия, если таковые имеются. Кроме того, предлагаемый интервал может быть проверен даже при небольшом числе пациентов для локального использования с расчетом медианы распределения [33].

Заключение

Использование расчетных РИ оправдано и целесообразно, однако эта процедура должна подвергнуться лучшему изучению со стороны пользователей, то есть лабораторных практиков. Предложено несколько подходов к расчетам, но на данный момент нет официальных рекомендаций относительно приемлемости определенных видов расчета для определенных аналитов. Также пока не существует метода проверки корректности полученных РИ.

В заключение представляется важным отметить в качестве ожидания от будущих исследований, несмотря на некоторое количество проведенных исследований [60], установку оптимальных подходов к расчету РИ по данным лабораторной базы для основных биохимических и гематологических показателей у взрослых и детей и выполнения следующих задач:

— сравнение влияния различных типов распределения непатологических данных и доли патологических данных в совокупной выборке на результаты непрямых методов расчета РИ (симуляционные исследования);

— сравнение современных непрямых методов расчета РИ на реальных лабораторных базах данных;

— расчет РИ выбранным методом для основных биохимических и гематологических показателей у взрослых и детей;

— сравнение полученных значений с имеющимися данными прямых и непрямых расчетов РИ;

— оценку значимости оптимизированного расчета РИ непрямым методом для клинической практики.

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail

Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.