Психиатрический диагноз, его валидность, утилитарность и надежность находятся в фокусе внимания как практикующих специалистов, так и ученых в области нейронаук [1—6].
Вопрос валидности [7] психиатрического диагноза является сложным из-за отсутствия общепринятого определения этого понятия [8—10]. С теоретической точки зрения, валидность — это инвариантная качественная оценка соответствующей диагностической категории, которая сама по себе не может быть «частично» валидной [11]. В DSM-5 [1] и МКБ-10 [6] большинство психических расстройств описаны на уровне клинических синдромов, а не целостных нозологических конструктов, что затрудняет решение вопроса валидности диагноза в психиатрии [8, 11, 12]. С точки зрения практики, валидность определенного диагностического алгоритма оценивается с помощью сравнения с выводами, основанными на результатах использования алгоритма, утвержденного в качестве «золотого стандарта» [13, 14], а для повышения утилитарности диагноза рекомендуется опираться на дополнительные факторы — индикаторы прогноза течения и реакции на терапию, данные психологических и нейрофизиологических тестов, личностные особенности до начала заболевания и др. [8, 9, 11, 15, 16]. Надежность диагностики представляет собой степень, с которой процедуры измерения или оценки дают одинаковые результаты при повторении в разное время или разными специалистами [7]. Повышение уровня надежности достигается за счет роста согласия между клиницистами, следующими единым алгоритмам оценки состояний. Надежность может быть значимо улучшена за счет использования стандартизованных критериев и диагностических процедур [11, 13].
Несмотря на включение операциональных критериев диагностики в современные классификации психических расстройств, диагностические выводы исследователей могут существенно различаться [16]. Для повышения уровня согласованности диагностических заключений был предложен ряд методик, включая структурированные и полуструктурированные интервью, основанные на перечнях определенных критериев — CIDI [17], SCAN [18], SCID [19], MINI [20], PSE [21], и методы автоматизированной (компьютеризированной) обработки клинических данных и компьютеризированные диагностические системы — CATEGO [21], OPCRIT [22].
Диагностическое интервью для психозов (ДИП) было разработано как инструмент, позволяющий устанавливать корректные диагнозы расстройств психотического уровня за счет диагностического алгоритма, объединяющего критерии ряда теоретических концепций (приложение 1, раздел 1.4) и формулировок полуструктурированного клинического интервью, предусматривающих единообразие его применения специалистами [14]. ДИП состоит из 97 пунктов (с опорой на алгоритм OPCRIT и интервью SCAN), включающих вопросы, относящиеся к социальному, семейному, преморбидному анамнезу, спектру психиатрических симптомов (см. таблицу; приложение 2), с учетом временного критерия (см. приложение 1, раздел 1.2). ДИП оснащено компьютерной программой для автоматического вывода диагностических категорий на основании соответствующих классификаций психических расстройств (МКБ-10, DSM-IV) и теоретических концепций (они перечислены в приложении 1, раздел 1.4). В настоящее время планируется введение в программу критериев DSM-5.
После появления англоязычной версии ДИП и ее валидизации [14] были сделаны переводы на болгарский, вьетнамский, греческий, итальянский, монгольский, норвежский, французский языки. Отдельно были доказаны валидность (использование SCAN [18] в качестве «золотого стандарта») и надежность итальянской версии [13]. ДИП было использовано в ряде эпидемиологических и клинических исследований [23—25].
Актуальность исследования по апробации, оценке валидности и надежности русскоязычной версии ДИП определяется потребностями клинической практики.
Цель настоящего исследования — апробация ДИП в России с оценкой валидности и надежности его русскоязычной версии.
Материал и методы
Англоязычные версии ДИП, Глоссария и Руководства по использованию переведены на русский язык группой исследователей — А.В. Павличенко, Д.А. Смирновой, М.А. Орловой, Т.В. Жиляевой, Н.А. Войновой, Г.В. Кустовым (2015); научная редактура и языковая валидизация проведены А.В. Жабленски и Д.А. Смирновой, редактура и корректура текста — Е.А. Слоевой (2015).
В 2015 г. в Самаре был проведен обучающий курс по использованию русскоязычной версии ДИП для исследовательской группы, состоявшей из 17 специалистов из 7 городов РФ.
Протокол настоящего исследования1 одобрен Независимым этическим комитетом Санкт-Петербургского научно-исследовательского психоневрологического института им. В.М. Бехтерева. Главный исследователь — А.В. Жабленски; координатор в России — Д.А. Смирнова, научные консультанты — Н.Н. Петрова, А.В. Павличенко. Исследователи подписали соглашения о конфиденциальности информации. Все пациенты заполнили письменное информированное согласие на участие в настоящей работе.
Обследование пациентов проводилось 12 исследователями в 7 центрах на базе учреждений психиатрической службы шести городов РФ с видеозаписью интервью (см. приложение 1, раздел 1.1). Средний возраст исследователей составил 31 год (среднеквадратическое отклонение (СКО) равно 5; от 25 лет до 41 года), клинический стаж — 8 лет (СКО=5; от 2 до 16 лет), научный — 7 лет (СКО=4; от 2 до 16 лет), из них 11 врачей были психиатрами и 1 — клиническим психологом, 4 имели ученую степень. С помощью ДИП 2 исследователя оценили более 20 пациентов, 6 исследователей — 10.
В исследование были включены пациенты в возрасте от 18 до 55 лет, носители русского языка, с расстройствами психотического уровня по МКБ-10 (рубрики F20—F29 «Шизофрения, шизотипические и бредовые расстройства», F30—F39 — «Аффективные расстройства»); в стадии стабилизации состояния (этап выписки, реабилитации или амбулаторного режима). Лица с обострением психического состояния, тяжелой неврологической патологией и острыми соматическими заболеваниями из исследования исключались.
Для проверки диагностической валидности русскоязычной версии ДИП 17 исследователей оценивали четыре клинических случая на основании видеозаписей интервью из базы данных специального семейного исследования шизофрении, проведенного в Западной Австралии (русский перевод озвучивался синхронно). Оценки интервьюеров (62 бланка ДИП) сравнивали с оценками тестовых случаев, утвержденных главным исследователем, на основании консенсуса между опытными исследователями и авторами ДИП.
Для оценки диагностики психотических расстройств в ходе апробации русскоязычной версии ДИП сравнивали диагнозы медицинской документации (МД), клинические выводы (КВ) интервьюеров и выводы компьютерного диагностического алгоритма ДИП. Для определения межэкспертной надежности русскоязычной версии ДИП использовали рандомизированную выборку (n=32) из числа отобранных видеозаписей (n=98) удовлетворительного качества (автоматическая рандомизация 30% случаев в SPSS-22 [26]). Оценки, выставленные исследователями по видеоинтервью, сравнивали с оценками первых интервьюеров по всем пунктам и компьютерным выводам ДИП.
Группу обследуемых составили 98 пациентов, из них 41 (42%) мужчина с диагнозами по материалам медицинской документации (МКБ-10): F20 «Шизофрения» — 80 (82%) больных, F22 «Хроническое бредовое расстройство» — 1, F23 «Острые и транзиторные психотические расстройства» — 8, F25 «Шизоаффективное расстройство» — 5, F31 «Биполярное аффективное расстройство» — 3, F33 «Рекуррентное депрессивное расстройство» — 1.
Средний возраст больных на момент обследования составил 38 лет (СКО=10). 43 (44%) пациента были холосты или не проживали с партнером ранее в течение полугода и более. Возраст больных на момент начала заболевания был 26 лет (СКО=8). До начала болезни 39 (40%) пациентов были безработными, 38 (39%) характеризовались плохой адаптацией на рабочем месте и 29 (30%) — плохой социальной адаптацией. У 85 (86%) по мере течения заболевания отмечалось выраженное снижение функционирования, у 76 (78%) оно определялось по отношению к преморбидному уровню. У 37 (38%) больных была выявлена наследственная отягощенность по психическим заболеваниям, в частности у 9 — по шизофрении.
Средняя продолжительность интервью составила 47 мин (СКО=21; от 13 до 95 мин).
Статистическую обработку данных проводили с помощью программы SPSS-22 [26]. Для описания характеристик больных и данных опроса интервьюеров использовали методы дескриптивной статистики (среднее отклонение, СКО, диапазон значений, медиана, интерквартильный размах — ИР). Для оценки согласованности диагнозов на основе МД, КВ и ДИП, определения степени межэкспертной надежности и валидности русскоязычной версии ДИП применялся коэффициент общего парного согласия (отношение числа совпадений к общему числу сравнений). Кроме того, для оценки согласованности диагнозов на основе МД, КВ и ДИП и межэкспертной надежности русскоязычной версии ДИП рассчитывали коэффициент согласия каппа Коэна (95% доверительные интервалы — ДИ) [27]. Вместе со значением каппа для пунктов ДИП определяли коэффициенты позитивного (рпоз, согласие при наличии симптома) и негативного (рнег, при отсутствии симптома) согласия2. Степень согласия оценивали на основании критериев J. Landis и G. Koch [28]: <0 — низкое, 0—0,19 — незначительное, 0,2—0,4 — слабое, 0,4—0,6 — умеренное, 0,6—0,8 — значительное, 0,8—1,00 — практически полное. Метод ANOVA с коррекцией Бонферрони (α=0,05) использовали для сравнения различий при оценке трех групп симптомов.
Результаты
ДИП использовано для диагностики психотических расстройств в РФ впервые.
Результаты оценки валидности русскоязычной версии ДИП показали значительное общее парное согласие (0,73) с совпадением 45 из 62 диагнозов.
Процентное соотношение диагнозов на основе МД, КВ и ДИП в общей выборке пациентов представлено на рис. 1. Величина каппа показала незначительную согласованность диагнозов МД и компьютерных выводов ДИП (κ=0,16; 95% ДИ 0,06, 0,26), а коэффициент общего парного согласия — умеренное согласие (0,59; 58/98). В частности, диагноз F20 был поставлен в МД в 80 случаях, исследователями — в 68, а с помощью компьютерной программы ДИП — в 62.
Сравнение клинических диагнозов, поставленных 12 исследователями, и выводов ДИП показало совпадение в 70 из 98 случаев в общей выборке, умеренное согласие (κ=0,49; 95% ДИ 0,35, 0,63) и значительное общее парное согласие (0,71). В 12 (43%) случаях несовпадения диагнозов исследователи квалифицировали клиническое состояние в рамках рубрики F20, в то время как в соответствии с ДИП определялись F31 (1), F22 (1), F28 (5) и F25 (6). В 7 (25%) случаях несовпадения исследователи ставили диагноз F23, тогда как по ДИП это были диагнозы F31 (1), F28 (3), F30.2 (2) и F20 (1).
При анализе диагностики психотических расстройств в рандомизированной выборке (32 случая) было выявлено слабое согласие КВ (среднее κ=0,31; 95% ДИ 0,06, 0,56) и умеренное — при сравнении КВ и компьютерных выводов ДИП (среднее κ=0,55; 95% ДИ 0,31, 0,80). По диагнозам МД было выявлено незначительное согласие при сравнении как с КВ, так и выводами по ДИП (среднее κ=0,14; 95% ДИ –0,01, 0,29). В то же время коэффициент общего парного согласия между всеми диагнозами показал значительное согласие (среднее 0,75; 24/32). Однако согласованность диагнозов на основе КВ при любом варианте сравнения была ниже, чем компьютерного диагностического алгоритма ДИП (рис. 2).
В таблице представлены данные межэкспертной надежности русскоязычной версии ДИП в отношении ряда основных пунктов [13] и диагностических выводов в рандомизированной выборке — 32 пациента (остальные пункты см. в приложении 2). Результаты исследования показали высокую межэкспертную надежность ДИП. Сравнение диагнозов на основе компьютерного диагностического алгоритма ДИП показало значительное согласие каппа (0,68; 95% ДИ 0,53—0,93) и почти полное парное согласие (0,84; 27/32) между интервьюерами. 82 (85%) пункта характеризовались полным и значительным согласием каппа ≥0,6, из них 41 (42%) ≥0,8. Умеренное согласие было выявлено в 11 пунктах, а слабое согласие ≤0,4 — в 5.
Сравнение межэкспертной надежности оценок трех доменов симптомов на основе ДИП показало, что оценка аффективных (пункты ДИП 20—48, например 20 «Депрессивное настроение») и позитивных (пункты ДИП 49—53, 58—64, 95, например 49 «Галлюцинации в разных органах чувств») симптомов характеризовалась соответственно почти полным (медиана κ=0,84; ИР=0,16) и значительным (медиана κ=0,77; ИР=0,09) согласием и узкими ИР, тогда как оценка негативных симптомов (пункты ДИП 81, 82, 90, 91, 97, например 91 «Притупленный аффект») демонстрировала умеренное согласие и более широкий ИР (медиана κ=0,59; ИР=0,31) (рис. 3).
В то же время анализ ANOVA выявил статистически значимую связь между фактором домена симптомов и надежностью диагностической оценки — F (2,44)=20,72, p<0,001, η2=0,485. Это свидетельствует, что интервьюеры диагностировали аффективные и позитивные симптомы наиболее согласованно, а негативные — с наименьшей степенью согласия, что подтверждается парным сравнением коэффициентов согласия каппа для доменов симптомов с помощью коррекции Бонферрони (α=0,05). Коэффициенты согласия для аффективных и негативных (p<0,001), а также позитивных и негативных симптомов значимо различались между собой (p<0,001), в то время как коэффициенты согласия для аффективных и позитивных симптомов не отличались (p=0,129).
На рис. 4 отражены результаты 32 опросов интервьюеров, демонстрирующие отсутствие значимых затруднений при использовании ДИП. В то же время средние значения уровня затруднений при оценке аффективных симптомов (0,94) оказались более низкими, чем позитивных (2,63) и негативных (2,89) симптомов, F (2,58)=5,63, p=0,006, η2=0,162, и различались при парном сравнении всех доменов симптомов по методу Бонферрони (α=0,05; p<0,05) (рис. 5). Интервьюеры прокомментировали использование некоторых пунктов ДИП (см. приложение 1.2).
Обсуждение
В данном исследовании была впервые апробирована русскоязычная версия ДИП на популяции пациентов с психозами. Средняя продолжительность интервью составила 47 мин, что сравнимо с базовой версией ДИП (60—90 мин, 20—30 мин на диагностический модуль) [14] и итальянской версией (37—39 мин на диагностический модуль) [13].
Результаты исследования подтвердили валидность русскоязычной версии ДИП — значительное общее парное согласие (0,73, 45/62), сравнимое с итальянской (0,67, 12/18) [13], и ниже, чем у англоязычной (0,90, 9/10) [14]. Высокий уровень согласия при оценке одного и того же клинического случая указывает на то, что ДИП устойчив в отношении разницы клинического опыта интервьюеров и может использоваться профессионалами с разным клиническим опытом после их обучения.
Межэкспертная надежность русскоязычной версии ДИП (МКБ-10) характеризовалась значительным согласием каппа (0,68) и почти полным парным согласием (0,84), что сопоставимо с англоязычной версией (0,73, 0,81) [14], однако ниже, чем у итальянской (0,84, 0,87) версии [13] соответственно. Межэкспертная надежность диагнозов КВ, несмотря на достаточный клинический и научный стаж исследователей, была в 2,2 раза ниже, чем надежность диагностических выводов ДИП, что подтверждает актуальность повышения качества диагностики психозов. Несовпадения диагнозов F20 (43%) и F23 (25%) в МД с учетом высокой межэкспертной надежности ДИП позволяют предположить наличие тенденции к ложноположительной диагностике шизофрении (F20) и острых и транзиторных психотических расстройств (F23) в клинической практике.
Анализ межэкспертной надежности показал, что большинство пунктов ДИП характеризуется значительным и почти полным согласием каппа ≥0,6 (85%), что сравнимо с итальянской версией (83%) [13], и выше, чем у англоязычной (50%) [14]. Однако почти полное согласие ≥0,8 выявлено для 42% пунктов русскоязычной версии, 71% итальянской и 20% англоязычной, а слабое и незначительное согласие ≤0,4 для 5, 13 и 20% соответственно, что обусловлено разными и малыми размерами выборки — 32, 60 и 20 случаев соответственно [13, 14].
Проведенное исследование подтвердило результаты апробации итальянской версии ДИП в отношении того, что позитивные симптомы диагностируются с более высокой надежностью, чем негативные. Было также обнаружено, что негативные симптомы диагностируются с меньшей степенью согласия, чем аффективные и позитивные. Опрос интервьюеров показал, что данный факт наименее вероятно связан с затруднениями использования пунктов ДИП, так как исследователи субъективно определяли затруднения при оценке большинства пунктов как незначительные и умеренные.
Принимая во внимание широкие доверительные интервалы коэффициента согласия каппа, важно проведение дополнительного исследования с увеличением объема выборки случаев для оценки межэкспертной надежности русскоязычной версии ДИП, а также надежности тест—ретест, которая не определялась в данной работе.
Представленные данные позволяют сделать следующие выводы: русскоязычная версия ДИП зарекомендовала себя как надежный инструмент, способный повысить качество диагностики психотических расстройств, в частности шизофрении. Получаемый с помощью ДИП профиль психопатологической картины в текущем статусе пациента и динамике заболевания, а также диагностические выводы в соответствии с рядом классификационных критериев представляют собой диагностически значимый материал для клинических и исследовательских целей. Для более широкого введения русскоязычной версии ДИП в России будет составлен план подготовки и сертификации тренеров, которые смогут обучать специалистов, работающих с расстройствами психотического уровня в практическом здравоохранении, клинических и эпидемиологических исследованиях.
Авторы заявляют об отсутствии конфликта интересов.
*e-mail: daria.smirnova.md.phd@mail.ru
1Протокол № 12 от 17.12.15.
2Учитывая, что коэффициент каппа включает соотношение фактического и теоретически случайного согласия, он имеет уязвимость при оценке чувствительных показателей и может демонстрировать низкую степень согласия, если симптом встречается редко в исследуемой выборке (т.е. при высоких значениях общего парного согласия могут встречаться низкие значения каппа) [27]. В связи с этим вместе со значением каппа рекомендуется указывать приводившиеся коэффициенты позитивного и негативного согласия — pпоз и pнег [27].