Введение
Опухоли головного мозга представляют собой гетерогенную группу новообразований с точки зрения гистологических особенностей, молекулярных характеристик и локализации [1]. Наиболее распространенными типами первичных злокачественных и доброкачественных опухолей головного мозга являются глиомы и менингиомы соответственно [2]. Инвазивная диагностика опухолей головного мозга осложнена ввиду их внутричерепного положения [1]. Разработка малоинвазивных подходов для диагностики глиальных опухолей остается актуальной задачей, особенно для глиобластомы как наиболее агрессивной опухоли головного мозга. Образцы крови и цереброспинальной жидкости рассматриваются в качестве основных источников опухолевых биомаркеров [3]. Недавно проведенный метаанализ продемонстрировал высокую диагностическую точность свободно циркулирующих и экзосомальных микроРНК при раннем выявлении опухолей головного мозга [4].
Достижения в области технологий секвенирования способствуют экспоненциальному росту геномных и транскриптомных данных, поэтому вычислительная идентификация ассоциаций микроРНК с опухолями головного мозга становится все более осуществимой [5]. В последнее время появляются сведения о различных сигнатурах микроРНК, экспрессионные изменения которых свидетельствуют о ранних проявлениях глиальных опухолей [6]. Выявление таких сигнатур является, как правило, результатом применения регрессионных алгоритмов. При этом многие из них ограничены предсказанием только двух возможных классов — больных с определенным опухолевым типом и условно здоровых доноров. В связи с этим отмечен дефицит классификационных моделей и диагностических пулов микроРНК, позволяющих своевременно дифференцировать несколько опухолевых типов, в том числе доброкачественных новообразований головного мозга.
Цель исследования — создать модель-классификатор с помощью алгоритмов машинного обучения для дифференциальной диагностики глиальных и доброкачественных опухолей головного мозга на основе данных высокопроизводительного секвенирования онкоассоциированного паттерна циркулирующих микроРНК.
Материалы и методы
Характеристика группы исследования
Пациенты, включенные в исследование, проходили лечение в ФГБУ «НМИЦ онкологии» Минздрава России по поводу первичных опухолей головного мозга с января 2023 г. по ноябрь 2024 г. Материалом исследования послужила плазма крови.
Критерии включения: подписанное информированное добровольное согласие на обработку персональных данных и передачу сведений, составляющих врачебную тайну, и на передачу биологического материала, наличие морфологически верифицированного диагноза C71.0—C71.9 или D33.0—D33.4, возраст старше 18 лет, отсутствие специализированного лечения по основному заболеванию.
Критерии исключения: отсутствие либо отзыв информированного согласия и непригодность образца крови вследствие гемолиза эритроцитов. В работе соблюдались этические принципы, предъявляемые Хельсинкской декларацией Всемирной медицинской ассоциации (World Medical Association Declaration of Helsinki, 1964, ред. 2013). Проведение исследования одобрено локальным советом по этике «НМИЦ онкологии» Минздрава России (протокол №6 от 17.11.2022).
Для проведения высокопроизводительного секвенирования (NGS) плазмы крови сформировали четыре группы интереса: пациенты с диагнозами «олигодендроглиома II—III степени злокачественности» (n=5), «астроцитома II—IV степени злокачественности» (n=15), «глиобластома IV степени злокачественности» (n=22), «доброкачественные новообразования» (менингиомы) (n=13). Группой сравнения служили условно здоровые доноры без онкопатологии (n=4). В работу включены 27 мужчин и 32 женщины, 4 из которых вошли в контрольную группу. Возраст пациентов в исследуемых группах колебался от 21 года до 78 лет, медиана составила 60 лет. В контрольной группе возрастной диапазон был от 42 до 54 лет, медиана — 46 лет.
Проведение NGS-секвенирования
Забор венозной крови у участников исследования проводили натощак в вакуумные пробирки с К2 ЭДТА. В течение 30 мин [7] образцы доставляли в лабораторию и получали плазму путем последовательного двойного центрифугирования в режиме 2000 об./мин 10 мин и 5000 об./мин 10 мин. Плазму отбирали в криопробирки и хранили при –75°C. В дальнейшем образцы плазмы размораживали и использовали 200 мкл для выделения фракции микроРНК с помощью набора miRNeasy Serum/Plasma Kit («Qiagen», Германия) по этапам, описанным в инструкции производителя. Для нормализации выделения использовали внутренний синтетический контроль спайк-ин miScript miRNeasy.
Подготовку библиотек кДНК осуществляли с помощью набора QIAseq miRNA Library Kit («Qiagen GmbH», Германия). Исследование качества полученных кДНК библиотек проводили с использованием системы TapeStation 4150 («Agilent Technologies Inc.», США) согласно протоколу производителя. Измерение концентрации кДНК выполняли на флуориметре Qubit 2.0 согласно инструкции производителя. Библиотеки кДНК мультиплексировали, объединяя в эквимолярных количествах, равнявшихся 10 пМ. Дальнейшее NGS-секвенирование подготовленных кДНК библиотек проводили на приборе MiSeq Dx («Illumina, Inc.», США), используя параметры, указанные в руководстве пользователя системы MiSeq.
Предподготовка и нормализация исходного набора данных
Дисбаланс классов, представленных группой пациентов с менингиомой и контрольной группой, устранен путем дополнения синтетическими данными с помощью пакета Scutr, применяемого в программной вычислительной среде R 4.4.1. После проведена фильтрация данных с целью минимизации количества нерелевантных микроРНК, повышающих сложность модели при незначительном вкладе в ее классификационные возможности. В процессе фильтрации отсеяны микроРНК, суммарное значение количества прочтений которых не превышало 5 для одного ряда. Данные нормализованы с помощью логарифмирования log2(seq_data +1) и последующей квантилизации. Для квантилизации использовали пакет PreprocessCore [8]. Затем для последующей редукции количества признаков использовались методы удаления признаков с почти нулевой дисперсией (near zero variance) и коррелирующих между собой признаков. Предобработанный набор данных разделен в соотношении 0,8:0,2 на обучающий и тестовый наборы.
Машинное обучение и разработка модели-классификатора
С учетом мультиклассификационной задачи и малых размеров выборки нами выбраны метод случайного леса и алгоритм XGBoost (eXtreme Gradient Boosting — XGBoost). Для обучения моделей использовали программную вычислительную среду R 4.4.1 и пакет Tidymodels [9]. Затем проводили расчет относительного вклада (feature importance) микроРНК в классификационные возможности каждой модели.
Статистический анализ данных
Статистическая обработка результатов проводилась в программной вычислительной среде R 4.4.1. Анализ дифференциальной экспрессии микроРНК осуществляли с помощью пакета DESeq2. Для каждой исследуемой группы пациентов отобраны дифференциально экспрессирующиеся (ДЭ) микроРНК, удовлетворявшие двум условиям: |Log2FC|>1 и p<0,05.
Оценку классификационной способности моделей, обученных методами случайного леса и с применением алгоритма XGBoost, проводили посредством расчета таких параметров, как: точность, чувствительность, специфичность, положительная и негативная прогностические ценности, выраженных в процентах.
Результаты и обсуждение
Анализ дифференциальной экспрессии микроРНК
Сравнение данных контрольной группы и групп интереса позволило выделить 59 ДЭ микроРНК: 17 (11 — с повышенной экспрессией и 6 — со сниженной) для группы глиобластом, 13 (11 — с повышенной и 2 — со сниженной) — астроцитом, 14 (11 — с повышенной и 3 — со сниженной) — олигодендроглиом, 15 (10 — с повышенной и 5 — со сниженной) — менингиом.
На диаграммах Венна, построенных на основе данных об уровне ДЭ микроРНК, наглядно проиллюстрировано, что только часть выявленных биомаркеров обладает специфичностью для одного подтипа глиом или менингиомы (рис. 1 см. на цв. вклейке). В результате определены профили экспрессии микроРНК, специфичные для разных опухолевых типов: изменения уровней экспрессии 17 микроРНК оказались характерны для глиобластомы, 10 — для астроцитомы, 10 — для олигодендроглиомы, 14 — для менингиомы.
Рис. 1. Диаграммы Венна, демонстрирующие сходства и различия между исследуемыми группами в пулах микроРНК.
а — в пулах микроРНК с повышенной экспрессией; б — в пулах микроРНК со сниженной экспрессией.
Предподготовка и нормализация исходного набора данных
Исходный набор данных представлял собой экспрессионные профили микроРНК 59 образцов плазмы крови: 42 — больных с глиальными опухолями, 13 — с менингиомами, 4 — доноров. После добавления синтетических данных в классы пациентов с менингиомами и контрольной группы дисбаланс классов был устранен, а суммарное количество образцов в исходном наборе данных возросло до 126. В процессе фильтрации и нормализации данных количество отобранных микроРНК составило 362. Обучающий и тестовый наборы разделены в соотношении 80:20.
Машинное обучение
После выбора оптимальных гиперпараметров и обучения модели методом случайного леса точность модели при проверке на тестовой выборке составила 85,2% (p<0,001). Остальные критерии оценки представлены в таблице. Модель, обученная с применением алгоритма XGBoost, несколько уступала предыдущей модели: точность при проверке на тестовой выборке составила 81,5% (p<0,001). Ниже оказались и остальные критерии. Для оценки качества сконструированных моделей также построены матрицы ошибок, представленные на рис. 2.
Оценка классификационной способности моделей, обученных методом случайного леса и с применением алгоритма XGBoost
Критерий | Контрольная группа | Пациенты с менингиомами | Пациенты с глиальными опухолями |
Чувствительность, % | |||
метод случайного леса | 100 | 88,9 | 66,7 |
XGBoost | 100 | 66,7 | 77, 8 |
Специфичность, % | |||
метод случайного леса | 100 | 83,3 | 94,4 |
XGBoost | 94,4 | 94,4 | 83,3 |
Положительная прогностическая ценность, % | |||
метод случайного леса | 100 | 72,7 | 85,7 |
XGBoost | 90 | 85,7 | 70 |
Негативная прогностическая ценность, % | |||
метод случайного леса | 100 | 93,7 | 85 |
XGBoost | 100 | 85 | 88,2 |
Рис. 2. Матрицы ошибок для классификационных моделей, обученных разными методами.
Здесь и на рис. 3: а — методом случайного леса; б — с применением алгоритма XGBoost.
В дальнейшем отобраны микроРНК, внесшие наибольший относительный вклад в классификационные модели, обученные методом случайного леса и с применением алгоритма XGBoost (рис. 3).
Рис. 3. Топ-50 микроРНК с наибольшим относительным вкладом в модели, обученные разными методами.
Последующая фильтрация подтип-специфичных микроРНК проводилась на основании данных о дифференциальной экспрессии и оценки относительного вклада каждой микроРНК в классификационные модели. В результате выявлена сигнатура из опухольспецифических микроРНК (всего 51): 17 — для глиобластом, 10 — для астроцитом, 10 — для олигодендроглиом и 14 — для менингиом. После фильтрации полученных данных дифференциальной экспрессии отобрано 10 микроРНК, вносивших наибольший вклад в классификационные модели, обученные методами машинного обучения. В конечном итоге количество значимых микроРНК сократилось до 5 (hsa-miR-192-5p, hsa-miR-194-5p, hsa-miR-128-3p, hsa-miR-30c-5p, hsa-miR-186-5p) в группе пациентов с глиобластомой, до 1 (hsa-miR-340-5p) — с астроцитомой, до 2 (hsa-miR-3168, hsa-miR-19b-3p) — с олигодендроглиомой и до 2 (hsa-miR-144-5p, hsa-let-7c-5p) — с менингиомой (рис. 4).
Рис. 4. Итоговый перечень опухолеспецифических микроРНК.
Анализ литературы показал, что все микроРНК, кроме hsa-miR-3168, упоминаются в контексте глиальных опухолей и в основном вовлечены в такие процессы, как прогрессия [10—13] и метастазирование [14]. Дифференциальная экспрессия некоторых микроРНК может быть маркером наличия опухоли глиального ряда [15, 16], а также предиктором чувствительности к химиотерапии [17—19].
МикроРНК, отобранные в результате нашего исследования, будут проверены методом РТ-ПЦР на валидационной когорте пациентов с новообразованиями головного мозга. Кроме того, для выявленных микроРНК будут проведены поиск генов-мишеней и анализ обогащения по функциональной принадлежности. На основе полученных данных планируется создание диагностической панели микроРНК плазмы крови, позволяющей дифференцировать опухоли головного мозга различных типов.
К настоящему времени проведено небольшое количество исследований в области машинного обучения на основе измерения уровня циркулирующих микроРНК при диагностике опухолей головного мозга. N. Teplyuk и соавт. представили сигнатуру из 7 микроРНК цереброспинальной жидкости, позволяющую с высокой точностью (91—99%) дифференцировать глиобластому и метастатический рак головного мозга [20]. M. Ohno и соавт. описали дискриминирующую модель из 48 микроРНК, в 94% случаев идентифицирующую пациентов с глиобластомой и в 80% — с метастазами в головной мозг [21]. M. Niemira и соавт. предложили скрининговую сигнатуру из двух микроРНК (hsa-miR-362-3p и hsa-miR-6721-5p) в сыворотке крови для разделения глиобластом и Grade IV астроцитом от глиом Grade II—III [22]. Таким образом, обнаружение микроРНК в биологических жидкостях для стратификации больных с опухолями головного мозга различной природы является новым и малоизученным направлением в нейроонкологии. Настоящее исследование, проведенное с применением методов высокопроизводительного секвенирования, биоинформационного анализа и машинного обучения, расширит знания о микроРНК — маркерах, позволяющих разделять опухоли головного мозга в зависимости от гистологического типа новообразования.
Ограничения исследования
В ходе разработки моделей-классификаторов мы столкнулись с некоторыми ограничениями, повлиявшими на этап предподготовки данных и выбор алгоритма машинного обучения. Одной из проблем оказался дисбаланс классов, который устранен путем добавления в набор синтетических данных с помощью алгоритма SCUT и пакета Scutr программной вычислительной среды R 4.4.1.
Небольшие размеры исходного набора данных и мультиклассификационная задача исследования вносили ограничения при выборе подходящего алгоритма. При выборе методов машинного обучения мы руководствовались работой P. Xu и соавт. [23].
Лимитирующими аспектами при обучении и проверке классификационных моделей являлись недостаток и неоднородность доступных данных NGS. Неоднородность данных обусловлена несколькими факторами: использованием в исследованиях разных NGS-технологий, выбором условий забора материала (до, во время или после курсов терапии), а также формированием выборок с различными клиническими особенностями. Все перечисленное сопряжено с определенными трудностями на этапах обучения моделей и валидации. В нашем случае оказался недостижимым этап валидации на стороннем наборе данных.
Заключение
Сконструированные модели успешно стратифицировали условно здоровых индивидов, больных с глиальными опухолями и с менингиомами. Методы машинного обучения могут помочь в обработке больших массивов данных и дизайне диагностических панелей биомаркеров при новообразованиях головного мозга.
Вклад авторов: концепция и дизайн исследования — Гвалдин Д.Ю.; сбор и обработка материала — Петрусенко Н.А.; статистический анализ данных — Кавицкий С.Э., Вошедский В.И., Лесной М.Н.; написание текста — Гвалдин Д.Ю., Омельчук Е.П.; научное редактирование — Тимошкина Н.Н., Росторгуев Э.Е.
Финансирование: исследование выполнено в рамках государственного задания «Разработка малоинвазивной диагностической панели опухолей головного мозга на основе циркулирующих микроРНК в плазме крови».
Авторы заявляют об отсутствии конфликта интересов.
Authors contribution: study design and concept — Gvaldin D.Yu.; data collection and processing — Petrusenko N.A.; statistical analysis — Kavitskiy S.E., Voshedskii V.I., Lesnoy M.N.; text writing — Gvaldin D.Yu., Omelchuk E.P.; scientific editing — Timoshkina N.N., Rostorguev E.E.
Financial Support: the study was conducted as part of the State Assignment, «Development of a Minimally Invasive Diagnostic Panel for Brain Tumors Based on Plasma Circulating MicroRNAs».