Научно-технические достижения ХХ века полностью изменили представления о возможностях современных исследований в области биологии и медицины. Революционные изменения, которые мы сейчас наблюдаем, были связаны, в частности, с открытием структуры ДНК в 1953 г. [1]. Появление новых технологий, таких как открытая в 1983 г. полимеразная цепная реакция (ПЦР) [2], поменяло подход к изучению ДНК, а следовательно, и анализу генов млекопитающих. В 1977 г. были опубликованы две основополагающие статьи о способах секвенирования ДНК [3, 4]. Метод, предложенный F. Sanger и соавт. [4], в дальнейшем был доработан и в настоящее время является «золотым стандартом» секвенирования в исследовательской практике и клинической диагностике. Первые высокопроизводительные секвенаторы, работавшие по указанному методу, были использованы в известном масштабном 13-летнем проекте «Геном человека» [5—7].
C появлением ряда коммерческих платформ для массового параллельного секвенирования (МПС) его стоимость стала снижаться. В 2005 г. первым появился на рынке секвенатор GS20 производства «454 Life Sciences» («Roche»), работавший по технологии пиросеквенирования [8]. Эта платформа открыла перед исследователями эру высокопроизводительного анализа геномной ДНК. Такие методы также называют «секвенированием нового поколения» — NGS (next-generation sequencing). В 2006 г. компанией «Solexa» был представлен секвенатор Genome Analyzer 1G, использовавший принцип секвенирования путем синтеза [9]. Затем компанией «Ion Torrent Systems» Inс. был разработан новый принцип секвенирования, основанный на обнаружении ионов водорода, выделяющихся при полимеризации ДНК, а уже в 2010 г. на рынке появилась первая платформа для полупроводникового секвенирования Ion Torrent [10], использовавшая этот принцип.
Если секвенирование человеческого генома в 2008 г. занимало 5 мес и стоило $1,5 млн, то в 2011 г. аналогичный проект можно было завершить за несколько дней с бюджетом около $10 000, а в 2014 г., по данным производителя («Illumina» Inc., США), себестоимость секвенирования человеческого генома при использовании секвенатора HiSeq X Ten может снизиться до $1000 [11].
Тем не менее средняя стоимость секвенирования генома по оценкам National Center for Human Genome Research (NCHGR) остается довольно высокой, составляя около $5000 на октябрь 2013 г. [12]. Это, естественно, препятствует широкому использованию геномных технологий в практике работы небольших клинических лабораторий. Наряду с высокой стоимостью проведения, WGS (Whole genome Sequencing) исследователи сталкиваются с необходимостью обрабатывать большие массивы данных, что требует время и соответствующие вычислительные мощности.
Поскольку большинство патогенных мутаций локализованы в экзонах и сайтах сплайсинга, снизить стоимость исследования может использование полноэкзомного секвенирования — WES (Whole Exome Sequencing).
В настоящем обзоре рассматривается применение WES в клинической практике, в частности для диагностики некоторых неврологических и психических заболеваний.
Полноэкзомное секвенирование
Экзом представляет собой совокупность всех экзонов (последовательности, соответствующие матричной РНК после удаления интронов в процессе сплайсинга) в геноме. Это как раз та часть генома, которую мы можем интерпретировать [13].
На современном уровне развития науки и техники для решения клинико-диагностичестических задач полноэкзомное секвенирование имеет ряд преимуществ перед полногеномным. Во-первых, анализируя белоккодирующие последовательности, исследователи работают с наиболее изученной частью генома. Во-вторых, развитие заболеваний в большинстве случаев связано с нарушениями в функционировании или синтезе тех или иных белков (нонсенс- и миссенс-мутации, нарушение сплайсинга). WES позволяет сфокусироваться на исследовании именно белоккодирующих участков генома пациента, оценивать влияние аллельных вариантов на его фенотип. В-третьих, экономический фактор продолжает играть немаловажную роль при внедрении геномных технологий в клиническую практику. В отличие от полногеномного секвенирования, при котором 3 млрд п.н. человеческого генома должны быть прочитаны, экзомное подразумевает захват и целевое прочтение только кодирующих участков, что соответствует 1—3% человеческого генома. Стоимость секвенирования экзома в среднем в 6 раз ниже проведения полногеномного секвенирования [14]. Кроме того, она может быть дополнительно оптимизирована при соответствующем дизайне исследования (например, при проведении параллельного исследования экзомов 3 пациентов [15]). Наконец, в результате секвенирования экзома генерируется на порядок меньше данных, что позволяет проводить их обработку быстрее с привлечением меньших вычислительных мощностей [14].
Захват экзома
Таргетное секвенирование проводили и до появления технологии NGS, амплифицируя целевые участки генома при помощи ПЦР, а затем секвенируя по Sanger каждый продукт по отдельности. Это позволяло сузить область исследования, что необходимо, когда есть априорное предположение о том, в каком регионе генома может быть локализован исследуемый полиморфизм. Разработанные в последнее время методы таргетного обогащения позволяют охватывать большие регионы человеческого генома, снижая при этом материальные и временны́е затраты [16—19]. Эти методы называют геномным обогащением, а их применение позволяет подготовить пул исследуемых молекул, которые затем будут пространственно отделены друг от друга во время процедуры секвенирования. Например, коммерческий набор для захвата экзома Agilent Sure select kit (Agilent) выделяет консенсусные кодирующие последовательности генома человека, покрывая около 50 Мб (набор разработан на основании аннотации генома человека по версии проекта GENCODE [20]). В пул захватываемых последовательностей входят наиболее консервативные гены. Для выделения кодирующих областей генома подходят методы обогащения на основе гибридизации как на чипе [21—23], так и в суспензии [24].
Захват экзома позволяет проанализировать полный набор генов, снизив при этом материальные и временны́е затраты на проведение исследования по сравнению с полногеномным секвенированием.
Применение экзомного секвенирования в клинической практике
Все более очевидно, что большинство заболеваний имеют наследственный характер. Геном пациента также может влиять на течение ненаследственных заболеваний. До появления первых коммерческих NGS платформ в 2005 г. ответить на вопрос, какая именно мутация послужила толчком в развитии заболевания конкретного пациента, зачастую было невозможно даже в случае болезней с моногенным типом наследования. Также было неясно, почему у некоторых носителей патогенных мутаций они не проявляются фенотипически. Технологии нового поколения, в частности полноэкзомное секвенирование, дают возможность ответить на эти вопросы.
В данном обзоре подробно рассматривается применение WES в диагностике некоторых наследственных заболеваний, однако у экзомного секвенирования есть и другие клинические применения. Во-первых, WES позволяет выявлять генетическую природу моногенных наследственных болезней (см. таблицу). По оценкам, гены, вызывающие около 7000 моногенных заболеваний, будут идентифицированы в течение ближайших 3 лет [25]. Во-вторых, выявление генов-модификаторов у членов семей, имеющих моногенные заболевания, позволит понять, почему при исследовании больших семей не все носители патогенной мутации имеют одинаковый фенотип (соответствующее заболевание). Поиск и понимание механизма работы таких генов-модификаторов позволит в дальнейшем лучше понять природу развития комплексных заболеваний. Наконец, WES может быть использовано для исследования наследственной природы таких сложных заболеваний, как шизофрения [26] и умственная отсталость [27].
Очевидно, что полноэкзомное секвенирование должно стать основным инструментом в диагностике заболеваний, имеющих сложную наследственную природу, когда мутация в одном из ряда генов может вызывать характерный для заболеваний фенотип. Последовательное тестирование всех генов-кандидатов при помощи ПЦР с последующим секвенированием по Sanger делает постановку диагноза длительным и дорогим процессом, в то время как пациент может не получать адекватного лечения. Последнее особенно важно в случае онкологических заболеваний.
Разнообразие фенотипических проявлений каждой мутации у конкретного пациента в свою очередь осложняет точную оценку клинических проявлений, что потенциально приводит к ошибочному или неоднозначному диагнозу. Например, более 30 аутосомно-рецессивных заболеваний вызываются врожденными нарушениями гликозилирования, что делает постановку точного диагноза пациентам с дефицитом гликозилирования затруднительной [28].
Стратегии выявления патогенной мутации
Рассмотрим подробнее стратегии выявления патогенной мутации при помощи WES. На первом этапе после получения данных экзомного секвенирования необходимо уменьшить количество анализируемых вариантов на несколько порядков. В среднем, каждый экзом содержит 20 000—50 000 полиморфизмов. В качестве первого фильтра выступает критерий качества данных (количество независимых ридов и доля ридов с данным вариантом: не менее 20% для гетеро- и 80% — гомозигот), таким образом, удаляются ложноположительные колы. Затем отфильтровывают полиморфизмы, локализованные вне целевого региона и синонимичные замены, не влияющие на кодируемый белок. На этом этапе остается примерно 5000 полиморфизмов. После этого варианты, не имеющие патологического влияния, также удаляют из рассмотрения, сравнивая результаты секвенирования с базой данных. Этот шаг позволяет снизить число полиморфизмов-кандидатов еще на порядок [23, 27, 29—32]. Однако патологические варианты также могут быть отсеяны в случае, если представлены в здоровой популяции в гетерозиготном состоянии с низкими частотами. Стратегия дальнейшего поиска мутации (й), вызывающих заболевания, будет зависеть от семейной истории пациента и предполагаемой природы заболевания.
В случае семейного моногенного заболевания секвенируют экзомы всех больных членов семьи, а также нескольких здоровых для того, чтобы исключить непатогенные полиморфизмы, которые могут наследоваться в семье. Затем можно провести сравнение между наиболее родственно отдаленными членами семьи, страдающими от исследуемого заболевания. В зависимости от степени родства такое сравнение поможет исключить 50% и более частных непатогенных полиморфизмов. Так, сравнение двух сибсов позволило снизить количество рецессивных генов-кандидатов до девяти [29]. P. Krawitz и соавт. [33], исследуя наследственные причины гиперфосфатазной умственной отсталости, дополнительно фазировали все полиморфизмы, оказавшиеся общими для 2 сибсов, что позволило отфильтровать имевшие одинаковое происхождение (родитель) и снизить количество генов-кандидатов с 14 до 2.
Если заболевание предположительно имеет аутосомно-рецессивный характер, то достаточно секвенировать экзом самого пациента. В данном случае гены-кандидаты будут находиться в наиболее протяженном гомозиготном регионе. Этот подход позволяет избежать необходимости получать геномные данные большого количества членов семьи и был успешно применен J. Becker и соавт. [31] для выявления мутации, вызывающей несовершенный остеогенез. Данный подход может оказаться эффективным, если семейная история недоступна, но предполагается аутосомно-рецессивный характер заболевания. В этом случае гены-кандидаты также будут в гомозиготном или частично гомозиготном состоянии. C. Gilissen и соавт. [32] и S. Pierce и соавт. [34] успешно применили такую стратегию для выявления мутаций, вызывающих синдром Сенсенбреннера и Перраулта соответственно.
Исходя из предположения о моногенности заболевания, в случае доминантного типа наследования можно секвенировать и сравнить экзомы неродственных пациентов. Данный подход был успешно применен для выявления мутаций, вызывающих тригоноцефалиеподобный синдром Опитца [32] и синдром Кабуки [30].
Если заболевание имеет в большой степени гетерогенную природу, как в случае с умственной отсталостью, аутизмом или бесплодием, то анализ данных неродственных пациентов не дает результата. В случае таких болезней наиболее вероятно, что мутация возникла в ходе мейоза в одном из ряда генов, ответственных за развитие данного заболевания. Для выявления мутации в подобном случае секвенируют экзом семейного трио (пациент и его родители). Поскольку у индивидуума в среднем de novo появляется не более 3 мутаций [35], гены-кандидаты находят путем сравнения полученных данных. Рассмотрим подробнее применение полноэкзомного секвенирования на примерах из клинической практики.
WES в диагностике расстройств аутистического спектра
В ряде работ [36—38] было установлено, что психические расстройства аутистического спектра имеют наследственную природу. B. O’Roak и соавт. [39] исследовали группу из 20 пациентов, страдающих расстройствами аутистического спектра, и их родителей, показав, что исследование семей позволяет эффективно обнаруживать de novo мутации, вызывающие данное заболевание. Этот подход получил развитие в масштабном исследовании S. Sanders и соавт. [40]. Они использовали для анализа образцы 928 человек из 238 семей (пациент, его здоровые сибсы и родители) из коллекции Саймонс Симплекс1. Критериям качества исследования соответствовали образцы 225 семей пациентов с диагностированным аутизмом (со средним невербальным IQ 84). Образцы ДНК из крови подвергали процедуре геномного обогащения при помощи панелей NimbleGen custom array или EZExomeV2.0, а затем секвенировали на приборах IlluminaGAIIx и HiSeq 2000. Полученные короткие риды выравнивали на референсный геном h18 при помощи программы BWA, а полиморфизмы предсказывали с помощью SAMtools. После внутрисемейной нормализации в анализе использовали только основания, представленные не менее чем в 20 индивидуальных ридах для каждого члена семьи. Все de novo выявленные мутации подтверждали секвенирование соответствующего участка по Sanger. S. Sanders и соавт. исходили из предположения, что полиморфизмы, повышающие риск развития расстройств аутистического спектра, локализованы в генах, экспрессирующихся в мозге, и представляют собой нонсенс-мутации или варианты канонических сайтов сплайсинга. Для выделения экспрессирующихся в мозге генов были использованы данные микроэрреев (микрочипы) кадаверных образцов мозга (возраст от 6 нед после зачатия до 82 лет). Аннотирование генов и поиск вариантов сайтов сплайсинга проводили по базе данных RefSeq (NCBI). Основываясь на собственных ранее полученных данных и разработанной в рамках исследования статистической модели, S. Sanders и соавт. предположили, что в наиболее вероятных генах-кандидатах будут обнаружены независимые нонсенс-мутации у неродственных пациентов. В результате применения такого подхода был выявлен ген SCN 2A (потенциалзависимый натриевый канал типа II, α-субъединица), ассоциированный с риском развития расстройств аутистического спектра.
WES при постановке точного генетического диагноза у пациентов, страдающих болезнью Шарко—Мари—Тута
Под болезнью Шарко—Мари—Тута (ШМТ) понимают ряд наследственных невропатий. ШМТ имеет преимущественно аутосомно-доминантный тип наследования, но встречается также аутосомно-рецессивного и Х-сцепленного. На данный момент известно 35 различных генов, мутации в которых приводят к проявлению сходных фенотипов у пациентов, что затрудняет постановку точного генетического диагноза [41, 42]. Вероятно, в будущем будет выявлено больше генов, ассоциированных с ШМТ [43].
G. Montenegro и соавт. [44] показали эффективность использования WES для постановки точного генетического диагноза пациентам с ШМТ. Они исследовали случай наследования ШМТ в семье. Тест на наличие распространенной мутации в гене MFN2 не выявил аномалий у членов данной семьи, заболевание передавалось от отца к сыну, что предполагало Х-сцепленное наследование. 6 членов семьи страдали ШМТ, 5 — были здоровы, а статус 2 — не определен. Для выявления мутации были секвенированы экзомы 2 членов семьи, страдающих ШМТ. ДНК выделяли из образцов крови с последующим экзомным обогащением при помощи набора SureSelect human all exon kit («Agilent»). Секвенирование проводили на приборе Genome Analyzer II («Illumina»). Сборку экзомов и коллинг полиморфизмов проводили при помощи программного обеспечения MAQ. Полиморфизмы категоризировали на кодирующие, некодирующие и de novo однонуклеотидные замены (single-nucleotide polymorphisms, SNPs) при помощи сервера SeattleSeq. Полученные данные были ранжированы методом профайлинга скорости геномной эволюции — GERP (Genomic Evolutionary Rate Profiling). Все ранее известные гены, связанные с развитием ШМТ, были детально проверены на наличие полиморфизмов и оптимальное покрытие. В результате было выявлено 64 568 и 61 153 SNPs у 2 пациентов соответственно, из которых 24 150 и 23 607 находились в кодирующих областях. После исключения из анализа полиморфизмов, заведомо не связанных с развитием ШМТ, и вариантов, представленных только в экзоме 1 пациента, была обнаружена c.283G>A мутация в гене GJB1 (Cx32), вызывающая ШМТ в исследуемой семье. Наличие данной мутации у других больных членов семьи было подтверждено секвенированием по Sanger. Авторы данного исследования подчеркивают, что, исходя из семейной истории пациентов (предположительное Х-сцепленное наследование), выявление этой мутации было бы затруднительно, в то время как использование полноэкзомного секвенирования позволяет поставить точный диагноз в тех случаях, когда первоначальная гипотеза не подтверждается простым генетическим тестированием.
Таким образом, использование экзомного секвенирования в клинической практике может упростить и ускорить постановку точного диагноза. Более того, получение данных о генетической природе заболевания позволит персонифицировать подход к лечению и подобрать для каждого пациента наиболее эффективную терапевтическую схему, а также проводить консультирование пациентов по вопросам планирования семьи. Однако широкое внедрение экзомного секвенирования в клинической практике в настоящий момент ограничивается высокой стоимостью оборудования, а также требует квалифицированного персонала для проведения лабораторной части исследования и последующей биоинформатической интерпретации полученных данных.
1Коллекция Саймонс Симплекс (The Simons Simplex Collection — SSC) — это проект Фонда Саймона по изучению аутизма (Simons Foundation Autism Research Initiative). Коллекция представляет собой базу генетических образцов членов семей, в которых здоровые родители имеют одного ребенка, страдающего аутизмом, а также здорового ребенка (детей).