Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.

Харченко Е.П.

ФГБУН «Институт эволюционной физиологии и биохимии им. И.М. Сеченова» РАН

мРНК: организация синтаксиса

Авторы:

Харченко Е.П.

Подробнее об авторах

Прочитано: 1238 раз


Как цитировать:

Харченко Е.П. мРНК: организация синтаксиса. Молекулярная генетика, микробиология и вирусология. 2025;43(2):14‑28.
Kharchenko EP. mRNA: syntax organization. Molecular Genetics, Microbiology and Virology. 2025;43(2):14‑28. (In Russ.)
https://doi.org/10.17116/molgen20254302114

Посвящается памяти Е.М. Крепса

Из-за вырожденности генетического кода одна и та же первичная структура любого белка может быть закодирована огромным множеством вариантов мРНК. Но будут ли все варианты мРНК транслироваться в функционально активный белок? В реальности оказалось, что единственная синонимическая мутация в гене белка, не изменяющая его первичную структуру, может привести к утрате его функции и к патологии [1, 2]. Пришло признание, что последовательность кодонов мРНК определяет не только последовательность аминокислот в первичной структуре белка, но и ею предопределяются стабильность самой мРНК и ее вторичная структура, эффективность трансляции, сплайсинг и ее локализация [3, 4].

Важнейшим фактором для формирования укладки белка является скорость трансляции его мРНК рибосомами, влияя на котрансляционное свертывание белка, что а priori зависит от последовательной транслокации кодонов в рибосоме по ее сайтам A, P и E. Различный нуклеотидный состав кодонов и их линейное следование в мРНК обусловливает множество вариантов трикодонов, последовательно считываемых в рибосоме со сдвигом на один кодон. Длительность пребывания каждого трикодона в рибосоме зависит от силы взаимодействия составляющих его кодонов с самой рибосомой и комплементарными им тРНК.

В линейном следовании трикодонов в мРНК различных белков прокариот, архей, эукариотов и их вирусов выявлены ограничения, проявляющиеся в соседстве трикодонов преимущественно с идентичными или близкими значениями индексов комплементарности (ИК). Последние равны общему числу комплементарных связей между составляющими трикодон кодонами и узнающими их тРНК [5]. В контексте лингвистики выявленные ограничения можно рассматривать как синтаксические особенности мРНК. Источниками различий по ИК между трикодонами, последовательно считываемыми на рибосоме со сдвигом на один триплет, являются состав нуклеотидов кодонов и позиции самих кодонов в последовательностях трикодонов [6]. Поэтому представляется логичным продолжить анализ синтаксиса первичной структуры мРНК в аспекте двустороннего ближайшего соседства кодонов в последовательно считываемых трикодонах. Обобщение результатов предпринятого с этой целью биоинформационного анализа синтаксиса мРНК белков из разных доменов живых организмов является предметом данного сообщения.

Материал и методы

Для биоинформационного анализа были использованы мРНК 286 белков, разные по длине, нуклеотидному составу и функциям. Общая протяженность мРНК составляла 1 054 811 нуклеотидов. Они представлены тремя мРНК белков вирусов: S белок (коронавирус SARS-CoV-2), полипротеин (вирус краснухи), гемагглютинин (вирус гриппа H1N1); тремя мРНК белков прокариотов: каталаза-пероксидаза (Escherichia coli), серин/треонин протеин-киназа (Mycobacterium tuberculosis), металлопептидаза (Pseudomonas marginalis); двумя мРНК белков архей: большая субъединица карбомоил-фосфат-синтазы (Hyperthermus butylicus), гликозилтрансфераза (Haloferax volcanii); мРНК гистона Н4 простейших (Tetrahymena thermophila), остальные мРНК представляют белки человека. Источником первичных структур мРНК и кодируемых ими белков служили общедоступные в Интернете базы данных (https://viralzone.expasy.org, https://www.nextprot.org и https://www.platform.gisaid.org).

Для выявления ограничений в кодировании генов были построены линейные последовательности оцифрованных кодонов/трикодонов, считанных со сдвигом рамки на один кодон, имитируя процесс трансляции на рибосомах. Их первым числовым показателем служил ИК — сумма водородных связей, которые кодоны способны образовывать комплементарно с узнающими их тРНК.

ИК отдельных кодонов приведены в таблице генетического кода (рис. 1, а). Максимальное значение ИК у кодонов составляет 9, а минимальное — 6. Вторым числовым показателем кодонов/трикодонов служил индекс размерности — ИР (рис. 1, б) пуринов и пиримидинов. Учитывая близость структур между пуринами и между пиримидинами и различия между пуринами и пиримидинами в их молекулярных размерах, для аденина и гуанина ИР условно был принят за 2, а для пиримидинов цитозина и тимина (урацила) — за 1. Исходя из этих предпосылок, были рассчитаны значения ИР для кодонов и трикодонов. Максимальное значение ИР у кодонов составляет 6, а минимальное — 3.

Рис. 1. Таблица генетического кода со значениями индексов комплементарности (а) и размерности (б).

В статье используется международный код аминокислот: A — аланин, C — цистеин, D — аспарагиновая кислота, E — глутаминовая кислота, F — фенилаланин, G — глицин, H — гистидин, I — изолейцин, K — лизин, L — лейцин, M — метионин, N — аспарагин, P — пролин, Q — глутамин, R — аргинин, S — серин, T — треонин, V — валин, W — триптофан, Y — тирозин. Для обозначения нуклеиновых оснований используется следующая аббревиатура: A — аденин, G — гуанин, C — цитозин, T — тимин, I — инозин. Затененные кодоны не имеют у эукариот соответствующих генов тРНК с антикодоном.

По последовательностям ИК и ИР кодонов были рассчитаны частоты кодонов в мРНК по отдельным значениям индексов (табл. 1), разницы между индексами кодонов, считываемых последовательно сдвигом на 1 кодон. Поскольку разница по обоим индексам между кодонами составляла 0, 1, 2 и 3, трикодоны, последовательно считанные в каждой мРНК, классифицировались в 4 группы в зависимости от значения разницы индекса между первым и вторым кодонами трикодона. Далее каждая группа трикодонов разбивалась соответственно на 4 подгруппы по значениям разницы индексов (от 0 до 3) между вторым и третьим кодонами. Поэтому в табл. 2 и табл. 3 дробные обозначения подгрупп по значениям разниц между первым и вторым и вторым и третьим кодонами трикодона, например, 2/1, следует расшифровывать как подгруппу, представляющую трикодоны с разницей 2 между индексами первого и второго кодонов и с разницей 1 между индексами второго и третьего кодонов. По существу, этот способ подсчета иллюстрирует распределение частот разниц индексов между вторым и третьим кодонами в зависимости от значения разницы между индексами первого и второго кодонов в трикодоне.

Таблица 1. Распределение в мРНК частот кодонов по значениям их индексов

Домен

мРНК белка*

Длина

%ГЦ

Величина индекса комплементарности

Величина индекса размерности

6

7

8

9

3

4

5

6

Вирусы

S белок

1270

37

288

589

357

36

205

465

437

163

Полипротеин

1064

69

29

201

487

347

157

475

340

92

Гемагглютинин

566

41

111

258

160

38

43

192

210

122

Прокариоты

Каталаза-пероксидаза

726

56

69

224

310

124

63

275

304

85

Металлопептидаза

477

63

17

137

208

116

48

172

222

36

СТПК

750

66

20

175

355

201

70

313

284

84

Археи

КФС

1073

61

58

272

546

198

118

327

446

183

Гликозилтрансфераза

623

71

12

105

306

202

89

254

230

52

Эукариоты

Гистон H4

103

45

11

52

36

5

13

38

24

29

Гистон H4, человек

103

64

5

30

37

32

9

41

37

17

Сывороточный альбумин

609

43

105

254

221

30

87

214

162

147

Саксин

4580

39

973

2046

1370

191

676

1512

1491

901

Коллаген

1464

65

46

286

826

307

346

343

545

231

Цитохром c-оксидаза 1

513

46

73

225

160

56

101

200

170

43

НАДФ дегидрогеназа

603

45

86

273

194

51

125

256

182

41

Примечание: *В табл. 1—4 источники мРНК белков приведены в разделе «Материал и методы». СТПК — серин/треонин-протеин-киназа; КФС — каорбомоил-фосфат-синтаза.

Таблица 2. Частота трикодонов в мРНК по разнице индексов комплементарности составляющих их кодонов

Домен

мРНК белка

Длина

%ГЦ

Частоты трикодонов

Группа 1

Группа 2

Группа 3

Группа 4

Значения разницы ИК между первым и вторым и вторым и третьим кодонами трикодона в подгруппах

0/0

0/1

0/2

0/3

1/0

1/1

1/2

1/3

2/0

2/1

2/2

2/3

3/0

3/1

3/2

3/3

Вирусы

S белок

1270

37

164

210

55

2

212

304

95

8

52

99

40

6

3

6

7

5

Полипротеин

1064

69

174

185

44

4

192

221

61

6

40

67

40

8

1

6

11

2

Гемагглютинин

566

41

63

88

17

2

81

124

54

7

25

50

36

3

1

4

7

3

Прокариоты

Каталаза-пероксидаза

726

56

78

100

46

1

106

150

65

6

40

61

34

14

1

15

5

3

Металлопептидаза

477

63

52

86

24

1

85

103

31

2

23

30

25

4

2

3

2

3

СТПК

750

66

85

124

27

0

120

195

54

4

29

52

43

5

2

3

4

2

Археи

КФС

1073

61

165

163

43

2

170

231

78

8

38

83

56

12

1

9

12

1

Гликозилтрансфераза

623

71

93

106

21

4

114

170

32

2

17

36

15

1

1

5

1

5

Эукариоты

Гистон H4

103

45

15

19

6

0

22

17

6

0

3

10

4

0

0

0

0

0

Гистон H4, человек

103

64

4

14

6

1

13

26

12

0

5

12

4

1

2

0

0

2

Сывороточный альбумин

609

43

55

85

25

1

84

184

46

5

24

49

25

7

3

1

9

5

Саксин

13739

39

594

735

186

9

741

1059

349

22

180

348

243

34

9

29

27

13

Коллаген

1464

65

263

249

34

5

244

377

89

11

40

86

31

8

3

9

12

2

Цитохром с-оксидаза 1

513

46

66

73

17

2

77

124

41

9

13

48

21

4

2

6

7

2

НАДФ дегидрогеназа

603

45

69

114

21

1

103

131

41

8

30

31

32

5

3

8

3

2

Таблица 3. Частота трикодонов в мРНК по разнице индексов размерности составляющих их кодонов

Домен

мРНК белка

Длина

%ГЦ

Частоты трикодонов

Группа 1

Группа 2

Группа 3

Группа 4

Значения разницы ИР между первым и вторым и вторым и третьим кодонами трикодона в подгруппах

0/0

0/1

0/2

0/3

1/0

1/1

1/2

1/3

2/0

2/1

2/2

2/3

3/0

3/1

3/2

3/3

Вирусы

S белок

1273

37

89

185

70

9

187

268

110

17

65

115

68

25

13

14

24

9

Полипротеин

1064

69

135

168

48

4

181

221

69

9

36

79

64

15

3

12

13

5

Гемагглютинин

566

41

58

81

29

4

84

130

46

6

29

46

28

5

1

9

5

4

Прокариоты

Каталаза-пероксидаза

726

56

85

110

31

4

116

181

54

4

27

60

31

6

1

5

8

2

Металлопептидаза

477

63

80

76

22

1

80

93

32

2

19

36

28

2

1

1

3

0

СТПК

750

66

61

119

30

1

111

197

63

5

39

52

47

8

0

7

7

2

Археи

КФС

1073

61

101

148

62

5

139

223

97

15

66

89

62

19

10

14

15

7

Гликозилтрансфераза

623

71

69

97

26

0

98

130

61

5

22

63

31

8

2

5

6

0

Эукариоты

Гистон H4

103

45

11

13

12

1

15

10

7

2

9

8

5

3

3

2

1

0

Гистон H4, человек

103

64

7

17

6

0

17

18

10

0

7

10

8

1

0

0

1

0

Сывороточный альбумин

609

43

54

69

43

9

66

115

59

14

46

57

23

12

9

13

13

6

Саксин

13739

39

395

591

263

45

601

950

422

79

249

405

258

84

50

105

53

28

Коллаген

1464

65

65

139

113

24

134

276

158

33

117

162

114

24

25

25

31

23

Цитохром с-оксидаза 1

513

46

55

91

19

2

85

116

41

7

23

38

18

4

4

4

4

1

НАДФ дегидрогеназа

603

45

66

107

21

2

102

162

39

9

28

32

8

6

1

10

6

3

Для выяснения же связности между первым и третьим кодонами триплета по сравнению со связностью между первым и вторым кодонами в мРНК подсчитывались частоты разниц индексов между первым и вторым и, соответственно, первым и третьим кодонами трикодонов (табл. 4). Дополнительно были выполнены общий анализ репертуара трикодонов (со сдвигом рамки считывания на кодон, как при трансляции мРНК на рибосоме) в мРНК, частоты динуклеотидов в мРНК и частоты динуклеотидов, составленных из третьего нуклеотида первого кодона и первого нуклеотида последующего кодона (рис. 6), сочетаемости кодонов в дикодонах в отдельной мРНК, поиск редко встречающихся или отсутствующих в исследованной выборке мРНК сочетаний первого и третьего кодонов трикодонов, а также анализ трансляционного кода мРНК у разных организмов и доминантных кодонов в них.

Таблица 4. Распределение частот разницы между ИК кодонов первого и второго и первого и третьего кодонов в трикодонах

Домен

мРНК белка

Длина

%ГЦ

Частоты разниц ИК между кодонами в трикодонах

Первый/второй кодоны

Первый/третий кодоны

Значения разниц ИК

Значения разниц ИК

0

1

2

3

0

1

2

3

Вирусы

S белок

1270

37

431

620

197

21

428

611

206

23

Полипротеин

1064

69

407

480

156

20

381

516

152

13

Гемагглютинин

566

41

171

266

114

15

195

264

84

22

Прокариоты

Каталаза-пероксидаза

726

56

225

327

150

24

230

335

142

18

Металлопептидаза

477

63

163

222

82

10

158

234

77

7

СТПК

750

66

236

374

129

11

270

354

118

7

Археи

КФС

1073

61

374

487

189

23

391

505

160

16

Гликозилтрансфераза

623

71

225

318

69

12

241

284

87

11

Эукариоты

Гистон H4

103

45

40

46

17

0

31

57

14

0

Гистон H4, человек

103

64

25

52

22

4

25

51

22

4

Сывороточный альбумин

609

43

167

319

105

18

227

272

97

12

Саксин

4580

39

1524

2172

805

78

1606

2182

720

70

Коллаген

1464

65

551

721

166

26

603

677

164

19

Цитохром c-оксидаза 1

513

46

159

251

86

17

182

236

76

18

НАДФ дегидрогеназа

603

45

205

284

98

16

194

290

107

11

Рис. 6. Частоты динуклеотидов в мРНК.

Результаты и обсуждение

Источником анализа ближайшего соседства кодонов в трикодонах мРНК служили последовательности индексов кодонов. На рис. 2 в качестве примера приведена последовательность ИК кодонов мРНК сывороточного альбумина человека.

Рис. 2. Последовательность индексов комплементарности кодонов в мРНК сывороточного альбумина человека.

Каждая аминокислота, за исключением метионина и триптофана, кодируется кодонами с двумя значениями ИК и ИР, отличающимися на 1, и использование кодонов в мРНК существенно варьирует. В табл. 1 представлены частоты кодонов в мРНК разных белков по значениям их индексов. Наиболее часто используемыми ИК являются те, что имеют значения 7 или 8. При этом в мРНК GC-типа преобладают кодоны со значением ИК, равным 8, а в мРНК АТ(U)-типа высока частота кодонов со значением ИК, равным 7. Численность кодонов со значениями ИК, равными 6 и 9, также связана с типом мРНК: в мРНК GC-типа преобладают кодоны со значением ИК, равным 9, а в мРНК АТ(U)-типа высокая частота кодонов со значением ИК, равным 6. С этой полярностью в содержании кодонов со значениями ИК, равными 6 и 9, сопряжены ограничения в ближайшем соседствовании кодонов, которые не очевидны в последовательностях ИК трикодонов [5, 6]. Так, в мРНК АТ(U)-типа не встречаются или очень редки дикодоны, в которых оба кодона имеют ИК, равные 9, но для них характерно наличие дикодонов, в которых оба кодона имеют ИК, равные 6, что иллюстрируется последовательностью ИК кодонов мРНК сывороточного альбумина человека на рис. 2. Для мРНК GC-типа свойственна обратная картина. По ИР в мРНК преобладают кодоны, имеющие значения ИК 4 и 5, вне зависимости от принадлежности мРНК к GC- или АТ(U)-типу. Частота кодонов, имеющих значения ИР, равные 3 или 6, также не зависела от типа мРНК. Эти выявленные в разных мРНК сходные паттерны распределения частот кодонов по значениям их индексов предопределяют паттерны ближайшего соседства кодонов.

Анализ ближайшего соседства кодонов позволил охарактеризовать соседство кодонов в трикодонах мРНК, разных по длине, нуклеотидному составу и функциям, по значениям обоих индексов и выявить универсальность паттерна ближайшего соседства кодонов в триплетах мРНК, последовательно считываемых сдвигом на 1 кодон. Этому способствовало, с одной стороны, разделение множества трикодонов каждой мРНК на 4 группы в зависимости от значения разницы индекса (от 0 до 3) между первым и вторым кодонами трикодона, и, с другой стороны, разделение каждой группы на 4 подгруппы по значениям разницы индексов (от 0 до 3) между вторым и третьим кодонами, что позволило детально охарактеризовать каждую группу и сравнить группы между собой.

Универсальность паттерна ближайшего соседства кодонов распространяется на оба индекса (см. табл. 2 и 3), что можно рассматривать как свидетельство важности вклада обоих параметров (размера нуклеотидов в кодоне и количества водородных связей кодона с узнающей его тРНК ) в предопределении ближайшего соседства с другими кодонами. Прежде всего универсальность паттерна проявляется в том, что наибольшая частота трикодонов приходится на вторую группу, включающую трикодоны со значением разницы индексов между первым и вторым кодонами трикодона, равной 1. Первая группа трикодонов со значением разницы индексов между первым и вторым кодонами трикодона, равной 0, по частоте встречаемости трикодонов уступает второй группе, но превосходит третью группу кодонов, включающую трикодоны со значением разницы индексов между первым и вторым кодонами трикодона, равной 2. Самая низкая частота трикодонов приходится на четвертую группу, объединяющую трикодоны со значением разницы индексов в трикодонах между третьим и вторым кодонами трикодона, равной 3.

Другое проявление универсальности паттерна соседства кодонов в трикодонах мРНК связано с распределением частот трикодонов в подгруппах в пределах каждой группы. Во всех четырех группах вторая подгруппа, включающая трикодоны со значением разницы индексов между третьим и вторым кодонами трикодона, равной 1, также отличается, как правило, наиболее высокой частотой встречаемости трикодонов. В остальных подгруппах соотношения в распределении частот встречаемости трикодонов также повторяют соотношение распределения частот групп. Примечательно, что выявленные паттерны ближайшего соседства кодонов универсальны как для ядерных генов, так и для генов митохондриального генома, который резко ограничен по составу тРНК. Последние представлены в нашем исследовании мРНК цитохром с-оксидазы и субъединицей MT-ND5 NADH дегидрогеназы.

Таким образом, как в группах, так и в их подгруппах самыми редкими оказываются трикодоны со значением разницы индексов между третьим и вторым их кодонами, равной 3, и на них, соответственно, приходятся наибольшие ограничения в кодировании генов. В этой связи естественным представляется вопрос относительно роли выявленной универсальности паттерна ограничений ближайшего соседства кодонов в мРНК. Возможно, что «сглаживание» значений разницы между соседними кодонами в мРНК позволяет быструю стерическую адаптацию рибосомы к вновь поступающему в A-сайт кодону и транслокацию предшествующих ему кодонов в P- и E-сайты, транслируя мРНК со стабильной скоростью. Пары кодонов с разницей между их индексами, равной 3, могли бы служить задержками (знаками пунктуации генетического кода), во время которых происходит котрансляционное сворачивание нарастающей белковой цепи. Их число и линейная позиция специфичны для каждой мРНК.

Если обратиться к таблицам генетического кода со значениями ИК и ИР (см. рис. 1), то схематически можно обобщить, соседство кодонов каких аминокислот порождают их разницу по индексам, равную 3. В случае ИК она будет порождена, если второй кодон в трикодоне имеет ИК, равный 9, а третий, соответственно, 6, и наоборот. На рис. 3 в позиции А симметрично представлены аминокислоты, кодоны которых имеют соответствующие ИК. Там же в позиции Б представлены варианты по ИР. В целом ограничения в кодировании мРНК охватывают кодоны 12 аминокислот, но они не отражаются на частоте встречаемости соответствующих аминокислот в структуре белков, что обусловлено вырожденностью генетического кода, хотя сужают диапазон «разрешенных» мутаций. Ограничение мутаций в генах белков можно рассматривать как механизм сохранения созданной в эволюции полезной информации и вклад в помехоустойчивость генетического кода. Последнее необходимо иметь в виду при прогнозировании мутагенеза инфекционных агентов и в синтетической биологии, широко использующей при оптимизации состава кодонов рекодирование мРНК синонимическими заменами с целью придания ей стабильности и улучшения транслируемости.

Рис. 3. Сводка аминокислот, соседние кодоны которых имеют разницу по ИК (А) и ИР (Б), равную 3.

Хотя в трикодоне первый и третий кодоны отделены друг от друга вторым кодоном, судя по значениям разниц между их ИК, ограничения в сочетании значений ИК первого и третьего кодонов в трикодоне не меньшие, чем для сочетания первого и второго или соответственно второго и третьего кодонов, непосредственно соседствующих друг с другом. В табл. 4 приведены распределения частот разницы между ИК кодонов первого и второго и, соответственно, первого и третьего кодонов в трикодонах. Очевидно, что не только разница между ИК первого и третьего кодонов в трикодонах, равная 3 или 2, встречается реже, чем между ИК первого и второго кодонов, но и, соответственно, в распределении частот разниц ИК между первым и третьим кодонами увеличена частота разниц между ИК кодонов, равная 0 или 1. Эта связность кодонов в трикодоне по значениям ИК, возможно, обусловливается ограничениями, накладываемыми процессом трансляции мРНК на рибосоме, необходимостью синхронизации и динамичности функционирования ее A, P- и E-сайтов.

Связность между первым и третьим кодонами в трикодонах проявляется и в существовании запрещенных и редко встречающихся их сочетаний. На рис. 4 для сравнения представлены перечни очень редко встречающихся и не выявленных сочетаний первого и второго (см. рис. 4, а) и первого и третьего кодонов (см. рис. 4, б) трикодонов в анализированной выборке мРНК белков, разных по функциям, по длине и нуклеотидному составу и в совокупности превышающих 117 800 триплетов (заметим, что число вариантов возможных дикодонов равно 3721). К числу очень редко встречающихся дикодонов отнесены те, частота которых на 100 тыс. триплетов была равна 1. Примечательно, что в каждой паре сравнения списков (I, II или III, IV) ни один список не повторяет другой ни по одной паре сочетаний кодонов и заметному превалированию в парах кодонов с динуклеотидом CpG. Если к числу редко встречающихся сочетаний первого и третьего кодонов в трикодонах отнести и те, что встречаются 2 и 3 раза на 100 000 кодонов, то ограничения охватывают более 100 сочетаний кодонов. Для первого и второго кодонов ограничений значительно больше.

Рис. 4. Списки очень редко встречающихся и невыявленных сочетаний кодонов в первой и второй (I, II) и соответственно в первой и третьей (III, IV) позициях в трикодонах.

Представленные в табл. 1—4 данные являются обобщающей статистикой синтаксиса по исследованной выборке мРНК белков. Эта же статистика может быть использована и для характеристики отдельных мРНК. Дополнительные особенности синтаксиса каждой мРНК можно извлечь из таблицы ее состава диконов/дипептидов. В качестве примера таковой на рис. 5 представлена встречаемость пар кодонов/аминокислот в гене сывороточного альбумина человека. Из 61 смыслового кодона генетического кода возможно образование 3721 пары кодонов, и поскольку чаще всего в природе встречаются белки длиною в 500—600 аминокислот, то заведомо соседство кодонов в первичной структуре гена сывороточного альбумина человека, длина которого составляет 609 кодонов, будет резко ограниченным. Из 608 возможных пар кодонов в гене сывороточного альбумина человека используется всего 500 разных пар кодонов. Рис. 5 позволяет выявить весь состав дикодонов в мРНК, как часто кодоны соседствуют друг с другом в зависимости от значения их ИК, в какой позиции (в 1 или 2) кодоны (и аминокислоты) соседствуют друг с другом, и частоту использования синонимических кодонов. Отметим, что в основном все пары кодонов/аминокислот в гене сывороточного альбумина человека уникальны, и лишь незначительная часть их пар повторяется, свидетельствуя о предпочтении в соседствовании. Оно, по-видимому, может служить предостережением в отношении синонимических замен при рекодировании. Каждый из исследованных нами генов имел свою уникальную картину ближайшего соседства кодонов.

Рис. 5. Сочетаемость кодонов в дикодонах в мРНК сывороточного альбумина человека.

При рекодировании мРНК часто используется оптимизация состава и численности кодонов, поэтому и возникает проблема в корректном их изменении. Для успешной реализации оптимизации синонимическими заменами важно знать предпочтения в соседстве кодонов и влияние на нее отсутствия генов изоакцепторных тРНК к ряду кодонов, что, ради краткости, далее будем именовать как отсутствие антикодона к кодону. Исключение антикодонов к кодонам в каждом из доменов специфическое. У архей во всех квартетах кодонов с одинаковым корнем (под корнем подразумеваются первые два нуклеотида кодона) для кодонов с урацилом в 3 позиции отсутствуют соответствующие им антикодоны. Также отсутствует антикодон к кодону AUA изолейцина. У бактерий действует то же правило, за исключением квартета кодонов, кодирующих аргинин, в котором кодон CGC не имеет антикодона. Кроме того, отсутствуют антикодоны к кодонам CAG (глутамин), AAG (лизин) и GAG (глутаминовая аминокислота) [7].

У эукариот иная упорядоченная система исключения антикодонов к кодонам (последние выделены затенением в таблицах генетического кода на рис. 1 и приводятся согласно публикации R. Ehrlich и соавт. [7]). Во всех функционально нерасщепленных (кодирующих только одну аминокислоту) квартетах кодонов антикодоны не имеют кодоны с цитозином в 3 позиции. Исключением является квартет кодонов, кодирующих глицин: в нем антикодон отсутствует к кодону GGU. Что касается квартетов кодонов, кодирующих не одну аминокислоту (за исключением кодонов для изолейцина), то в них антикодоны отсутствуют к кодонам, имеющим в 3 позиции урацил(тимин). В случае изолейцина отсутствует антикодон к кодону AUC. Хотя три домена живых организмов отличаются по репертуару исключенных антикодонов, общим для них является феномен исключения антикодонов с пурином в первой позиции [7].

Выполненный нами специальный анализ показал, что отсутствие у кодонов антикодонов разнонаправленно отражается на его использовании дикодонов в мРНК. На рис. 6 для сравнения представлены частоты всего множества динуклеотидов в мРНК (см. рис. 6, а), а также частоты динуклеотидов (см. рис. 6, б), составленных из третьего нуклеотида первого кодона и первого нуклеотида последующего соседнего кодона (далее это подмножество динуклеотидов именуется как «стыкующие динуклеотиды»). Данные на рис. 6, полученные на выборке 79 мРНК с общей длиной в 116 520 кодонов, свидетельствуют о том, что во всем множестве динуклеотидов самая низкая частота приходится на динуклеотиды CpG и T(U)pA (см. рис. 6, а) и на стыкующий динуклеотид CpG, но не на стыкующий T(U)pA (см. рис. 6, б). В свете давно известного факта о низкой частоте во многих мРНК динуклеотида CpG низкую частоту стыкующего динуклеотида CpG следовало бы ожидать.

Однако неожиданным оказались результаты анализа частот других дикодонов с их стыкующими динуклеотидами. Если частота дикодонов со стыкующим динуклеотидом CpG оказалась прогнозируемо низкой, то у кодонов (в квартетах кодонов, кодирующих не одну аминокислоту), имеющих в 3 позиции тимин (урацил) и к которым отсутствуют антикодоны, отмечается наиболее высокая частота их встречаемости в составе дикодонов, стыкованных динуклеотидом T(U)pG (см. рис. 6, б). Нельзя не отметить, что в ранжированном (по уменьшению частоты встречаемости) ряду наиболее часто встречающихся в мРНК стыкующих динуклеотидов T(U)pG, ApG, CpA, ApA и GpG общим является присутствие пурина во второй позиции, в то время как в ряду наиболее редко встречающихся стыкующих динуклеотидов (исключая стыкующий динуклеотид Cp(G) ApC, T(U)pT(U), ApT(U) и GpT(U) вторым нуклеотидом является пиримидин. В совокупности данные на рис. 6, дополняя информацию о паттернах ближайшего соседства кодонов в мРНК, конкретизируют ограничения в их кодировании.

Из ограничений соседства кодонов в последовательности мРНК по значениям ИК и ИР следует неполнота использования в природе всего набора возможных трикодонов. Анализ репертуара трикодонов в мРНК выявил сильную его ограниченность. Невыявленными (условно рассматриваемыми как запрещенные) в мРНК 286 генов общей протяженностью в 1 054 784 нуклеотидов оказалось около 44% (~100 000) из 226 981 (613) возможного трикодона, что свидетельствует о существенном ограничении в природе кодирования генов и может обусловливать высокий риск возникновения заболеваний в результате синонимических (однонуклеотидных) замен, значительно сужая возможности рекодирования генов. Примечательно, что ограничения на расположение в каждой из позиций трикодонов, считываемых в мРНК со сдвигом на один триплет, распространяются на каждый из 61 кодона генетического кода в различной степени. Хотя значительную часть запрещенных трикодонов представляют те из них, которым между составляющими их кодонами свойственна разница по значениям ИК, равная 2 или 3, немалая доля среди запрещенных трикодонов приходится и на трикодоны с разницей по значениям ИК между их кодонами, равной 0 или 1. В числе последних трикодоны, кодирующие запрещенные в белках трипептиды. Следует специально отметить, что сама последовательность нононуклеотида, образующего запрещенный трикодон, может присутствовать в последовательности мРНК, но не считываться как трикодон при канонической трансляции мРНК, но может быть «прочтена» в ней как трикодон в случае неканонической трансляции криптического белка.

С учетом редко встречающихся трикодонов ограничения в репертуаре трикодонов в мРНК превысят уровень 50% от общего числа возможных трикодонов. Замена синонимическим (как и несинонимическим) кодоном может привести к возникновению в последовательности мРНК неразрешенных природой трикодонов. В этом аспекте не удивительна реверсия рекодированных вирусных геномов/генов к дикому типу. Она предстает как отторжение произвольно введенных исследователем в геном модификаций. Это служит напоминанием о важности соблюдений правил природы. Знание запрещенных и разрешенных трикодонов в генах быстро мутирующих вирусов (например, вирусов гриппа или коронавирусов) позволяет прогнозировать их эволюцию и использовать при дизайне мРНК вакцин.

При выявленном множестве запрещенных трикодонов единственная однонуклеотидная мутация, даже если она синонимическая, потенциально может привести к возникновению трех последовательно считываемых запрещенных трикодонов, что может быть причиной патологического состояния организма. Поэтому анализ состава трикодонов и их позиций в мРНК может быть полезным в диагностике.

Приведенные ниже два примера (рис. 7) синонимических мутаций в фрагментах гемагглютинина H1 вируса гриппа H1N1, влекущих изменение ИК и ИР, служат иллюстрацией отступления от универсального паттерна ближайшего соседства кодонов. В верхней позиции рис. 7 представлен фрагмент мРНК с ИК. Замена кодона глицина GGT на синонимический кодон GGG изменит его ИК с 8 на 9 и приведет к возникновению редко используемого стыкуюшего дикодона GpT; в случае же замены кодона аспарагина AAC на синонимический кодон AAT произойдет изменение ИК с 7 на 6. Обе замены не представляются оптимальными, а в первом случае замена дважды не оптимальна. В нижней позиции рис. 7 представлен другой фрагмент мРНК с ИР. Рекодирование в нем кодона лейцина СТА на синонимический кодон СТТ изменит ИР с 4 на 3, что также не является оптимальным в аспекте существования универсального паттерна соседства кодонов. Кроме того, все 3 замены приводят к возникновению трикодонов, не выявленных нами в анализированном массиве последовательностей мРНК.

Рис. 7. Иллюстрация неоптимальных изменений индексов комплементарности (верхняя позиция) и размерности (нижняя позиция) в кодонах фрагментов мРНК гемагглютинина вируса гриппа H1N1.

Реализация универсальности ограничений соседства кодонов в последовательности мРНК по значениям ИК проявляется не только в неполноте использования репертуара трикодонов, но и в ограничении частот использования синонимических кодонов. Для иллюстрации этого обратимся к сравнительному анализу паттернов трансляционного кода различных мРНК, используя таблицы ГК (см. рис. 1), которые имеют иное представление, чем обычно принятое для стандартного ГК. Они разделяются на две симметричные половины. В одной из них расположены квартеты триплетов одного корня (корень триплета — первые два его основания), кодирующие только одну аминокислоту, а в другой — квартеты триплетов одного корня, кодирующие не одну аминокислоту. Такое представление ГК способствовало трем вариантам формулировок правил композиции ГК, отражающим вырожденность ГК [6], и позволяет выявить существование разных паттернов асимметричности трансляционного кода мРНК.

Введем понятия доминантного и субдоминантного кодонов в квартетах триплетов, кодируемых одним корнем (корень кодона — первые два его нуклеотида). Доминантный кодон среди синонимических кодонов тот, который чаще всего используется в данной мРНК. Соответственно, кодон, следующий за доминантным кодоном по частоте встречаемости в данной мРНК, рассматривается как субдоминантный. Так, на рис. 8, а в таблице трансляционного кода мРНК S-белка пандемического коронавируса в квартете кодонов, кодирующих, например, серин, доминантным кодоном является ТСТ с частотой встречаемости, равной 37, субдоминантный — кодон ТСА с частотой встречаемости, равной 26, а в квартете триплетов, кодирующих глицин, доминирующий кодон GGT имеет частоту встречаемости, равную 47, а у субдоминантного кодона GGA она равна 17. Если для аминокислот, кодируемых 4 триплетами, существуют альтернативы для выбора доминантного и субдоминантного кодонов, то для аминокислот, кодируемых двумя триплетами, выбора нет: если один из триплетов определяется как доминантный, то второй рассматривается как субдоминантный. В случае одиночных триплетов, кодирующих метионин и триптофан, подразделение их на доминантный и субдоминантный исключено.

Рис. 8. Паттерны доминирующих кодонов в трансляционном коде разных генов.

а, б, в, г — пояснение в тексте.

В представленных на рис. 8 примерах таблиц трансляционного кода мРНК разных организмов особенность распределения частот синонимических кодонов проявляется в том, что доминантные кодоны имеют идентичные нуклеотиды в их третьей позиции во всех 8 квартетах кодонов, кодирующих одну аминокислоту. У мРНК S-белка коронавируса (см. рис. 8, а) им является тимин, у мРНК компонента комплемента C3 человека (см. рис. 8, б) — цитозин, у мРНК миозина грибка (см. рис. 8, в) — гуанин, у мРНК гемагглютинина вируса гриппа (см. рис. 8, г) — аденин. Что касается квартетов кодонов, кодирующих не одну аминокислоту, то у них третья позиция в доминирующих кодонах представлена либо нуклеотидом третьей позиции доминирующих кодонов в квартетах, кодирующих одну аминокислоту, либо комплементарным ему нуклеотидом.

Другим вариантом распределения доминантных кодонов в мРНК может быть наличие в третьей позиции доминантных кодонов квартетов, кодирующих одну аминокислоту, нуклеотидов одной и той же комплементарной пары, но это не изменяет их идентичность по значению ИК их третьей позиции. Встречаются также мРНК с 1 или 2 квартетами, кодирующими одну аминокислоту, у которых роли доминантных и субдоминантных кодонов изменены. Поскольку доминантные кодоны используются в мРНК чаще других кодонов, то их идентичность по третьей позиции или по ИК обеспечивает минимизацию различий по ИК соседних кодонов в трикодонах. Такая системная связность доминантных кодонов в мРНК эукариот и вирусов по нуклеотиду в их третьей позиции обусловлена, по-видимому, селекцией первичных структур мРНК на уровне трансляционного аппарата [5, 6].

Реализованное во всей эволюционной иерархии эукариот многообразие белковых последовательностей существенно меньше потенциально возможного, что, по-видимому, объясняется их происхождением из сравнительно небольшого числа предковых генов. В числе основных способов увеличения размеров и числа белков оказались генные дупликации и мозаичные комбинации, причем большинство генов белков являются разорванными и представляют собой наборы фрагментов, которые эволюция по непонятным пока правилам собирает как одно структурно-функциональное целое. В аспекте выявленной в мРНК связности доминирующих кодонов по идентичности их третьего основания (или его ИК) одним из правил формирования генов в эволюции из разных фрагментов (экзонов) должна была бы быть совместимость последних по доминирующим кодонам, которое нельзя игнорировать в синтетической биологии при создании химерных генов (белков).

В контексте лингвистики выявленные паттерны ближайшего соседства в трикодонах первого и второго и соответственно второго и третьего кодонов по ИК и ИР, сильная связность по сочетанию ИК первого и третьего кодонов, как и другие показатели, характеризующие особенности первичной структуры мРНК и приведенные в данной и предшествующих наших публикациях [5, 6], можно рассматривать как совокупность характеристик синтаксиса первичной структуры мРНК. В их числе:

1) трансляционный код, доминантность кодонов,

2) асимметрия состава синонимических кодонов,

3) последовательности ИК и ИР кодонов мРНК,

4) последовательности ИК и ИР трикодонов мРНК,

5) распределение в мРНК частот кодонов по значениям их индексов,

6) частота динуклеотидов в мРНК,

7) состав и частота дикодонов,

8) индекс асимметрии содержания комплементарных кодонов в мРНК,

9) распределение частот трикодонов в мРНК по разнице ИК составляющих их соседних кодонов,

10) распределение частот трикодонов в мРНК по разнице ИР составляющих их соседних кодонов,

11) распределение частот разницы между ИК кодонов первого и второго и соответственно первого и третьего кодонов в трикодонах,

12) распределение частот разницы между ИК соседствующих трикодонов,

13) линейный континуум связности кодонов по значениям их ИК,

14) редко встречаюшиеся и отсутствующие дикодоны,

15) репертуар разрешенных трикодонов.

Естественно, что каждая мРНК обладает своим составом кодонов и их последовательностью и, соответственно, будет имеет свои характеристики синтаксиса мРНК, проявляя универсальные по своему характеру ограничения в кодировании. Перечисленные выше характеристики синтаксиса первичной структуры мРНК могут служить для анализа ее изменений в различных аспектах.

Особенностью эволюционной иерархии всех живых организмов является единство принципов структурной организации их белок-синтезирующего аппарата, и универсальность элементов синтаксиса первичной структуры мРНК можно рассматривать как проявление этого единства и как механизм сохранения возникшей полезной информации. Вырожденность генетического кода позволяет реализацию ограничений в кодировании мРНК, не препятствуя формированию различных первичных структур белков. Очевидно, что при последовательной транслокации трикодонов рибосомой ИК каждого триплета в трикодоне связан с ИК двух последующих и двух предшествующих триплетов, наличие более сильной связности по значениям ИК между несоседствующими (первым и третьим) кодонами в трикодоне, а также ограничения в составе дикодонов в мРНК, полярных по %ГЦ, подводят к признанию существования в генах (мРНК) континуума линейной связности кодонов по значениям их ИК. Следует подчеркнуть, что возможность реализации этого континуума обусловлена универсальностью и вырожденностью генетического кода, в частности, кодированием каждой аминокислоты, за исключением метионина и триптофана, синонимическими кодонами, различающимися по ИК, что предопределяет помехоустойчивость генетического кода. Поскольку в эволюции эукариот в качестве ведущего механизма формирования многообразия белков использовалось комбинирование экзонов, то из признания существования в генах (мРНК) континуума линейной связности кодонов по значениям их ИК следует, что включение комбинации экзонов в один ген происходило, вероятно, селективно по сходству составов их кодонов по распределению значений их ИК (см. табл. 1).

Любое рекодирование мРНК (гена/генома) не должно нарушать ограничения, установленные природой, а нам не стоит забывать проницательное напоминание Ф. Крика: «Биолог должен руководствоваться хорошим рабочим правилом, что эволюция гораздо умнее его» [8]. Нарушение ограничений в синтаксисе первичной структуры мРНК и континуума связности кодонов может обернуться неудачей, чем, возможно, объясняются недостатки противораковых мРНК-вакцин, прежде всего слабая реакция на них иммунной системы [9]. Структурированные как кассеты, включающие в себя фрагменты РНК, кодирующие множество неоантигенов из разных генов, противораковые мРНК-вакцины могут представлять собой конгломерат РНК-фрагментов, несовместимых по синтаксису их первичной структуры с отсутствием континуума связности триплетов по значениям их ИК. Кроме того, антигенный процессинг транслированных с таких мРНК белков в результате протеолиза может приводить к образованию пептидов, протяженных либо малых по длине. В результате их экспонирование в качестве иммунных эпитопов в главном комплексе гистосовместимости окажется невозможным, и антителогенез не будет реализован. Поэтому в процессе дизайна противораковой мРНК-вакцины, как и при дизайне мРНК другого назначения, особенно при создании химерных мРНК(белков), необходим тщательный синтаксический анализ ее первичной структуры.

Посредством анализа синтаксиса мРНК быстро мутирующих вирусов, например, вирусов гриппа либо коронавирусов, можно прогнозировать вектор их эволюционирования. Принадлежность их генома к низкому ГЦ-типу обеспечивает быстроту реппликации вируса и его мутирования. Особенно низкий ГЦ-тип генома у коронавируса (37% ГЦ) способствовал быстрому возникновению новых пандемических штамммов коронавируса SARS-CoV-2, обесценивая вакцинацию их предшественниками. Само возникновение пандемического коронавируса SARS-CoV-2 было связано с приобретением в его S-белке мутаций, приведших к возрастанию числа положительных заряженных аминокислот аргинина и лизина, причем с сильным преобладанием по численности лизина. Примечательно, что лизин кодируется 2 кодонами, а аргинин 6 кодонами. Порождение новых пандемических штаммов SARS-CoV-2 было сопряжено с новым возрастанием содержания в S-белке лизина и с другими мутациями, в которых замещающими аминокислотами были тирозин, аспарагин и изолейцин [10]. Кодоны всех четырех аминокислот имеют ИК, равные 6 и 7, т.е. селекция новых мутантов имела тенденцию следовать ограничениям, установленным в синтаксисе мРНК.

Заключение

В заключение следует подчеркнуть, что формирование синтаксиса каждого гена является результатом согласования множества факторов в возникновении и эволюции живых организмов. Универсальность паттернов ограничений соседства трикодонов и кодонов в их составе в мРНК, выявленная с помощью простых числовых показателей, отражающих физико-химические характеристики кодонов, подтверждает эффективность биоинформационного анализа и свидетельствует о том, что линейная последовательность кодонов и частота их использования в генах как отражение первичной структуры белка и регуляторного кода мРНК, по-видимому, активно селектировались на уровне трансляционного аппарата. Сфера поисков использования мРНК как терапевтических средств вне рамок вакцинологии стремительно расширяется, и их успех зависит от понимания диктуемых природой принципов организации первичной структуры мРНК (т.е. их синтаксиса), их совместимости с организмом, в который они вводятся.

Финансирование. Статья выполнена по госзаданию на 2024 г.: ГЗ № 075-00264-24-00.

Автор заявляет об отсутствии конфликта интересов.

Литература / References:

  1. Komar AA. Synonymous codon usage — a guide for co-translational protein folding in the cell. Molecular biology. 2019; 53: 883-898.  https://doi.org/10.1134/S0026898419060090
  2. Komar AA. The yin and yang of codon usage, Human Molecular Genetics. 2016; 25 (R2): 77-85.  https://doi.org/10.1093/hmg/ddw207
  3. Gonçalves-Carneiro D, Bieniasz PD. Mechanisms of Attenuation by Genetic Recoding of Viruses. mBio. 2021; 5:12(1):e02238-20.  https://doi.org/10.1128/mBio.02238-20
  4. Martínez MA, Jordan-Paiz A, Franco S, Nevot M. Synonymous Virus Genome Recoding as a Tool to Impact Viral Fitness. Trends Microbiol. 2016. 24(2):134-147.  https://doi.org/10.1016/j.tim.2015.11.002
  5. Харченко Е.П. Частные и общие ограничения в кодировании генов и синонимическое рекодирование их. Молекулярная генетика, микробиология и вирусология. 2024;42(1): 43-49.  https://doi.org/10.17116/molgen20244201143
  6. Харченко Е.П. Генетический код и некоторые особенности его реализации в мРНК. Молекулярная генетика, микробиология и вирусология. 2024;42(4): 3-11, https://doi.org/10.17116/molgen2024420413
  7. Ehrlich R, Davyt M, López I, Chalar C, Marín M. On the Track of the Missing tRNA Genes: A Source of Non-Canonical Functions? Front Mol Biosci. 2021 Mar 16;8:643701. eCollection 2021. https://doi.org/10.3389/fmolb.2021.643701
  8. Crick FH. Thinking about the brain // Sci. Am. 1979. Vol. 241, N 3. P. 181-188.  https://doi.org/10.1038/scientificamerican0979-219
  9. Bangjie Chen, Yipin Yang, Xinyi Wang, Wenzhi Yang, You Lu, Daoyue Wang et al. mRNA vaccine development and applications: A special focus on tumors (Review) International journal of oncology 2024 65: 81, p.1-24.  https://doi.org/10.3892/ijo.2024.5669
  10. Харченко Е.П. Коронавирус XBB.1.5 как индикатор длительного продолжения пандемии Covid-19. Что дальше с вакцинацией? Эпидемиология и Вакцинопрофилактика. 2023;22(2): 12-22.  https://doi.org/10.31631/2073-3046-2023-22-2-12-22

Подтверждение e-mail

На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.

Подтверждение e-mail

Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.