Сайт издательства «Медиа Сфера»
содержит материалы, предназначенные исключительно для работников здравоохранения. Закрывая это сообщение, Вы подтверждаете, что являетесь дипломированным медицинским работником или студентом медицинского образовательного учреждения.
Об использовании спектральных характеристик речи для определения биометрических параметров речевого тракта в судебно-медицинской идентификации личности говорящего
Журнал: Судебно-медицинская экспертиза. 2014;57(1): 26‑29
Прочитано: 1755 раз
Как цитировать:
Среди нескольких определений биометрии с точки зрения судебно-медицинской экспертизы наиболее точным является то, в котором биометрия определяется как идентификация человека по уникальным, присущим только ему биологическим признакам.
При решении задачи медико-криминалистической идентификации личности по голосу и звучащей речи естественным образом возникает вопрос об использовании биометрических характеристик речевого тракта в качестве идентификационных признаков диктора.
Такие признаки могут быть выявлены в результате спектрального анализа речевого сигнала. В статье рассмотрена связь спектральных характеристик речи и биометрических параметров речевого тракта. Дан анализ теоретических оснований, которые являются основой медико-криминалистической идентификации личности по биометрическим характеристикам речевого тракта.
Еще в середине 50-х годов прошлого века отечественные исследователи Л.А. Варшавский и И.М. Литвак [1] высказали гипотезу о том, что акустическое качество звуков речи определяется соотношением уровней сигнала в полосах спектра. Форманты[1] являются лишь доступным для речевого аппарата человека способом достижения необходимых полосных соотношений.
При расширении исследований звучащей речи в рамках задачи медико-криминалистической идентификации возникают новые вопросы. Это требует развития теории определения акустического качества звуков речи применительно к речевому материалу ограниченного объема, на так называемых этнических языках, к речевому материалу, связанному с патологией речи, к построению так называемого речевого портрета, т.е. определению тех или иных биометрических характеристик говорящего по параметрам его голоса и речи.
Во всех перечисленных случаях следует говорить о решении задачи с ограничениями, налагаемыми на начальные условия.
Распространим гипотезу Л.А. Варшавского и И.М. Литвака [1] на решение методом формантного выравнивания задачи идентификации диктора, говорящего на этническом языке.
Методика, основанная на этом методе, которая разработана специалистами Центра речевых технологий (Санкт-Петербург), описана в ряде работ (см., например, [2, 3]). В настоящее время метод формантного выравнивания успешно применяется в ряде негосударственных судебно-экспертных учреждений Российской Федерации.
В настоящей работе мы останавливаемся подробно на комплексной методике идентификации личности по голосу и звучащей этнической речи. Эта методика, обладая определенной универсальностью, может быть применена и для идентификации личности дикторов, говорящих на русском языке.
Прежде всего интересен вопрос о связи спектральных характеристик речи и биометрических параметров речевого тракта, т.е. речь идет о разделе идентификационного исследования, в котором опосредованно происходит сравнение геометрической конфигурации речевых трактов дикторов-фигурантов экспертиз на сопоставимых фрагментах исходной и сравнительной фонограммах.
В рамках предложенной методики [2, 3] указанное сравнение проводят путем сопоставления формантного состава на участках реализации в речевом сигнале артикуляторно подобных акустических событий.
Таким образом, согласно методу опорных сегментов, эксперты отбирают для анализа не одинаковые фонетические реализации звуков (слова, слоги)[1], а артикуляторно подобные события. Такие события соответствуют ситуации, когда речеобразующие органы человека находятся в положении, реализующем одно и то же фонетически значимое звучание. Иными словами, для сравнения подбирают не формально, а реально фонетически одинаковые звуки. Фонетически незначимая часть формантного спектра таких звуков и образует идентифицирующие признаки сравниваемой артикуляции[2] [2].
По мысли разработчиков, основная идея метода формантного выравнивания основана на предположении, что каждый диктор в процессе порождения речи может изменять конфигурацию своего речевого тракта только в рамках жестких анатомических ограничений, позволяющих менять геометрические размеры акустического волновода - речевого тракта только в определенной степени. Каждая конфигурация управляется диктором только по своим основным геометрическим размерам, которые обеспечивают реализацию целевых акустических резонансных свойств для низкочастотной части спектра или, вообще говоря, только первых двух-трех формантных максимумов.
Резонансные свойства каждой конфигурации речевого тракта для четвертой и более высоких формант обычно диктором не контролируются и задаются имеющимися анатомическими ограничениями на возможные изменения конфигурации тракта этого диктора, т.е. его биометрическими характеристиками. На языке формантного описания это приводит к тому, что при фиксированных значениях первых формант более высокие по частоте форманты у данного диктора могут занимать только более-менее стабильные индивидуальные положения.
Таким образом, высокочастотная формантная структура речи диктора при фиксированной низкочастотной формантной структуре часто является стабильной[3], неизменной во времени и не подлежит умышленному или неумышленному изменению диктором-фигурантом экспертизы. Иными словами, высокочастотная формантная структура - это, по выражению разработчиков метода, «устойчивая биометрическая характеристика» индивидуума. Сравнительный анализ этих высокочастотных формантных структур (через них и геометрических характеристик речевого тракта) позволяет идентифицировать дикторов с высокой степенью надежности [3].
По своей сути метод опорных сегментов соответствует косвенным измерениям и сравнению мелких деталей геометрического строения речевых трактов дикторов. В процессе идентификации эксперт-исследователь ищет совпадающие конфигурации речевых трактов в исходной и сравнительной записях. При достаточном числе найденных совпавших конфигураций такое совпадение считается, по мысли авторов метода, неслучайным, и может быть принято решение об идентификации дикторов.
Проиллюстрируем справедливость гипотезы [1] применительно к методу опорных сегментов (метод формантного выравнивания) на конкретном примере[4] (рис. 1).
На рис. 1 совпадают положения 4 формант исследуемого звука: F1 ≈400 Гц, F2 ≈1780 Гц, F3 ≈2430 Гц, F4 ≈3480 Гц.
Проанализируем так называемые спектральные срезы, соответствующие тем временным отметкам в исходной и сравнительной фонограммах, которые отмечены на рис. 1 вертикальными курсорами (рис. 2).
Рис. 1 иллюстрирует высокую степень совпадения характерных особенностей реализации спектрально-временной картины при произнесении анализируемого звука. Рис. 2 свидетельствует о высокой степени совпадения соотношений уровней сигнала в полосах спектра[5]. И то и другое косвенным образом характеризует совпадение биометрических параметров речевого тракта обследуемых дикторов.
Сравнительный анализ речевого сигнала в норме и при определенной патологии (например, при болезнях гортани), проведенный в работе [5], показал, что при исключении гортанного желудочка (морганиев желудочек) из речевого тракта исчезает третья форманта F3 для всех гласных звуков, кроме [и]. Можно сделать вывод, что гортанный желудочек отвечает за формирование третьей форманты в русских гласных [а], [е], [о], [у].
С теоретической точки зрения, исчезновение из спектральной картины речевого сигнала третьей форманты F3 означает, что в полосе спектра, соответствующей F3, исчезает спектральный максимум, который соотносится с соответствующим резонансом. Следовательно, происходит перераспределение соотношений уровней речевого сигнала в полосах спектра, что подтверждает правильность наблюдения о применимости гипотезы [1] к оценке биометрических характеристик речевого тракта диктора.
Форманты (максимумы в спектре речевого сигнала) и в этом случае выполняют роль доступного для речевого аппарата способа достижения необходимых полосных соотношений.
Продолжая обсуждение возможностей использования биометрических характеристик речевого тракта диктора в качестве идентификационных признаков, распространим гипотезу о том, что акустическое качество звуков речи определяется соотношением уровней сигнала в полосах спектра, на теоретическое обоснование той части задачи построения речевого психологического портрета, которая связана с определением размера ротового отверстия говорящего.
Интуитивно ясно, что при построении психологического портрета по голосу и звучащей речи информация о дикторе-фигуранте экспертизы передается акустическим путем. В.П. Морозов [6] в своих исследованиях не только выделил ряд видов и разновидностей этой информации, но и доказал достаточно объективную их связь с психофизическими особенностями диктора. Это касается прежде всего таких чисто физических признаков человека, которые легко проверить, например: возраст, пол, рост. Связь информации о дикторе с его физическим состоянием объясняется тем фактом, что акустические особенности голоса зависят от размера голосовых складок, величины резонаторов речевого тракта «обследуемого» диктора: чем больше эти размеры, тем ниже голос и «гуще» его тембр, и, наоборот, чем меньше эти размеры, тем «выше» голос и «светлее» тембр [7].
В.П. Морозову [6] удалось показать, что субъект восприятия способен по голосу даже воссоздать общий облик говорящего, нарисовать его портрет с довольно точным изображением деталей, например относительного размера рта.
Для оценки ширины рта диктора-фигуранта такой экспертизы В.П. Морозов ввел специальный коэффициент k. Данный коэффициент характеризует процентное отношение акустической энергии высокочастотной части спектра звука в полосе 1-11 кГц к энергии всего звука в целом, т.е. к энергии в полосе 0,1-11 кГц (рис. 3).
Следовательно, по значениям коэффициента k, т.е. по соотношениям уровней сигнала в полосах спектра, можно судить о таком биометрическом показателе диктора-фигуранта экспертизы, как размер его ротового отверстия.
Таким образом, и в этом случае, т.е. в задаче определения размера ротового отверстия говорящего, соотношение уровня сигнала в полосах спектра выступает в качестве идентификационного признака.
Анализ соотношений уровней сигнала в полосах спектра [1] является общим теоретическим фундаментом, на котором базируется методология выявления устойчивых идентификационных признаков инструментальной группы, связанных с биометрическими характеристиками речевого тракта диктора при медико-криминалистической идентификации личности по голосу и звучащей речи.
С другой стороны, приведенные результаты свидетельствуют о важности сопоставления значений формант, которые при решении ряда задач выступают в качестве доступного для речевого аппарата способа достижения необходимых полосных соотношений.
[1] Этот метод идентификации личности говорящего имеет и второе название - «метод опорных сегментов».
[1] Так происходит подбор речевого материала в традиционном методе фонетико-спектрального анализа [4].
[2] Таким образом, в методе формантного выравнивания находит свое подтверждение мысль ряда авторов, что в задачах криминалистической экспертизы звукозаписей (КЗС) наиболее информативными часто оказываются те составляющие звукового сигнала, которые вообще не воспринимаются на слух.
[3] Известно, что для идентификации говорящего могут быть использованы только стабильные показатели (см., например, [4]).
[4] Пример взят из реального экспертного исследования фонограмм на одном из этнических языков. Исследование выполнено экспертами судебно-медицинского учреждения «ФоренЭкс» (Санкт-Петербург).
[5] Подтверждается гипотеза, высказанная в работе [1].
Подтверждение e-mail
На test@yandex.ru отправлено письмо со ссылкой для подтверждения e-mail. Перейдите по ссылке из письма, чтобы завершить регистрацию на сайте.
Подтверждение e-mail
Мы используем файлы cооkies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cооkies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.