Идентификация личности по голосу и звучащей речи имеет комплексный характер и в своей практической реализации делится на несколько составных частей, одной из которых является инструментальное исследование речевого сигнала [1]. Это инструментальное исследование базируется на модели речеобразования Г. Гельмгольца [2], согласно которой процесс порождения речи состоит из двух независимых компонентов: порождения звука как такового и формирования акустического качества звука за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца), или фильтрации [3] (в современном рассмотрении). Таким образом, в процессе решения задачи медико-криминалистической идентификации говорящего необходимо учитывать не только работу источника порождения речевого сигнала (работа голосового аппарата индивидуума), но и функционирование органов речевого аппарата, придающих голосу индивидуальную тембровую окраску и формирующих поток звуков речи.
Следовательно, необходимо исследовать вторую независимую компоненту процесса речеобразования. Здесь встает вопрос об инструменте подобного исследования, который позволит выявить идентификационные признаки, связанные со второй компонентой процесса порождения речи.
Спектральный анализ как инструмент исследования речевых характеристик индивидуума
Прежде чем подробно рассмотреть спектральные характеристики речи в качестве источника идентификационных признаков говорящего, зададимся вопросом: что такое спектр речевого сигнала и зачем нам его измерять и анализировать в задаче медико-криминалистической идентификации личности говорящего.
Обычной и естественной системой отсчета является время. Если перевести речевой сигнал в вольты посредством надлежащего преобразователя, то именно благодаря времени мы имеем возможность наблюдать (например, с помощью осциллографа) процесс изменения величины голосового сигнала в процессе речевого сообщения. Иными словами, мы используем осциллограмму для наблюдения формы сигнала во временной области.
Теория Фурье2 гласит, что любое электрическое явление (в том числе речевой сигнал, переведенный в сигнал осциллографа) во временной области состоит из одной или нескольких синусоидальных волн с соответствующими частотами, амплитудами и фазами. Иными словами, можно преобразовать речевой сигнал во временной области в его эквивалент в области частот. Это важно с той точки зрения, что измерения в частотной области способны показать, сколько энергии речевого сигнала в тот или иной момент времени соответствует каждой конкретной частоте. При надлежащей фильтрации любой электрический сигнал (например, такой, как сигнал, изображенный на рис. 1) может быть разложен на отдельные синусоидальные волны, или спектральные составляющие, которые затем можно оценить независимо друг от друга.
Каждая волна описывается амплитудой и фазой. Если сигнал, который мы хотим исследовать, периодический, то, согласно теории Фурье, составляющие его синусоидальные волны будут разнесены в частотной области на 1/Т, где Т - это период сигнала3.
При некоторых измерениях требуется получение полной информации о сигнале: частоты, амплитуды и фазы. Такого рода анализ называется векторным анализом сигнала. Современные анализаторы спектра способны проводить различного рода векторные измерения. Другая обширная группа измерений4 не включает определения фазовых соотношений между синусоидальными составляющими. Такой тип анализа сигнала называется спектральным анализом. Рассмотрим теоретические положения, лежащие в основе работы анализаторов спектра.
С теоретической точки зрения, чтобы осуществить преобразование из временнόй области в частотную, сигнал должен быть оценен на всем промежутке времени, т. е. от + бесконечности до минус бесконечности. На практике всегда ограничиваются каким-то конечным временным промежутком, достаточным для целей конкретного исследования.
Из приведенного объяснения видно, что спектр - это набор синусоидальных волн, которые, будучи надлежащим образом скомбинированы, дают (во временной области) изучаемый нами сигнал. На рис. 1 показана волновая форма сложного сигнала. Форма эта явно демонстрирует, что сигнал не является чистой синусоидой, однако не дает определенного ответа на вопрос о причинах данного явления. На рис. 2 показан этот же сложный сигнал во временнόй и частотной областях.
В частотной области показана амплитуда для каждой синусоидальной волны в спектре в зависимости от частоты. Как видно из рис. 2, спектр состоит только из двух волн. Из приведенного примера понятно, почему наш сигнал не является чистой синусоидой: в нем содержится еще одна волна, вторая гармоника в данном случае.
Следует подчеркнуть, что спектральный анализ речи не заменяет собой измерения речевого сигнала во временнόй области. Временная область является предпочтительной для многих измерений, а для некоторых единственно возможной. К примеру, только во временнόй области можно измерить длительность фронта и спада голосового импульса, темп речи, проверить правильность работы программы-выделителя частоты основного тона и др.
Использование аппарата спектрального анализа в инструментальной части идентификационного исследования говорящего
У частотной области есть свои плюсы в плане измерений. На рис. 1 и 2 видно, что частотная область гораздо удобнее для определения гармонического состава речевого сигнала. Кроме того, спектральный анализ позволяет визуализировать формантный состав гласных звуков, который опосредованно отражает биометрические характеристики и некоторые из функционально-динамических комплексов (ФДК) устно-речевых навыков говорящего. Последние, будучи материально отображенными в обстановке расследуемого события, оказываются источниками важной медико-криминалистической информации [5].
Необходимо более подробно остановиться на понятии форманты. Термин «форманта» означает определенную частотную область, в которой (вследствие резонанса) усиливается некоторое число гармоник тона, производимого голосовыми связками, т. е. в спектральной картине звука форманта достаточно отчетливо выделяется как область усиления определенных частот [6].
С технической точки зрения, феномен форманты есть проявление работы активного полосового фильтра в составе речевого тракта5. Принятое обозначение форманты F. Считается, что для характеристики звуков речи достаточно выделения четырех формант: FI, FII, FIII, FIV, которые нумеруются в порядке возрастания их частоты. Самая низкая форманта, ближе всех расположенная к частоте голосового источника, - FI, за ней FII6 и т. д. Для разных звуков речи характерны определенные частотные диапазоны формант.
Количество формант определено количеством резонансных полостей в речевом тракте. Подтверждением этого положения может служить работа [7], в которой показано, что при исключении (например, по причине хирургического вмешательства) из речеобразующего тракта гортанного желудочка (морганиев желудочек) в спектральной картине исчезает третья форманта (FIII) для всех гласных звуков, кроме [и]. Приведенный факт свидетельствует о том, что морганиев желудочек отвечает за формирование III форманты в русских гласных [а], [е], [о], [у].
В то же время каждая из формант определяется всеми участками речевого тракта, хотя степень влияния в каждом конкретном случае неодинакова. В основном для различения гласных звуков достаточно первых двух формант, однако практически всегда количество формант в спектре звука больше двух, что указывает на более сложные связи между артикуляцией и акустическими характеристиками звука, чем при условии рассмотрения только двух первых формант.
Высказанная мысль находит свое отражение в методе опорных сегментов (метод формантного выравнивания) [8]. Основная идея данного метода основана на предположении, что каждый диктор в процессе производства речи может изменять конфигурацию своего речевого тракта лишь в рамках жестких анатомических ограничений, позволяющих изменять геометрические размеры акустического волновода - артикуляторного тракта только в определенной степени. Каждая конфигурация управляется диктором только по своим основным геометрическим размерам, которые обеспечивают реализацию целевых акустических резонансных свойств для низкочастотной части спектра или, вообще говоря, только первых двух-трех формантных максимумов.
Резонансные свойства каждой конфигурации вокального тракта для IV и более высоких формант обычно диктором не контролируются и задаются имеющимися анатомическими ограничениями на возможные изменения конфигурации артикуляторного тракта диктора. На языке формантного описания это приводит к тому, что при фиксированных значениях первых формант более высокие по частоте форманты у данного диктора могут занимать только более-менее стабильные индивидуальные положения.
Заключение
Ранее мы показали, что спектральный анализ является тем инструментом, который позволяет выделить устойчивые идентификационные признаки акустической группы, характеризующие биометрические параметры речевого тракта и ФДК устно-речевых навыков в задаче медико-криминалистической идентификации говорящего. Ограниченный объем данной работы не позволяет, к сожалению, подробно изложить процесс получения, фиксации и анализа указанных идентификационных признаков. Данный метод исследования требует отдельного рассмотрения и планируется к публикации в последующих статьях.
Конфликт интересов отсутствует.
1При написании данного раздела статьи использованы материалы сайта компании «АСТЭНА» [4].
2Жан Батист Жозеф Фурье (1768-1830) - французский математик и физик.
3Период - время, в течение которого система совершает одно полное колебание. Через период повторяются какие-либо показатели состояния системы. Период обозначается буквой Т и измеряется в секундах.
4 К этой группе относятся измерения спектральных характеристик речевого сигнала.
5Полосовой фильтр ослабляет (обычно значительно) амплитуды гармонических составляющих сигнала выше и ниже некоторой полосы.
6Согласно принятой в речевых исследованиях традиции, номер форманты в ее названии обозначают большой римской цифрой в одну стороку (FI, FII и т. д.), а числовое значение форманты - арабской цифрой подстрочно (F1, F2 и т. д.).