Comparison of the results of acoustic analysis of the voice recorded by different methods

Chernobel'skiĭ S.I.

doi:https://doi.org/

Закрыть метаданные

Рекомендуем статьи по данной теме:

Использование акустического анализа речевого сигнала в диагностике неврологических и психических заболеваний: систематизированный обзор и метаанализ. Журнал неврологии и психиатрии им. С.С. Корсакова. 2026;(3):38-44

Резюме / Abstract:

Работа проведена с целью выяснения возможности акустического анализа голоса, записанного по проводному телефону. Обследованию подверглись 40 субъектов. Запись проводилась с помощью специальной компьютерной программы. Сравнивались результаты записи по громкой связи телефона и полученные обычным путем перед микрофоном. Определялись следующие параметры: при чтении текста - частота основного тона речи; при фонации гласной "а" - jitter, shimmer и отношение сигнала к шуму (С/Ш). Статистический анализ результатов исследования показал, что различие значений соответствующих величин ЧОТ, jitter, shimmer и С/Ш, полученных при обеих формах записи, недостоверно (p>0,05). Сделан вывод о том, что акустический анализ голоса по телефону возможен.

Ключевые слова / Keywords:

голос

частота основного тона

jitter

shimmer

сигнал/шум

Авторы / Authors:

Чернобельский С.И.

Лаборатория научных исследований по фониатрии Красноярской государственной академии музыки и театра

Закрыть метаданные

Слуховое восприятие голоса по своей значимости можно сравнить с аускультацией сердца и легких [1]. Шкала GRBAS представляет собой первую шкалу, разработанную для этой цели японской ассоциацией логопедов и фониатров [2]. GRBAS является аббревиатурой пяти параметров: grade (степень нарушения), roughness (грубость), breathiness (придыхание), asthenia (потеря вокальной силы), strain (напряженность). В 2002 г. американская ассоциация специалистов в области речи, языка и слуха предложила новую шкалу, названную CAPE-V (Consensus Auditory Perceptual Evaluation of Voice - консенсус слухового восприятия при оценке голоса) [3]. Шкала включает в себя 6 параметров: степень нарушения, грубость, придыхание, напряженность, высоту тона, громкость. В последние годы значение субъективной оценки голоса несколько утратило свое значение, поскольку компьютерные клинические программы позволяют объективизировать этот процесс [4, 5].

Современные телефоны имеют функцию громкой связи. В них используются динамики, чувствительные микрофоны с полосой рабочих частот от 300 до 3500 Гц и устройства для фильтрации шумов и эхоподавления [6]. Можно предположить, что если разговор с пациентом происходит по телефону, то акустический анализ голоса, усиленного аппаратом, возможен. С целью подтверждения этой гипотезы проведено настоящее исследование.

Для достоверности эксперимента потребовались субъекты, имеющие музыкальный слух. Данная работа является анализом акустических данных, полученных у 40 профессиональных оперных певцов: 20 мужчин и 20 женщин в возрасте от 20 до 35 лет, не имеющих патологии гортани. Исследование проводилось с помощью ноутбука Hewlett-Packard 630, Pentium B960, 2,2 ГГц и специальной клинической программы, созданной в Голландском институте фониатрии. Использовался телефон Elenberg tl-1045, имеющий функцию громкой связи. Звонки на него поступали с одного и того же проводного телефона. Запись голоса проводилась дважды: с телефона и при непосредственном контакте с обследуемым. Субъекты произносили гласную «а» с интенсивностью около 60 дБ не менее 5 с вначале по телефону. Затем им предлагалось прослушать запись этой гласной и повторить ее максимально точно с той же громкостью и на той же частоте перед микрофоном. После этого они читали стандартный текст на комфортной частоте и громкости в течение 15-20 с также дважды: по телефону и перед микрофоном. Использовался внешний микрофон с частотным диапазоном от 50 до 15 000 Гц. Расстояние между ним и субъектом (или телефоном) составляло 25-30 см. Исследование проводилось в звукоизолированной комнате с уровнем окружающего шума, не превышающим 40 дБ.

Определялись следующие величины. При чтении текста - частота основного тона речи (ЧОТ). При произнесении гласной - jitter (степень частотной нестабильности вибрации голосовых складок), shimmer (степень амплитудной нестабильности вибрации складок) и отношение сигнала к шуму (С/Ш), представляющее собой пропорцию шума в голосе. Jitter (local) вычислялся как отношение среднего абсолютного различия последовательных периодов к среднему периоду. Shimmer (local) - как отношение среднего различия амплитуд последовательных периодов к средней амплитуде. В стандартном режиме компьютерная программа анализировала диапазон частот от 50 до 5000 Гц. При определении ЧОТ телефонной речи в акустических образцах появлялись высокочастотные артефакты, не позволяющие правильно определить эту величину. С целью устранения частот выше 1000 Гц сигнал подвергался фильтрации. Анализ телефонного голоса, содержащего гласную, не требовал применения фильтра. Полученные данные были статистически обработаны с помощью t-теста по Стьюденту и отражены в таблице.

Голос, полученный обычным способом, имел более широкий частотный диапазон, чем его телефонный аналог, и поэтому при субъективной оценке имел лучшее качество. Между тем статистический анализ результатов показал, что при сравнении соответствующих значений ЧОТ, jitter, shimmer и С/Ш в обеих формах записи их различие было недостоверно (p>0,05).

Проводя акустический анализ голоса, измерение ЧОТ, jitter, shimmer и С/Ш является обязательным для всех форм патологии гортани. Причем достоверность результатов во многом зависит от применяемой программы [7]. ЧОТ отражает биомеханические характеристики вибрации голосовых складок и является важным индикатором фонаторной способности гортани [8]. Изменение этого показателя может произойти при различных заболеваниях голоса. При функциональных следует ожидать его повышения, а при органических - понижения [9]. Из результатов данной работы следует, что, при устранении высокочастотных артефактов, анализ ЧОТ телефонной речи возможен. Для этого достаточно попросить пациента посчитать от 1 до 10.

Повышение jitter и shimmer воспринимается на слух как охриплость [9]. С/Ш является объективным индексом степени охриплости. Его значения обратно пропорциональны наличию шума в голосе [10]. Измерение этих трех показателей требует стандартизации теста. Фонация должна осуществляться на частоте примарного тона голоса с интенсивностью около 60 дБ, иначе будут получены некорректные результаты [11]. Поэтому определение jitter, shimmer и С/Ш по телефону возможно только у лиц, имеющих музыкальный слух. В противном случае обследование следует проводить обычным путем.

Выводы

1. Акустический анализ голоса по телефону с использованием программы Голландского института фониатрии возможен.

2. Применение других программ требует соответствующего тестирования.