Особенности реализации систем идентификации дик






Обработка сигналов в системах телекоммуникаций




Особенности реализации систем идентификации диктора

Левин А.М., Ульдинович С.В.

Ярославский государственный университет им. П.Г. Демидова

150000, Россия, Ярославль, ул. Советская, 14. Тел. (4852) 79-77-75. dcslab@uniyar.ac.ru

Обработка речевых сигналов давно привлекает внимание специалистов разных областей [1,2]. Во всем мире, на форумах, конференциях и семинарах собираются ученые, лингвисты, медики, инженеры и программисты для обсуждения вопросов голосового общения человека с компьютером. Постоянно исследуются такие задачи, как передача и компрессия речевого сигнала, речевое управление роботами, идентификация и верификация говорящего, синтез речи и даже контроль психологического состояния человека [3-12].

Идентификация диктора может использоваться во многих областях, где происходит речевое взаимодействие человек-машина. В некоторых системах компьютеру необходимо знать, кто в настоящий момент получил доступ, и реагировать на запросы пользователя по заранее заданному профилю.

Существуют модели идентификации диктора по произвольной или по заданной фразе. В действительности, существенных различий нет, так как обе модели работают, выделяя определенные участки (обычно только вокализованные) для анализа и сравнения с эталоном.

Рассмотрим задачу идентификации диктора по фиксированной фразе. Первый этап состоит в выделении начала и конца фразы. Далее вычисляется набор таких параметров, как основной тон, энергия или интенсивность сигнала, количество пересечений с нулем, коэффициенты линейного предсказания и формантные частоты. Система распознавания должна выделять и обрабатывать данные параметры, и создавать эталоны для каждого диктора, сохраняемые в базе данных эталонов. Затем при последующем произнесении одним из дикторов данной фразы, система вновь вычисляет необходимые параметры речи и, после динамического преобразования по времени, сравнивает их с эталонами и определяет наиболее близкого диктора из базы.

^ Определение начала и конца фразы. При наличие шума в сигнале в задаче автоматического распознавания важно точно определить моменты начала и конца фразы. Лишь в случае высококачественной записи в звукоизолированном помещении можно добиться достаточно большого соотношения сигнал/шум так, что энергия даже наиболее слабых звуков, фрикативных согласных, будет заметно отличаться от энергии шума. Но подобные условия не встречаются в реальных ситуациях. Для решения данной задачи используют совместно энергию сигнала и количество переходов через ноль, а также дисперсию данных величин. В тех местах, где энергия сигнала не превышает энергию шума, число переходов через ноль позволит более точно определить наличие речевого сигнала.

^ Выделение основного тона. Частота основного тона является важной характеристикой речевого сигнала, несущей информацию об интонационной окраске речи или мелодии. Существует несколько методов определения основного тона, например, спектральный или кепстральный, на основе коэффициентов линейного предсказания и автокорреляционный. Использование спектрального метода и метода анализа коэффициентов линейного предсказания не всегда оправдано с точки зрения машинного времени, требуемого на обработку, поэтому остановимся на автокорреляционном методе.

Найдем частоту вокализованного участка с помощью модифицированной автокорреляционной функции (АКФ). Для отсечения ненужной информации и получения более «четкой» АКФ зададим порог, ниже которого абсолютные величины отчетов сигнала приравниваются нулю. Порог рекомендуется выбирать высотой 65-85% от максимальных значений сигнала по модулю на первых и последних 100 мс вокализованного участка речи. Далее выделим из данного участка первые 5-10 мс речевого сигнала (участок, имеющий длительность более одного периода основного тона) и посчитаем корреляцию между ним и всем вокализованным участком речи. Результирующая функция АКФ представляет собой последовательность всплесков, второй из которых соответствует периоду основного тона.

На невокализованных участках или на стыках между вокализованными и невокализованными участками анализ АКФ может выдавать ложные частоты вне диапазона возможного нахождения основного тона сигнала. Следует отсекать подобные результаты и помечать текущий участок, как невокализованный.

На этапе сравнения результатов измерения основного тона на участках сигнала с эталоном имеет смысл сравнивать не абсолютные величины, а нормированные – это позволяет различать дикторов по мелодике, интонационному окрасу.

^ Измерение энергии. Простой в реализации этап, но достаточно эффективный в наборе всех мер различимости. Часто в системах идентификации для всего участка рассчитывают не энергию, а интенсивность, для того, чтобы случайные всплески значительно не влияли на результат. На практике мгновенные значения интенсивности измеряют с использованием прямоугольного окна шириной 10-20 мс.

^ Анализ на основе линейного предсказания. Коэффициенты линейного предсказания являются знаменателями передаточной функции, описывающей речевой тракт диктора, форму сигналов и несут в себе много информации для анализа речи и идентификации диктора. Практика показала, что в ряду всех мер различимости линейное предсказание работает в большинстве случаев достаточно эффективно. Существует множество готовых алгоритмов, позволяющих быстро рассчитывать коэффициенты любой степени, необходимой для решения поставленных задач.

^ Формантный анализ. Пожалуй, наиболее сложная задача с точки зрения реализации. Основные трудности ее решения объясняются двумя причинами: частотные диапазоны формантных частот перекрываются, а сами частоты иногда так сильно сближаются, что становится невозможно их разделить. Разработано множество вариантов решения задачи, но упомянутые трудности часто порождали грубые сбои. Более успешным оказался метод анализа через синтез. Система генерирует речеподобный спектр, обеспечивающий минимум среднеквадратичного отклонения от реального речевого спектра. Параметрами генерирующего фильтра являются предполагаемые формантные частоты и их ширина.

^ Сравнение параметров сигнала с эталонными параметрами. Диктор не в состоянии повторить абсолютно точно в одном и том же темпе одну и ту же фразу, поэтому сравнение таких временных параметров, как траектория основного тона, интенсивность и изменение формантных частот не совсем корректно. Эту трудность позволяет преодолеть нелинейное преобразование временного масштаба для получения наиболее точного соответствия эталону. Чаще всего при решении данной задачи используется алгоритм динамического программирования.

После осуществления процесса сравнения параметров речи с эталонными нужно выбрать из базы наиболее «близкого» диктора. Для этого необходимо знать, каким оценкам параметров следует доверять больше, а каким меньше. Все параметры могут давать, на первый взгляд, примерно одинаковую вероятность ошибки, но, тем не менее, значимость параметров может различаться. Веса оценкам следует подбирать опытным путем.

^ Исследование разработанной системы идентификации диктора

Создана компьютерная модель для исследований работы алгоритмов идентификации по фиксированной фразе. Все тесты проводились на базе из 29-ти человек. Параметры звуковых файлов: PCM, 16 бит, моно, частота дискретизации – 22050 кГц.

^ Распознавание диктора на основе отдельно взятых параметров речевого сигнала. Для получения следующих результатов была исследована «неполная» система идентификации диктора. Сравнение сигнала с эталоном производилось только по одному из параметров, чтобы оценить степень доверия той или иной мере различимости и для выставления соответствующих весов при принятии решений в работе «полной» системы по всем параметрам.

Вероятности распознавания:

  • по траектории энергии (интенсивности) сигнала: 62% (16 из 26);

  • по функции количества пересечений с нулем: 58% (15 из 26);

  • по усредненной траектории частоты основного тона: 38% (10 из 26);

  • по первому коэффициенту линейного предсказания: 54% (14 из 26);

  • по 2-ому, 3-ему, …, и 7-му коэффициентам линейного предсказания вероятность распознавания практически совпадает с вероятностью распознавания по первому коэффициенту.

^ Исследование системы идентификации диктора по совокупности параметров. При первоначальных проведенных тестах на базе из 29-х человек вероятность правильной идентификации диктора оказалась невелика (70-80%). Это связано с некорректной работой алгоритма определения начала и конца фразы в некоторых случаях. Диктор в начале записи своего голоса открывает рот и «причмокивает». На небольшом таком участке энергия сигнала и количество пересечений с нулем превосходит заданные пороги и за начало фразы принимается начало данного всплеска значений параметров. В таком случае существенно снижается эффективность работы системы. При удалении всплеска результат идентификации превысил 90%.

В системе пока не реализован формантный анализ и предобработка сигналов, поэтому вероятность 93% уже можно считать неплохим результатом.

^ Веса мер различимости при расчете полной меры различимости. Как уже отмечалось, параметры речи (меры различимости) несут в себе разнородную информацию о дикторе, следовательно, нужно учитывать степень доверия тому или иному параметру при идентификации и расставлять соответствующие веса. При проведении исследований оптимальными оказались следующие веса:

  • Траектория энергии (интенсивности) сигнала: 1.

  • Функции количества пересечений с нулем: 0,8-1.

  • Усредненная траектория частоты основного тона: 0,5-0,6.

  • Коэффициенты линейного предсказания: 0,5-0,7.

В базе дикторов были преимущественно мужские голоса. Определенной зависимости вероятности правильной идентификации от пола человека не наблюдалось.

^ Вероятность идентификации в зависимости от длины фразы. Для фразы длинной порядка 4,5 секунд вероятность распознавания составила ~ 93%. Для фразы длительностью 3 секунды ~ 86%. Для фразы длительностью 2 секунды ~ 73%.

^ Вероятность идентификации при сжатии речи кодеком mp3. Для контроля доступа к удаленным системам может потребоваться передавать сжатый и закодированный сигнал по сетям связи. Сжатие специфическим образом изменяет форму сигнала, поэтому важно исследовать данный вопрос. Для фразы, сжатой в формат mp3 и преобразованной снова в формат wave PCM, результаты представлены в табл. 1.

Табл. 1. Зависимость идентификации от типа речевого сигнала

Сигнала

Вероятность идентификации, %

mp3, 64 кбит/с, 22 кГц

93

mp3, 32 кбит/с, 22 кГц

89

mp3, 16 кбит/с, 11 кГц

81

mp3, 8 кбит/с, 8 кГц

52

При расчетах несколько изменились веса мер различимости, а именно, снизилось доверие коэффициентам линейного предсказания. При скорости потока от 32 кбит/с и выше основные характеристики сигнала практически не изменяются и не влияют на точность идентификации. Даже при большом сжатии речевого сигнала (8 кбит, 8 кГц) сохраняются параметры голоса диктора, необходимые для распознавания.

^ Вероятность идентификации при наложении белого гауссовского шума. При наложении белого гауссовского шума получились результаты, представленные в табл. 2.

Табл.2 Зависимость правильной идентификации от качества сигнала

Соотношение сигнал/шум, дБ

Вероятность идентификации, %

0

65

12

81

18

88

24

93

Наблюдалась следующая зависимость: чем больше уровень шума, тем хуже работают коэффициенты линейного предсказания и частота основного тона. При соотношении сигнал/шум менее 6 дБ оказалось невозможным выделить основной тон автокорреляционным методом. Также установлено, что при соотношении сигнал/шум более 24 дБ наличие шума на вероятность идентификации не влияет.

^ Сравнение системы идентификации с другими, разработанными ранее системами. Различными российскими организациями и университетами разработано несколько подобных систем идентификации. Некоторые из них успешно используются на практике. Ниже представлены вероятности распознавания дикторов при следующих ограничениях: сигнал/шум не менее 10 дБ, полоса частот сигнала – не уже 300-3400 Гц, частота дискретизации 8-22,050 кГц, разрядность 8-16 бит.

  1. Система, разработанная на кафедре БИТ ТРТУ, г. Тарту, выдает результат идентификации порядка 95%.

  2. SVI System (СПИРИТ-Телеком) - до 99%.

  3. Комплекс «Трал» компании «Центр речевых технологий» обеспечивает вероятности распознавания для сигнала телефонного качества: 91% при сравнении пары речевых сигналов длительностью не менее 96 секунд, 85% – при сравнении пары речевых сигналов длительностью 16 секунд и 96 секунд.

Система, разработанная в рамках данной работы, обеспечивает вероятность распознавания, соизмеримую с полноценными системами идентификации диктора, представленными выше. При некоторой доработке системы можно добиться достаточной эффективности работы для использования в реальной практике распознавания речевых сигналов.

Литература

  1. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. – М.: Радио и Связь, 1981, 494 с.

  2. Рабинер Л.Р, Гоульд Б. Теория и применение речевой обработки сигналов. М.: Мир, 1978. 848 с.

  3. Гольденберг Л.М., Матюшкин Б.Д., Поляк М.Н. Цифровая обработка сигналов: учеб. пособ. – М.: Радио и связь, 1990. 256 с.

  4. Карташев В.Г. Основы теории дискретных сигналов и цифровых фильтров. – М.: Высшая школа, 1982. 108 с.

  5. Брюханов Ю.А. Цифровые цепи и сигналы: учеб. пособ. / – 2-е изд., перераб. и доп. Ярославль: ЯрГУ, 2005. 154 с.

  6. Витязев В.В., Бодров К.А., Иванов С.В. Адаптивная многоскоростная фильтрация узкополосных процессов // Докл. первой междунар. конф. и выст. «Цифровая обработка сигналов и ее применения», М. 1998. Т. I, C. 155-160.

  7. Гольденберг Л.М., Матюшкин Б.Д., Поляк М.Н. Цифровая обработка сигналов: Справочник. – М.: Радио и связь, 1985. 312 с.

  8. Оппенгейм А.В., Шафер Р.В. Цифровая обработка сигналов: Пер. с англ. – М.: Связь, 1979. 416 с.

  9. Применение цифровой обработки сигналов / Под ред. Э. Оппенгейма: Пер. с англ. – М.: Мир, 1980. 550 с.

  10. Каппелини В., Констандинидис А.Д., Эмилиани П. Цифровые фильтры и их применение: Пер. с англ. – М.: Энергоатомиздат, 1983. 360 с.

  11. Хэмминг Р.В. Цифровые фильтры / Под ред. А.М. Трахтмана. – М.: Мир, 1980. 224 с.

  12. Прокис Дж. Цифровая связь: Пер. с англ. – М.: Радио и связь, 2000. 800 с.
^

FEATURES OF THE SPEAKER RECOGNITION SYSTEMs STUDY OF THE ALGORITHMS

Levin A., Uldinovich S.


Yaroslavl State University
14 Sovetskaya st., Yaroslavl, Russia 150000. Phone: 7-4852-797775. dcslab@uniyar.ac.ru

Speaker recognition, or voice recognition is the task of recognizing people from their voices. Such systems extract features from speech, model them and use them to recognize the person from his/her voice. There is a difference between speaker recognition (recognizing who is speaking) and speech recognition (recognizing what is being said).

Speaker recognition has a history dating back some four decades, where the output of several analog filters was averaged over time for matching. Speaker recognition uses the acoustic features of speech that have been found to differ between individuals. These acoustic patterns reflect both anatomy (e.g., size and shape of the throat and mouth) and learned behavioral patterns (e.g., voice pitch, speaking style).

^ Defining the beginning and ending points of the phrase. In the presence of noise in the signal, it is important to recognize automatically the beginning and end of phrases. To solve this problem the energy of the signal and the zero-crossing number is used effectively. In areas where the signal energy does not exceed the energy of noise the number of crossing zero would lead to more accurately determination.

Calculation of the basic tone. Frequency of the basic tone is important characteristic of voice, carrying information about intonation, speech melody. There are several methods for determining the basic tone: spectral, cepstral, autocorrelational or based on linear prediction. Using spectral analysis and the method of linear prediction coefficients may require much computing time. Autocorrelational method is considered to be optimal

^ Energy calculation. Easy realizable, but quite effective step ina the speech recognition system. Most expect identification systems for the entire station is not energy but an intensity function which has less randomly bursts and noise. Optimal intensity measurement is made using a 10-20 ms rectangular window.

Linear prediction analysis. The coefficients of linear prediction determine the denominator of th filter function, which describes speakers voice tract. A form of the function of linear prediction coefficients carries a lot of helpful information for the analysis and speech identification. There are many ready algorithms to quickly calculate the function of coefficients.

Formant analysis. One of the most complicated task is the determination of the formant frequencies. The main difficulties are the two factors: frequency bands may overlap, and the frequency sometimes so strongly converging so it becomes impossible to separate them. Many solutions to the problem were developed, but these difficulties often led to disruptions. The more successful method is analysis via synthesis. The system generates speakers-like spectrum, providing a minimum mean square deviation of the actual speech spectrum. Options used in generating the spectrum are accepted as formant frequencies and widths.

^ Comparison of parameters with a bench-mark signal. Speaker is not capable to repeat exactly the same phrase twice, so the time-based functions require nonlinear transformation of the time scale for the more exact match. The problem is solved by the dynamic programming algorithm.

The system, developed as part of the work commensurate with the full speakers recognition system. Refining the system may be sufficient to achieve the effectiveness of the work for use in actual practice.




^ Алгоритм распознавания команд с ограниченным словарем

Коновалов А.В., Новоселов С.А.

Ярославский государственный университет им. П.Г. Демидова

150000, Россия, Ярославль, ул. Советская, 14. Тел. (4852) 79-77-75. dcslab@uniyar.ac.ru

Система распознавания речевой информации является частным случаем системы автоматического распознавания образов [1-5], которая, как правило, включает в себя три основных этапа: получение исходного параметрического описания сигнала; нахождение эффективной системы признаков; построение решающего правила.

Если второй и третий этапы более или менее легко поддаются алгоритмизации, то первый этап формализовать довольно трудно. Поэтому исходное описание, как правило, задается лишь на основании опыта и интуиции человека, создающего алгоритм. Это особенно ярко проявляется в тех задачах, где заранее трудно указать те характеристики сигнала, которые могут быть ответственны за те или иные свойства и проявления данного объекта. Исследование речевого сигнала с точки зрения поставленных задач показывает, что информативностью может отличаться большое количество различных характеристик сигнала. Обычно эти характеристики составляют большой массив данных, эффективность которых, однако, не может быть заранее оценена, пока не будет выяснено, как велика избыточность этого массива, и каково количество содержащейся в нем излишней информации.

Помимо таких соображений пространство исходного описания, имеющее высокую размерность, существенно осложняет также и формирование решающего правила и создает серьезные трудности вычислительного характера. Отсюда возникает дополнительная задача сокращения исходного числа параметров изучаемого объекта до такого числа, которое обеспечит получение необходимого результата. Поэтому выбор параметров речевого сигнала, способных наилучшим образом описать его смысловое содержание, является, пожалуй, самым важным этапом при построении автоматических систем распознавания речи.

Эти параметры, во-первых, должны быть легко измеряемы и мало зависимы от мешающих факторов окружающей среды (шумов и помех); во-вторых, они должны характеризоваться стабильностью во времени и, в-третьих, не должны быть привязаны к индивидуальным особенностям говорящего (таким, как психофизиологические особенности диктора и диалектические особенности его речи). Создание системы признаков, удовлетворяющей всем этим требованиям, является трудно решаемой задачей, поэтому большинство исследователей, в первую очередь, производят их отбор по основному критерию, а именно, по их способности адекватно и эффективно производить описание отдельной голосовой команды, уделяя меньше внимания другим факторам.

Более целесообразным является построение такой системы распознавания, которая оперировала бы с речевым сигналом как с целым, анализируя его как с точки зрения смысловой, так и индивидуальной, интонационной и динамической. Такой анализ дал бы возможность представить полную картину каждого конкретного сообщения в виде системы отношений, учитывающей вклад и участие в ней всех многообразных компонентов данного сигнала. Соответствующий этому анализу автомат, помимо эффективности, будет характеризоваться и универсальностью, с одинаковым успехом решая как задачи распознавания смыслового содержания произнесенной фразы, так и задачи автоматического различения голосов, независимо от смыслового содержания сказанного.

Предлагаемый алгоритм распознавания изолированных устных команд построен на основе сравнения следующих параметров входного сигнала и эталонов: энергии Тэгера (Teager Energy), двухполюсного анализа на основе линейного предсказания и погрешности линейного предсказания. Алгоритм состоит из следующих функциональных блоков (рис.1):



Рис. 1. Структурная схема алгоритма распознавания изолированных устных команд


  1. Ввод речевого сигнала из файла. Следует отметить, что алгоритм работает с сигналами, имеющими достаточно низкую частоту дискретизации (8 кГц). Впоследствии предполагается уменьшить разрядность квантователя с 16 до 8 бит, чтобы сделать возможным распознавание команд, прошедших через канал тональной частоты (телефонный канал).

  2. Определение границ команды осуществляется при рассмотрении динамики изменения абсолютной энергии сигнала и энергии Тэгера. Подробнее вопрос определения конечных точек фразы рассмотрен в [3].

  3. Вычисление энергии Тэгера [3] производится по следующему алгоритму: Ei = Si – Si-1*Si+1. (1)

Преимущество энергии Тэгера по сравнению с абсолютной энергией (модулем сигнала) заключается в том, что значение этой величины отображает информацию не только об амплитуде сигнала, но и о его частоте. Энергия (равно как и коэффициенты и погрешность линейного предсказания) усредняется на промежутках времени в 160 отсчетов (20 мс) и вычисляется с перекрытиями в 40 отсчетов (5 мс). Это позволяет избавиться от случайных флуктуаций вычисляемых характеристик.

  1. Коэффициенты линейного предсказания вычисляются на основе автокорреляционного метода [4]. Двухполюсная модель с приемлемой точностью характеризует распределение энергии в спектре сигнала, позволяя при этом абстрагироваться от расположения формант, значения частот которых являются индивидуальными особенностями голоса. Далее вычисляется погрешность линейного предсказания как разность между исходным речевым сигналом и его двухполюсной моделью.

  2. Функции кратковременной энергии, коэффициентов и погрешности линейного предсказания нормируются под выбранное стандартное для всех эталонов и входных сигналов значение.

  3. База эталонов представляет собой набор всех команд, которые могут поступать на вход алгоритма. Каждой команде ставится в соответствие некоторое число эталонов. Число эталонов у разных команд может различаться, но при этом оно не должно быть меньше единицы.

  4. Выравнивание сигнала с эталоном по временной оси предназначено для ликвидации возможных различий скорости произнесения команды или отдельных ее частей (региональные и индивидуальные особенности говорящего). Выравнивание в предлагаемом алгоритме осуществляется с помощью метода динамического программирования [1].

  5. Для сравнения сигнала с эталоном производится вычисление Евклидова расстояния в пятимерном пространстве. Выбранная метрика не является единственно возможной. Наряду с Евклидовой метрикой в подобных алгоритмах довольно часто применяют метрики Махаланобиса, Минковского и др. На выходе блока оценки степени близости имеется массив, состоящий из расстояний между параметрами входной команды и каждого из эталонов.

  6. В алгоритме предусмотрены две возможные реализации блока принятия окончательного («жесткого») решения. Первый вариант заключается в том, что входной команде ставится в соответствие та команда из базы, которой принадлежит ближайший (с точки зрения выбранной метрики) к входному сигналу эталон. Второй вариант реализации алгоритма предполагает усреднение расстояний до эталонов в пределах каждой команды. После этой операции осуществляется выбор как результата распознавания той команды, которая имеет минимум усредненной оценки.

Алгоритм проверялся на словаре, состоящем из десяти цифр, произносимых дикторами на русском языке («ноль», «один», «два», «три», «четыре», «пять», «шесть», «семь», «восемь», «девять»). Для анализа надежности распознавания десяти дикторам-мужчинам в возрасте 20-45 лет было предложено произнести указанные команды в случайном порядке, но так, чтобы каждая была произнесена ровно три раза. Следует отметить, что дикторы являются совершенно незаинтересованными в результатах опыта людьми, т.е. исключается возможность намеренного изменения произнесения команд с целью увеличить либо уменьшить вероятность верного распознавания. Некоторые из дикторов имели ярко выраженные индивидуальные и национальные особенности речи (картавость, гнусавость и др.). Запись проводилась в условиях звукоизолированного помещения, фильтрация записанных речевых образцов не проводилась. В зависимости от конкретного диктора отношение сигнал/шум находится в пределах 30-45 дБ.

Проверка алгоритма проводилась в двух режимах:

  1. Образцы команд каждого из дикторов заносятся в базу эталонов, т.е. в данном режиме заранее из-вестны все дикторы, которые могут произносить команды. Такая ситуация, например, может реа-лизовываться в системе голосового набора номера на мобильном телефоне, когда владелец (или владельцы) аппарата заранее определены. В среднем, вероятность распознавания в таком режиме работы колеблется в пределах 75-85% в зависимости от конкретного диктора. Отмечено, что алгоритм лучше работает при спокойном, размеренном произнесении команд. При малых паузах между ними слова начинают оказывать влияние друг на друга, поскольку артикуляторный аппарат человека перестраивается под произнесение сле-дующего звука не мгновенно. Это проявляется в виде смещения формантных частот и перераспределения энергии по спектру в конечных точках голосовой команды. Последнее (перераспределение энергии) для дан-ного алгоритма наиболее критично, т.к. при таких искажениях сигнала происходит значительное изменение модели на основе линейного предсказания.

  2. В базу эталонов заносятся образцы команд нескольких дикторов из их полного набора, а распознаются ко-манды тех дикторов, которые в базу не попали. При таком анализе осуществляется проверка алгоритма на дикторонезависимость. В этом случае вероятности верного распознавания имеют значительный разброс в зависимости от конкретного диктора. Средний результат по окончании опытов составил примерно 60-75%. В отдельных случаях вероятность распознавания человека, не входящего в базу эталонов, доходила до 85%. Однако для людей, имеющих значительные региональные или индивидуальные особенности речи, ве-роятность верного результата не превышала 60%.

Представленный алгоритм при распознавании выполняет относительно небольшое количество вычислений. При нахождении параметров, необходимых для работы системы, не требуется мощной аппаратной части (скоростных процессоров и больших ресурсов памяти). Для хранения образцов команд не требуется записывать в память сам сигнал.

Таблица 1. Результаты работы программы: дикторозависимое распознавание




Исходное сообщение

Результат распознавания




«0»

«1»

«2»

«3»

«4»

«5»

«6»

«7»

«8»

«9»

«0»

70%




10%

5%




25%













«1»




100%

























«2»

30%




90%







5%













«3»










65%










5%




10%

«4»













100%
















«5»










10%




55%










10%

«6»



















100%










«7»
















10%




95%







«8»
















5%







100%




«9»










20%
















80%

Таблица 2. Результаты работы программы: дикторонезависимое распознавание




Исходное сообщение

Результат распознавания




«0»

«1»

«2»

«3»

«4»

«5»

«6»

«7»

«8»

«9»

«0»

60%




10%

5%




25%













«1»




90%



















5%




«2»

35%




80%







10%

5%










«3»










65%










15%




10%

«4»













95%










10%




«5»

5%




10%

15%




55%

5%







15%

«6»



















90%










«7»
















10%




85%







«8»




10%



















80%




«9»










15%

5%










5%

75%

В качестве областей применения распознавателя можно предложить:

  1. Голосовой набор номера телефона.

  2. Автоматический выбор сотрудника по фамилии, т.е. при звонке в офис автоматическая система предлагает назвать фамилию сотрудника, с которым необходимо произвести соединение.

  3. Голосовое управление бытовыми приборами в помещении: освещением, телевизором, радиоприемником, кондиционером и другими устройствами, управление которыми в настоящее время осуществляется с помощью пультов дистанционного управления.

Литература

  1. Rabiner L., Juang B. Fundamentals of speech recognition. Prentice Hall, Englewood Cliffs, New Jersey, 1993.

  2. Rabiner L., Sambur M. An algorithm for determining the endpoints of isolated utterances // Bell Syst. Tech. J., 1975. V. 54, P. 297-315.

  3. Gu L., Zahorian S. A new robust algorithm for isolated word endpoint detection // Submitted to Proc. IEEE ICASSP-02, 2002. P. 185-259.

  4. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М.В. Назарова и Ю.Н. Прохорова. – М.: Радио и связь, 1981.

  5. Flanagan J. Speech analysis, synthesis, and recognition. 2nd ed. New York: Springer-Verlag, 1972.




^ aLGORYTHM OF COMMAND RECOGNITION WITH LIMITED DICTIONARY

Konovalov A., Novosyelov S.

Yaroslavl State University
14 Sovetskaya st., Yaroslavl, Russia 150000. Phone: 7-4852-797775. E-mail: dcslab@uniyar.ac.ru

The speech recognition system is a special case of automatic image recognition system which includes three basic stages: reception of the initial parametrical signal description; finding effective system of attributes; construction of a solving rule.

If the second and third stages more or less easily give into algorithmization, the first stage is rather difficult to formalize. Therefore the initial description is set only on the experience and intuition of its creator. It is especially brightly shown in problems where it’s difficult to specify exact signal characteristics which can be responsible for properties and displays of the given object. Speech signal research shows, that a plenty of various signal characteristics have differ self-descriptiveness. Usually these characteristics make large data file. Its efficiency, however, cannot be estimated in advance, until we define the quantity of redundant information. Therefore the choice of speech signal parameters capable to describe its semantic maintenance in the best way is, perhaps, the most important stage at construction of automatic speech recognition systems.

The offered algorithm of isolated verbal commands recognition is based on the comparison of input signal and templates: Teager Energy, the bipolar analysis on the basis of linear prediction and linear prediction error.

The algorithm was checked on the dictionary consisting of ten figures, pronounced in Russian. It was offered to say the specified commands to ten announcers-men in the age of 20-45 years to analyze the recognition reliability. Commands were pronounced in the random order but so that each one has been said exactly three times.

Some of announcers had bright individual features of speech (burring, twanging, etc.). Record was carried in the soundproofed premise; without filtration of the recorded speech samples. The signal/noise rate was depended on the concrete announcer and was located within the limits of 30-45 dB.

The presented algorithm of recognition carries out small amount of calculations. To find the parameters for system functioning, we do not require high-end hardware (high-speed processors and great amount of memory). It is not required to save signal in memory to store templates.

We may offer several fields to use speech recognition systems:

1. A voice set of a phone number.

2. An automatic choice of the employee on a surname.

3. Voice management of household appliances.




^ СУБПОЛОСНЫЙ АЛГОРИТМ ОЦЕНКИ ШУМА ДЛЯ ОДНОМИКРОФОННОЙ АДАПТИВНОЙ СИСТЕМЫ ФИЛЬТРАЦИИ ЗАШУМЛЕННОГО РЕЧЕВОГО СИГНАЛА

Кузнецов А.С.

Московский государственный технический университет им. Н.Э. Баумана

Бесплатный конструктор сайтовuCoz