![]()
|
|||||||
Метод направленного перебора словаря в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласованияСтр 1 из 2Следующая ⇒
УДК 621.372:519.72 Метод направленного перебора словаря в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования Автоматическое распознавание речи, распознавание образов, распознавание с обучением, критерий минимума информационного рассогласования, генетический алгоритм. А. В. Савченко Государственный университет «Высшая школа экономики» - Нижегородский филиал Ставится и решается задача автоматического распознавания речевых сигналов на основе принципа минимума информационного рассогласования. Предложен метод направленного перебора словаря эталонов как альтернатива методу полного перебора. Представлены результаты экспериментального исследования предложенного метода. The Direct Search in a Dictionary’s Method in a Problem of Automatic Speech Recognition Based on Minimum Information-Mismatch Principle Automatic speech recognition, pattern recognition, recognition with training, criterion of the minimum of information mismatch, genetic algorithm. A.V. Savchenko. State University “High School of Economics”, Nizhny Novgorod The article deals with a problem of speech signals recognition based on the minimum of the informative divergent criterion. The new algorithm of direct search in a dictionary has been developed as an alternative for checking all patterns. The program and experimental results of this method have been produced. Введение.Принцип минимума информационного рассогласования (МИР) является эффективным инструментом для решения разнообразных задач в области распознавания образов [1]. Задача автоматического распознавания речи (АРР) – одна из наиболее актуальных разновидностей такого рода задач. Существует множество подходов к ее решению. Среди них очевидный интерес представляет теоретико-информационный подход, разработанный в рамках информационной теории восприятия речи (ИТВР) [2] и основанный на упомянутом выше принципе МИР и методе обеляющего фильтра (МОФ). Его эффективность и преимущества по сравнению с другими подходами показаны в работах [3, 4] на ряде примеров из практики АРР. Между тем, далеко не все преимущества и возможности ИТВР на данный момент получили необходимое освещение и развитие. В частности, до настоящего времени практически не исследовались преимущества принципа МИР перед традиционными методами и подходами в задачах автоматического распознавания сложных речевых единиц типа отдельных (изолированных) слов или целых фраз. Исследованиям в этом актуальнейшем направлении и посвящена предлагаемая статья. В ней при учете метрических свойств решающей статистики МИР предложен метод направленного перебора (МНП) словаря эталонов как альтернатива традиционному методу сплошного перебора при проверке конкурирующих гипотез. Полученные результаты и сделанные по ним выводы рассчитаны на широкий круг специалистов в области современной теории и практики автоматической обработки речевых сигналов и распознавания образов. Элементы ИТВР.Центральным элементом ИТВР является понятие «фонема».Под фонемой обычно понимают минимальную единицу звукового (фонетического) строя национального языка, или «элементарную речевую единицу» (ЭРЕ) [4]. Разным языкам соответствуют разные списки фонем: и по составу, и по количеству Нетрудно увидеть, что именно в понятии информационного центра (ИЦ) r-го множества реализаций Критерий МИР. Задача существенно упрощается, если воспользоваться гауссовой (нормальной) аппроксимацией закона распределения речевого сигнала на интервалах его квазистационарности
где
Причем, в задачах с априорной неопределенностью вместо неизвестных, в общем случае, фонемных АКМ В работе [6] также показано, что в асимптотике, когда
Это известная формулировка критерия МИР на основе авторегрессионной (АР) модели речевого сигнала. Здесь введено обозначение Главное достоинство АР-модели, как известно [2, 3], состоит в возможности предварительной нормировки речевых сигналов по дисперсиям их порождающих процессов. Применительно к сигналам типа ЭРЕ такая нормировка обусловлена физическими особенностями голосового механизма человека: воздушный поток на входе его модели «акустической трубы» имеет приблизительно одну и ту же интенсивность на интервалах, длительностью в целое слово или даже фразу. При учете этого свойства выражение (3) приобретает предельно простой вид [4]
Выражения (3) и (4) представляю собой стандартную формулировку МОФ в частотной области. Здесь выражение в числителе определяет квадрат амплитудно-частотной характеристики r-го обеляющего фильтра, настроенного на r-ю фонему Задача первого этапа. На пути к практическому осуществлению решающего правила (2) сначала требуется определить множество всех ЭРЕ
об однородности распределений вектора отсчетов Вычисления по схеме (3…5) повторяются циклически для всех последующих сегментов данных из речевого сигнала X, причем повторятся «нарастающим итогом» для переменного значения R=1, 2,… В результате получим множество из R* выявленных на первом этапе обработки фонем. При этом понятно, что с точки зрения качества полученного результата первостепенный интерес представляет собой множество четких фонем. Поэтому в работе [8] была предложена дополнительная процедура отбраковки сомнительных по своей четкости фонем путем установления к ним требования по минимальной длительности эталонных ЭРЕ вида
Здесь Его наиболее полная информационная характеристика – это (R
|
|||||||
|