自然発話のための音声認識システムに関する研究

甲斐 充彦
豊橋技術科学大学

論文要旨

音声認識の研究では、近年の計算機の処理能力の向上と、大量のデータベースを 用いた統計的な手法の導入により大きな進展を見せた。これらの多くは、従来の 制約であった孤立単語認識から連続音声認識へ、特定話者から不特定話者の認識 へ、小・中語彙から大語彙へ、と目標を高くすることを可能にした。しかし、従 来の音声認識技術はていねいに朗読された音声を対象とし、いわゆる書き言葉用 の文法に従う発話を仮定してきたため、そのような制約から外れた発話に対して は十分な認識性能を保持することができなかった。また、自然な発話では、発音 があいまいな冗長語や、言い直し、言い淀み、助詞落ちなどの現象が見られるた め、従来のように音素や単語レベルの知識と、より上位の構文、意味的な知識を 分割したアーキテクチャでは、認識性能の限界が予想された。

本論文は、こうした背景で、まず文脈自由文法による構文知識を音声照合の処理 に採り入れ、統合的な音声の仮説照合と探索を行なうアルゴリズムを提案した。 一つは、従来の単語レベルの照合を行なうワードスポッティング法の利用による 拡張連続DP法の原理に基づいて実現し、もう一つはパターンマッチング問題とし ての連続音声認識において最適な探索を行なうOne Pass DP法の原理に基づいて 実現した。前者は音声照合の計算量が語彙数のオーダである効率的な手法で、後 者はビームサーチ法を用いて構文制約を動的に展開し、照合仮説の枝刈りを行な うことで計算量の増加を抑えた。実験的な検討に基づいて、それぞれのアルゴリ ズムの有効性を示した。

また、本研究では未知語・不要語を扱うための手法を検討した。一般に連続音声 認識ではサブワード単位の音響モデルを用いることが多いため、未知語も何らか のサブワードの系列で表される。そこで、未知語としてのモデルを、任意のサ ブワードモデルの接続に対応させることで、既知語と未知語のそれぞれの尤度の 比に基づく未知語の検出が考えられる。初めに、未知語・冗長語をそのような方 法で処理することを試みた。このような方法は登録語以外の発話一般に対して適 用できるので、発話のリジェクションとしての有効性も考えられる。この ような手法の有効性を客観的に知るため、孤立単語認識のシミュレーション実験 によって単語認識性能と未知語検出性能との関係を求め、実音声による未知語検 出の実験においても同様な傾向があることを示した。

音声認識処理において間投詞、言い直しなどを扱うためには、一般に不要語とし ての処理が必要であり、倒置、助詞落ち、非文法的な発話などに関しては言語解 析に関しての対処が必要である。これまで、自然な発話においてどのような認識 手法が有効であるかの明確な比較はなされていない。そこで本研究では、不要語 としての照合方式や言語解析法が異なる複数のシステムを実現し、自然な発話に 対する認識実験によって比較・評価した。そして未知語検出などのために検 討したサブワードモデルに基づく未知語処理法が自然な発話の認識において有効 に働くことを明らかにし、さらに構文・意味的レベルの制約が統合された認識手 法の有効性を示した。