甲斐 充彦
本論文は、こうした背景で、まず文脈自由文法による構文知識を音声照合の処理 に採り入れ、統合的な音声の仮説照合と探索を行なうアルゴリズムを提案した。 一つは、従来の単語レベルの照合を行なうワードスポッティング法の利用による 拡張連続DP法の原理に基づいて実現し、もう一つはパターンマッチング問題とし ての連続音声認識において最適な探索を行なうOne Pass DP法の原理に基づいて 実現した。前者は音声照合の計算量が語彙数のオーダである効率的な手法で、後 者はビームサーチ法を用いて構文制約を動的に展開し、照合仮説の枝刈りを行な うことで計算量の増加を抑えた。実験的な検討に基づいて、それぞれのアルゴリ ズムの有効性を示した。
また、本研究では未知語・不要語を扱うための手法を検討した。一般に連続音声 認識ではサブワード単位の音響モデルを用いることが多いため、未知語も何らか のサブワードの系列で表される。そこで、未知語としてのモデルを、任意のサ ブワードモデルの接続に対応させることで、既知語と未知語のそれぞれの尤度の 比に基づく未知語の検出が考えられる。初めに、未知語・冗長語をそのような方 法で処理することを試みた。このような方法は登録語以外の発話一般に対して適 用できるので、発話のリジェクションとしての有効性も考えられる。この ような手法の有効性を客観的に知るため、孤立単語認識のシミュレーション実験 によって単語認識性能と未知語検出性能との関係を求め、実音声による未知語検 出の実験においても同様な傾向があることを示した。
音声認識処理において間投詞、言い直しなどを扱うためには、一般に不要語とし ての処理が必要であり、倒置、助詞落ち、非文法的な発話などに関しては言語解 析に関しての対処が必要である。これまで、自然な発話においてどのような認識 手法が有効であるかの明確な比較はなされていない。そこで本研究では、不要語 としての照合方式や言語解析法が異なる複数のシステムを実現し、自然な発話に 対する認識実験によって比較・評価した。そして未知語検出などのために検 討したサブワードモデルに基づく未知語処理法が自然な発話の認識において有効 に働くことを明らかにし、さらに構文・意味的レベルの制約が統合された認識手 法の有効性を示した。