治療に伴う音声喪失、AI合成音声での代用は操作性や会話のタイムラグが課題
慶應義塾大学は11月4日、声帯を失った人が口元を写した画像と過去の自分の声を使って、スムーズに自分の声で会話ができるアルゴリズムを開発することに成功したと発表した。この研究は、同大理工学部の満倉靖恵教授、医学部耳鼻咽喉科・頭頸部外科学教室の小澤宏之教授、富里周太助教らの研究グループによるもの。研究成果は、「第76回日本気管食道科学会」で発表された。
喉頭がんや下咽頭がんの治療として施行される喉頭全摘出術ないし咽喉頭頸部食道摘出術後の患者は、音声を喪失する。近年、代用音声としてAI合成音声が用いられるようになってきている。しかし、その会話の精度は単語レベルでは比較的高い精度を得ているものは多いが、実際の会話レベルになると途端に認識のレベルが低下する。多くのシステムではAIで合成した音声を使用する際には文章を機器に入力する必要があり、その操作性や会話におけるタイムラグは臨床応用していく上で解決すべき課題と考えられてきた。
過去の音声データ+口元を写した画像から、患者本人の声で会話できるアルゴリズム開発
研究グループは今回、声帯を失った患者の過去の声に関するわずかな音声データや情報(口元を写した画像)さえあれば、その情報を元に、患者本人の声でスムーズに会話できるアルゴリズムを開発した。
リアルタイムで90%以上の識別率、文章でも80%以上の識別
有効性を検証した結果、単語レベルにおいて、リアルタイムで90%以上の識別率が得られたほか、文章でも80%以上の識別が行えるようになった。
吃音、場面緘黙、機能性発声障害といった幅広い患者でQOL向上に期待
今後、実際の患者に広く導入し、医療現場で利用が促進されることで、QOL向上につながることが期待される。また、摘出後以外の音声言語障害にも応用できる可能性があり、吃音、場面緘黙、機能性発声障害といった幅広い患者のQOL向上にも寄与できると考えられる、と研究グループは述べている。
▼関連リンク
・慶應義塾大学 プレスリリース


