鼻副鼻腔乳頭腫のAI診断モデル、内視鏡動画から耳鼻科医より精度高く判別－慈恵大ほか

読了時間：約 3分53秒

2023年08月07日　AM09:30

希少疾患の鼻副鼻腔乳頭腫、早期の外科的切除が望まれるが鑑別困難な症例多い

東京慈恵会医科大学は8月3日、鼻腔内視鏡動画を用いて有病率の低い鼻副鼻腔乳頭腫に関する高い精度のAI診断モデルの作成に成功したと発表した。この研究は、同大耳鼻咽喉科学講座の由井亮輔助教、高橋昌寛講師、鴻信義教授、小島博己講座担当教授、サイオステクノロジー株式会社の野田勝彦氏、吉田要氏らの研究グループによるもの。研究成果は、「Scientific Reports」に掲載されている。

画像はリリースより
（詳細は▼関連リンクからご確認ください）

鼻副鼻腔乳頭腫は良性腫瘍であるが、再発や悪性化する可能性があり、早期診断と鼻腔内視鏡下での外科的切除が望まれる。耳鼻咽喉科では外来診察に鼻腔内視鏡を用いているが、鼻副鼻腔乳頭腫と鼻腔ポリープ（鼻茸）との鑑別が困難な症例も多い。確定診断には病理検査が必要だが、1週間程度の時間がかかり、鼻腔内視鏡検査によって精度の高い補助診断ができれば臨床的に有用である。そこで研究グループは、鼻腔内視鏡動画を用いて鼻副鼻腔乳頭腫を診断するコンピュータ支援診断システムを開発した。

近年の人工知能（AI）および機械学習技術の進歩は著しく、医療分野においても重要になってきている。予測アルゴリズムの作成は長い間、医療における意思決定を助けるために使用されてきたが、機械学習手法の実用化は2000年に始まった。その後、コンピュータのハードウェア性能の大幅な向上により、2010年にはDeep Neural Network （DNN）が導入され、2012年には Image Net Large Scale Visual Recognition Challenge においてDNNの精度が従来の画像処理手法を上回り、最終的には2015年に人間の画像認識精度を上回った。しかし、DNNモデルの学習には一般的に大量のデータが必要であり、鼻副鼻腔乳頭腫のような希少疾患の診断への応用は困難と考えられていた。過去に鼻腔内視鏡動画を用いて鼻副鼻腔乳頭腫を診断するDNNを利用した研究は報告がない。

鼻副鼻腔乳頭腫患者と鼻腔ポリープ患者の手術動画、学習用と評価用に分けて検証

そこで研究グループは、DNNモデルを用いて鼻腔内視鏡診断の精度を向上させることができるかどうかを調査することを目的とした。さらに、DNNモデルをさまざまな耳鼻咽喉科医による評価と比較し、その実用性を検討した。

2018年から2021年に同大附属病院耳鼻咽喉科で内視鏡下鼻副鼻腔手術を受けた患者の中で、病理検査で鼻副鼻腔乳頭腫と診断された患者21人、鼻腔ポリープを伴う慢性副鼻腔炎患者32人の計53人（男性=33、女性=30、平均年齢51.2±12.6歳）を対象とした。鼻副鼻腔乳頭腫、鼻腔ポリープそれぞれの病変が画面に映っている場面のみに手術動画（鼻腔内視鏡動画）を編集した。次に患者を無作為に8グループに分け、学習用と評価用に分けて交差検証を行った。

DNN用いた学習により192個の診断モデル生成、耳鼻咽喉科医25人の正答率と比較

学習時には、224×224ピクセルのサイズに切り出した画像を用いて、画像の病変部を範囲内に収めながらDNNモデルを学習させた。1つのDNNモデルの1回の学習サイクルでは、50回の反復学習を繰り返し実行した。この学習サイクルを8つのデータセットで行い、1つの学習セットで8つのモデルを生成した（学習セット：評価セット＝7：1）。各DNNモデルの学習は少数の患者からオーグメントで生成した大量のデータを用いるため、学習するたびに能力・精度に差が出る。その能力・精度の変動を検証するために、24の学習セットを作成した。その結果、8データセット×24＝192個の診断モデルが生成された。

経験年数のさまざまな耳鼻咽喉科医25人が、AIが評価した鼻腔内視鏡動画と全く同じものを見てもらい、鼻副鼻腔乳頭腫症例か、鼻腔ポリープ症例かを問い、正答率を評価した。

最も優れた診断モデル精度84.3％、経験6年以上の耳鼻科医を上回る結果

すべての診断モデルの中で最も優れた性能のものは、5秒間スコア分析を用いたアンサンブル予測による精度84.3％（感度81.0％、特異度87.6％）だった。

一方、耳鼻科医の診断精度は平均69.4％だった。また、学年が上がるごとに成績が上がる傾向にあり、6年目以上は、それ以下と比べて有意に高い正答率だった（6年目以上の平均正答率77.6％、5年目以下の平均正答率61.8％）。以下のグラフの通り、AIの精度は、耳鼻咽喉科医全体の平均だけでなく、6年目以上の平均正答率を上回る結果だった。

AIが正しく診断できなかった症例、機械学習された症例の偏りが原因

AIの精度が耳鼻咽喉科医の診断率よりも高かった原因を探るため、AIと耳鼻科医の診断精度が異なる症例を検討した。まず、耳鼻咽喉科医にとっては明らかな鼻副鼻腔乳頭腫の所見であるにも関わらず、AIが正しく診断できなかった症例があった。これは機械学習された症例に偏りが生じていて、典型的な所見の一つを学習できていなかったためと考えられる。次に反対に、AIがほぼ完璧に診断したにもかかわらず、耳鼻咽喉科医による正しい診断率が低い症例もあった。これは、AIが人間と異なる部位を認識しているためと考えられるが、AIの具体的な判断基準は不明である。このような症例には病変発見の鍵が隠されている可能性があると考えた。

今後は多施設での臨床研究や、対象疾患を増やして取り組む予定

今回の研究には症例数が少なく、診断率にも一部ばらつきがあった。この問題を解決するためには、前向き研究を行い、より多くの症例を、同様の方法で撮影し、精度を向上していくことが不可欠である。今後は多施設での臨床研究や、対象疾患を増やしていく予定であり、鼻腔内視鏡でさまざまな疾患のスクリーニングができるようになれば、健診や非専門医の診察にもAIを活用できるようになることが期待できる。

「鼻副鼻腔乳頭腫の鼻腔内視鏡動画を用いたAI予測の精度を検討し、症例数が少ないにもかかわらず、精度の高いAIを作成できた。このことは鼻副鼻腔乳頭腫の自動診断の重要な第一歩となると考えている。そして他の希少疾患に対するAI研究に光を与えるものであると考えている。今回の経験を生かし他の有病率の低い疾患に対する解析も行っていく」と、研究グループは述べている。（QLifePro編集部）

▼関連リンク
・東京慈恵会医科大学　プレスリリース