進化するクローズドキャプション

進化するクローズドキャプション
2022年6月13日 ninefield

 テレビリモコンの「画面表示」などのボタンを触ると、「字幕の切り替えメニュー」が用意されていることにお気づきでしょうか。表示メニューに切り替えると黒いベースに白地の字幕が現れ、出演者のセリフが表示されます。これが「クローズドキャプション」です。「字幕」というと、洋画のセリフを表示したり、ニュースやバラエティ番組などの画面上に表示されたりするスーパーやテロップなどのことを思い浮かべる人が多いと思いますが、それらは、「オープンキャプション」と言い、「クローズドキャプション」とは別物です。
 
「クローズドキャプション」を端的に表現すると、吹き替えなしの外国映画や、聴覚にハンデのある人のために、表示と非表示を切り替えることができる字幕です。これがあることで、テレビ番組を音声無しでも楽しんでもらうことができます。話者名や音情報が表示されるのが特徴で、最近は電車の中や病院内のモニターなど、音声が出せない環境での映像にも活用されています。今回は「クローズドキャプション」にスポットを当て、現状や進化の過程、さらには番組制作現場への応用などを俯瞰していきます。



 

 



「地デジ化」が後押しした普及

 そもそも「クローズド」とは、視聴者がリモコンやメニュー画面で「表示」を選択しない限り、キャプションが表示されないものを指します。これに対して「オープン」は、視聴者全員が見ることになる表示形式です。「クローズドキャプション」は元々、聴覚にハンデがある人のために1970年代の初めからアメリカで研究が始まりました。日本では、1990年代に研究がスタートし、90年代半ばには大相撲の決まり手を音声から認識できるレベルにまで到達しました。その後、2000年からニュース番組でアナウンサーが話している内容を対象に、音声認識システムを使って、自動的に字幕を入れるようになりました。しかし、地上波放送がアナログだった時代は「クローズドキャプション」を使うためには特別な機器が必要だったため、なかなか普及しませんでした。

 こうした現状に変化の兆しが見え始めたのは、2003年から始まった地上波放送のデジタル化です。もともと報道現場では、事故や災害の際、聴覚にハンデのある人へ避難情報が十分に伝わっていないのではないかという課題が議論されてきましたが、字幕受信機能を備えた地デジテレビが普及し、導入に際しての技術的なハードルが一気に下がりました。加えて、総務省が字幕放送のさらなる普及を目指すという目標を掲げたことから、取り組みは加速しました。今では、地上波で放送されているドラマや映画の場合、ほとんどの番組に「クローズドキャプション」が付いています。また、ニュースやスポーツなどの生放送の場合は「リアルタイム字幕」といって、映像と少し「ズレて」表示される字幕がついています。最近はNetflixなど、動画配信サービスでも映画やドラマ、バラエティなどさまざまなジャンルの日本語作品を字幕付きで視聴できます。このように、さまざまな環境下の視聴者すべてに情報を届けること、字幕放送はその有力な手段の1つに成長しています。

「クローズドキャプション」技術の現状

 生放送番組に字幕を付ける方式としては,長らく人手で字幕を付ける「タイピング」と呼ばれる方式が一般的でした。現在でも高速入力に適した特殊なキーボードを使って、人力で字幕を起こす方法が用いられていますが、人手を介した入力作業には限界があります。そこに登場したのが、音声認識システムです。ここ10年ほどはAI技術、具体的には深層学習の発展により、「リスピーク」と呼ばれる音声入力システムの性能が大きく向上してきています。これは、スポーツ実況や情報番組で、実際に放送されている音声を、別室でアナウンサーが読み上げ直し、専用機器に自動認識させる仕組みです。このように、字幕放送の拡充のために音声認識技術の研究開発は日々、進化しています。

 深層学習を重ねることで、より自然な表現も可能になっています。例えば、話し言葉ならではの言葉のつなぎ方などは、音声とそれに対応するテキストの組み合わせパターンを学ぶほど、文章として読みやすく書き起こされるようになります。具体的な例を挙げると、実際には「……と思うんですが」と出演者が話しているシーンでも、テキストでは「……と思いまして」と起こされるなど、話し言葉と書き言葉の修正を自動で判断できるまでに進化しています。

 ただ、AI技術がいくら発展しても、音声認識には誤りが含まれています。例えば、アナウンサーの話す言葉は比較的認識しやすいので、音声のクリアなニュース番組では自動音声認識の認識率はほぼ100パーセントですが、ノイズが多くなりがちな屋外でのロケや、情報番組でのフランクな話し言葉、さらには複数の人間が同時に言葉を発する状況では、やはり認識の難易度は高くなります。ですから正確な字幕作成はもちろん、生放送で生じる映像と字幕のずれを極力解消していくことが課題です。現に、本番の放送に載せるには、CM/VTR/提供などの確認、放送前に入手できるニュース原稿などから、漢字変換がスムーズに捗るよう登録する作業など、正確な字幕制作をするための事前準備が欠かせません。また、予算や人的資源に限りがあるローカル局の場合、「クローズドキャプション」導入は二の足を踏みがちですが、先述のように、災害などで、地域の情報をきめ細かく伝える必要性が増しているいま、ローカル局の番組に字幕放送を拡充することの重要性は論を俟ちません。そのためにも,AI技術のより一層の進化とシステム導入に関する価格の低廉化は、拡充の成否を握る重要なカギになるでしょう。

「音声テキスト化技術」のさらなる応用

 先述のように「クローズドキャプション」は、聴覚にハンデがある人を対象に、研究や開発が進められてきた経緯がありますが、最近はこの技術を活用して、いわゆる「テキスト起こし」作業への応用の可能性を探る動きもあります。テレビ報道の舞台裏では、取材内容を速く的確に番組へ反映させるために、撮影された映像素材に含まれる音声コメントをテキスト化し、関係各部署へ共有する工程があります。

 主にAD(アシスタントディレクター)の役回りですが、とにかく分量が多く、切迫するOA時間にストレスが絶えません。そのため、「テキスト起こし」が音声認識技術によって自動化できれば、制作サイドの作業負荷は大幅に軽減できます。その意味で、このシステムは正確さに加えて、速さや使い勝手も重要で、改良の余地は多々あるでしょう。ちなみに、従来の「テキスト起こし」とシステムを並行して活用したところ、「テキスト起こし」にかかる時間は従来に比べて、3割ほど減ったというデータもあります。もちろん、その結果として、番組制作の効率やスピードの向上、スタッフの省力化が実現し、番組そのもののクオリティが高まれば、視聴者に、より正確な情報が広く伝わるようになるでしょう。アメリカで「クローズドキャプション」の技術開発が始まってから、半世紀。地味ながらも着実に培ってきた技術は、「聴覚にハンデがある人」用という限定的な役割から、制作現場、さらには他のフィールドへと活躍の場を拡げつつあります。

テキスト:ナインフィールド
ディレクター 村松 敬太