【連載コラム 第30回】辛酸なめ子の英語寄り道、回り道
Googleの「AI Now」で日本のお笑い文化に期待
「Hi everyone! Welcome to AI Now!」そんな軽快な呼びかけではじまったGoogleのオンラインイベント、「AI Now: Languages」。アジア太平洋地域のメディアを対象に、 Google のAI に関する最新事例を紹介する、という貴重な機会に参加させていただきました。テーマは「Language: 言語」。LLM(大規模言語モデル)がインド、東南アジア、日本などでどのように活用されているか、各国のスピーカーが紹介します。

まず司会の方が登場し、参加者にアンケートを呼びかけました。
「If you speak more than one language, please let us know how many with one of the following emojis.」
選択肢は、2言語話せる人は「サムズアップ」、3言語はハート、4言語以上はクラッカー。わたしは2言語話せるとはとても言えないので、サムズアップやハート、時々クラッカーが流れるのをただ眺めていました……。
今回のオンラインは英語オンリー。同時通訳も字幕もないので、Googleのスマホ、Pixelの自動書き起こしと翻訳アプリを駆使してなんとか解読しました。
といっても言語以前の問題かもしれません。意識の高さにも明白な差が……。言語翻訳とAIに関する専門家の方々がスピーカーをつとめるこのイベント。最初に登場したのはインドのAmritaさんという女性と、Prasantaさんという男性。2人とも見るからに有能そうです。
まず、インドでのAIを使った多言語への取り組みについて紹介。
Project Vaani: Building India’s Largest, Most Diverse, Multimodal Open Data Corpus
-Targeting 156K hours of speech, ensuring representation across demographics, regions, and linguistic variations.
-Rigorous data collection protocols, multi-pass transcription, and validation processes.
プロジェクトVaani:インド最大の、最も多様な、マルチモーダルオープンデータコーパスを構築
-15億6000時間分の音声収集を目標とし、人口統計、地域、言語のバリエーションを横断的に反映。
-厳密なデータ収集プロトコル、マルチパス変換、および検証プロセスを実施。
「マルチモーダルオープンデータコーパスを構築」そして「マルチパス変換、および検証プロセス」とは……?
和訳しても難易度が高いです。調べたら「マルチモーダル」とは、テキスト、画像、音声、動画、センサー情報など、2つ以上の異なる種類のデータを組み合わせて処理するAI技術のことらしいです。
インドには推定1300以上の言語があり、マルチモーダルを実現するのは容易ではないとのこと。インド系言語の音声認識アプリケーションの開発は必要不可欠なものだそうです。
多数の人々の尽力により、86のインド言語について音声データなどがすでに公開。インド全域、773地区をカバーするのが最終目標だそうです。とても意義深く世の中のためになるお仕事だと感じ入りました。
続いてシンガポールのMukherjeeさんという女性と、Williamさんという男性が登場し、 東南アジアの最新のAI活用事例について紹介しました。
11カ国、約6億5000万人が暮らす東南アジアでは、4人に3人はAIの変革の恩恵を受けていないそうで、この状況を改善したいという志の高さを感じます。
東南アジアにおける他言語データ収集プロジェクト「SEALD」を紹介。文化的アイデンティティや地域性を大切に扱っているとのことで、良心を感じます。言語のオープンデータプラットフォーム「Aquarium」の構築も進められているそうです。東南アジア全域にコミュニティを拡大し、持続させることが目標とのことで、遠くから応援したいです。
最後のスピーカーは吉本興業のチャド・マレーン氏。オーストラリア出身の芸人さんで、翻訳家としても活躍しています。日本の「OWARAI」は、ゲームやアニメに続くポップカルチャーとして世界に発信できると確信し、グローバル化する方法に取り組んでいます。日本の文化に慣れ親しんできたチャドさんの英語は気のせいか聞き取りやすいです。
チャドさんが関わっている、吉本興業とGoogleが共同開発する字幕AI「CHAD 2」は、日本のお笑いのデータを学ばせることで、芸人のコントに自然な字幕が生成されるという画期的なシステム。日本のお笑いが世界中の人に理解され、さらに広がっていくのが目標だそうです。「OWARAI」は「Manzai」「Ippatsu-gei」「Konto」「Rakugo」「Oogiri」「Reaction」「Rhythm Neta」などにジャンルわけされ、それぞれの分野の専門家が集結、AIにデータを学ばせてトレーニングします。今は社内利用のみですが、YouTubeチャンネルで10組ほどの芸人さんがこのシステムを活用しているとのこと。
ふと、お笑いデータをどんどんインプットするうちに、AIも笑ったりするのかと思い、GoogleのGeminiに「AIも笑うことはありますか?」と聞いたら「AIには感情がないため、人間のように笑うことはありません」と、素っ気ない返答が。淡々と仕分けし、翻訳しているAIの姿を想像すると逆におかしさが漂います。
日本のお笑いが海外でブレイクするにはいくつかの障壁があります。「日本のユーモアはハイコンテクストであり、外国人には理解しにくいニュアンスや言及に頼っている」という点と、「英語を話す人が少ないため、大きな言語の壁があり、コンテンツのアクセシビリティ(様々な利用者が製品やサービスを支障なく利用できる状態)が妨げられている」という問題。日本国内の文化や生活スタイル、ニュースなどを知らないとついていけない場合があります。そして字幕も、ジョークを自然かつ完全に伝えるために、非常に正確なタイミング、言い回し、表現が必要とされます。ただのセリフの英訳では伝わりません。
サンプルとして、コントの動画も流れました。 COWCOWの名作コント「極道の息子の反抗期」です。極道の父親は息子が同じくグレて極道の道を進むことを期待していましたが、反抗期で逆に模範的な良い子になってしまい、大学受験のための勉強に励みだす、という展開。「親孝行やめなさい!」という親の願いに逆らい、どんどんまじめになっていく息子。
見ているとこんな字幕が。
「大学に進学するつもりか?」は「You planning to go to college?」
「昔みたいな不良に戻ってくれ!」は「Go back to being a delinquent like you used to be!」
といった風にテンポ良く進んでいきました。わかりやすくて海外の人にもおもしろさが伝わりそうです。
意識が高い前半のプレゼンで緊張感が高まったところ、後半のコントの字幕で笑ってリラックスできました。難解な英語の専門用語は理解できなくても、日本のお笑いのテンポや間がわかれば良いということにしたいです。
