2022.07.29(最終更新:2022.07.29)

マルチモーダルAIとは 実用例や今後の活用法について紹介!

「マルチモーダルAI」とは、複数の入力情報をもとに処理を行うAIを指します。

米調査会社ABIリサーチによると「マルチモーダルAI」を搭載したデバイスの出荷台数は、2023年に約5億1412万台になると推測されています。

当記事では、注目を集める「マルチモーダルAI」の歴史や現在の活用シーン、将来の活用に関して紹介します。

マルチモーダルAIとは

「モーダル」とは入力される情報を指し、入力文字(テキスト)・音声・静止画・動画などがあげられます。

いままでのAI(人工知能)は、画像のみ・テキストのみを学習して処理を行うなど、一つのモーダルから得た情報をもとに学習し処理を行ってきました。これを「シングルモーダルAI」と呼びます。

この「シングルモーダルAI」に対して、複数のモーダルからの情報を組み合わせて学習し処理を行うAIを「マルチモーダルAI」と呼びます。

マルチモーダルの事例として、人間をはじめとした生物があげられます。

人間や生物は、視覚・聴覚・触覚・味覚・嗅覚などの五感からの情報を組み合わせて、あらゆる判断を行います。

人間が相手の話の意味を読み取るときには、音声からの情報だけでなく聞き取れなかった音声は唇を観て補完し、表情やジェスチャーなどの視覚情報を組み合わせ相手の気持ちを推測して伝えたいことの意味を理解しています。

複数の情報(モーダル)をもとに学習し処理を行う「マルチモーダルAI」は、より人間に近い判断ができるAIと言えるでしょう。

マルチモーダル学習の歴史

マルチモーダル学習の歴史は、1986年頃から始まりました

「lip reading」いわゆる読唇術。音声と唇の動きの画像を組み合わせ、内容を読みとる研究です。

2013年に行われた「Expressive Visual Text to Speech」は、テキストの入力情報に対して内容を理解し、画面内の人間の表情変化と音声で感情を表現することに成功しました。

これはユーザーの入力したテキスト情報をもとに、内容が適切か不適切かを判断し、画像内の人間の表情が怒ったり、喜んだり、感情を表現しながら話す仕組みです。

その後も「Audio-Visual Emotion Recognition」と呼ばれる音声と画像の両方の情報を分析して、人が怒っているのか、悲しんでいるのか、喜んでいるのかを判断する研究などが進んでいます。

現在は、AIもディープラーニング技術の進化に伴い大きく進化しました。この進化したAIとマルチモーダル学習を組み合わせることで、さまざまな産業分野のサービスが生み出されています。

活用が進むマルチモーダルAI

「マルチモーダルAI」は、既に多くの分野で活用が進んでいます。この章では事例を紹介します。

フリマアプリの出品物の確認

身近な例として、個人の持ち物を売買できるフリーマーケットアプリでの活用があります。出品者が出品した商品を「マルチモーダルAI」が商品の説明文(テキスト)と商品画像2つの情報を組み合わせて分析し、違法や不適切な商品が売買されていないかを確認しています。

自動車の自動運転

自動車の自動運転技術は、複数の情報を処理する「マルチモーダルAI」の特徴的な事例と言えるでしょう。カメラから得られる情報はもちろんのこと、ミリ波センサーや加速度センサーからの情報、GPS、これら複数の情報から状況を判断して処理を行っています。

動画プラットホームの監視

動画プラットホームにも「マルチモーダルAI」が活用されています。ユーザーが投稿した映像と音声を組み合わせて意味や意図を分析し、不適切な内容でないかを確認しています。

産業用ロボットでの活用

産業ロボットの分野でも「マルチモーダルAI」が活用されています。

株式会社デンソーウェーブは「2017国際ロボット展」のブースにて、マルチモーダルAIロボットアームを公開しました。カメラからの画像・角度・速度・力覚などの複数のモーダルを組み合わせて判断し、ロボットアームを動かしてタオルの折りたたみや、サラダを盛りつけるなどの繊細な作業を行えます。

マルチモーダルAIの今後の活用法

「マルチモーダルAI」の活用は大きな可能性を持ち、今後も広がっていきます。その事例を紹介します。

ロボットが職人の技術を再現

これまでは人間の職人にしかできなかった技術を、映像や触角、聴覚などを情報化し「マルチモーダルAI」が学習することで、職人の技を再現できるようになります。

医療分野での活用

音声や顔の表情、複数の生体データから「マルチモーダルAI」が適切な診察をすることが期待できます。

スポーツ分野での活用

選手にセンサーをつけて生体情報や位置情報を採取し、映像の情報を組み合わせて試合の分析や選手のパフォーマンス分析を「マルチモーダルAI」が行います。

アートやエンターテインメント分野での活用

人間が入力した情報を基に「マルチモーダルAI」が画像や音楽を組み合わせて映像作品を作成するなどの、アートやエンターテインメント分野での活用も期待されます。

AIアシスタントでの活用

また最近では「マルチモーダルAI」をAIチャットボットに活用する動きもあります。Meta Platforms, Inc(旧: Facebook, Inc.)では、メタバースの世界でデジタルアシスタント開発プロジェクト「CAIRaoke」を進めています。

このAIアシスタントは「一人称視点」であることが特徴です。視覚情報や音声情報、位置情報、過去の行動履歴などのモーダルから、その人の状況を理解し適切に返答します。

例えば、ARグラスを掛けた人間がキッチンで料理をしているときに、AIは「何の料理をしているのか」「手に持っている食材は何か」を理解し、食材の切り方やその人の好みの調理方法までアシストします。

日本ではNTTが提供するバーチャルサロン「DOOR」にて、「マルチモーダルAI」を活用したアバターによる受付対応を行っています。

バーチャルサロン「DOOR」のアバター

このAIアバターは、NTTレゾナントが開発したAIアルゴリズムAPIサービス「AI suite」を利用し、音声、映像、言語(入力)の複数の情報から、相手の感情をAIが推測し、相手の感情にあわせたより人間らしい対話を実現しています。

将来は「マルチモーダルAI」を用いたAIチャットボットが、映像や音声や行動履歴などを基に、ユーザーの心情に寄り添ったカスタマーサポート、商品やサービスのレコメンドを実現するでしょう。

まとめ

AI技術の発展に伴い、あらゆる業界で活用が進んでいます。今回ご紹介した、複数の入力情報をもとに処理を行う「マルチモーダルAI」のように、今後はより人間らしい思考や認識をするAIが拡大すると予想されます。

従来のAIでは判別困難な処理も「マルチモーダルAI」であれば適切に対応できるものが増えていくでしょう。特に「人間らしさ」が求められるカスタマーサポート領域やオンライン上のレコメンド対応での活躍が期待されています。

今後さらに発展したAI技術の導入を検討されている方は、ぜひマルチモーダルAIの活用を検討してみてはいかがでしょうか。


*******


NTTレゾナントでは、マルチモーダルAIを実現する音声認識AI、感情認識AI、映像認識AI等のさまざまなAI技術をAPIとしてご提供するAPI群「AIsuite」を提供しております。ヒトの知性・感性を踏まえたコミュニケーションの実現を支え、クライアント企業様の目的とするAIサービスを迅速に構築することができます。
「新たなAI事業にチャレンジしたい」、「顧客との良質なコミュニケーションを図りたい」といったご要望がありましたら、是非お気軽にご相談ください。