Bright!FRONTEO Official Blog

Bright!FRONTEO Official Blog

人間 with AI 体験の提供とコミュニケーション

2021年8月10日

≪目次≫
1. 「研究しようとしてもつかみどころのないのがゲームAI」三宅氏
2. シンボリズムとコネクショニズム
3. 「僕の予想では、2030年までのどこかでそれが起こる」三宅氏
4. 身体表現とゲームAIの共通点
5. 「理想はファンダメンタルな運動生成機能があって、その上に個別のモーションを載せたい」三宅氏
6. ゲームAIのアウトプット
7. 人とAIとのコミュニケーション



「研究しようとしてもつかみどころのないのがゲームAI」三宅氏

FRONTEO CTO武田 秀樹(以下、武田) 最近、三宅さんの論文*が話題ですよね。ゲームAIの歴史が包括的に書かれていて、あれを読んだら、ゲームAIの流れが、歴史書を読んでいるように分かって面白いと思いました。

立教大学大学院人工知能科学研究科 特任教授 三宅 陽一郎様(以下、三宅) 産業からデジタルゲーム分野の論文というのはそんなに多くありませんので、前提知識の説明として、この分野のオーバービューを含めています。論文って普通、もっと狭く探索するものですが、多くの方に馴染みのない分野だと思い、丁寧に本分野の全体像を説明した上で本論に入っています。

武田 たしかに、範囲が限定的なものが多いですよね。

三宅 はい。ただ、デジタルゲームAIは現状まだ整備されていない分野ですので、整理しつつ書いた結果、包括的な内容になりました。賞を頂いた理由も「ゲームに馴染みがない分野の読者にも分かりやすいように概念がまとめられている」という点がありました。これからの貢献を期待されてのことだと考えています。それくらい研究しようとしてもつかみどころのないのがデジタルゲームAIで、ゲーム産業内で何をしているのか、外からはなかなか分からないんですよね。中にいても情報が混沌としていて、僕も15年前、ゲーム産業に入ったときは霧の中にいるようで何も分からなかった。だから、今回、まとめると同時に一般的な理論を作って、かつそれにタイトルに応用した事例を作ることで、こういう分野があって、そこにはこういう理論があるんだということを伝えたかったんです。そこにプラスして、三宅はこういうことを一般論だと思っているんだなということが伝わればと思っています。いろいろな研究テーマがありますけど、デジタルゲームAIをやろうって言う人は多くありません。やりたい人は多くても、なかなか指導できる人が少ない、という理由もあります。日本の大学では、数個の研究室を除いて、ほとんど研究されていない。囲碁、将棋、チェスは明確なルールがあるので研究しやすいんですが、デジタルゲームはまず自分で作るか、市販のゲームを持ってくるしかない。デジタルゲームは、それっぽいものは作れるんですが、本物を作るとなると難しいので、アカデミックでは研究を進めるのに最初から力がいります。

立教大学大学院人工知能科学研究科 特任教授 三宅 陽一郎様

武田 意外な気もします。プレイヤーの数は多いですよね。

三宅 おっしゃる通りです。

武田 そこから想像すると、研究している人の数もそこそこいるんじゃないかと。そうでもないんですね。

三宅 実は世界的には結構いて、北欧がひとつの拠点となっています。デンマークを中心にオランダ、スウェーデンはゲームAIの研究所をもつ大学があります。コペンハーゲンIT大学のゲーム研究所は有名です。もう一つの拠点は北米です。サンフランシスコはゲーム産業自体も盛んで、南カリフォルニア大学などと共同研究をしていますし、スタンフォード大学が早くからゲーム研究をしています。東海岸ではMITが最も早く90年代にデジタルゲームの研究を始めました。日本ではデジタルゲームはサブカルチャーとして扱われる一方、海外ではコンピューターサイエンス&アートという分類がされているので、かなり立場が違うんです。1995年くらいのゲームAIの初期の頃こそ、海外でも「テレビゲームなんて」という扱いでしたが、3Dゲームが出てきてからは単にピコピコするものではなく、高度なコンピュータ・シミュレーション空間という捉え方がされるようになり、コンピューターサイエンスの文脈の上でゲームAIを研究しましょうという流れがMITを中心に起こりました。日本ではかつて「テレビゲームの研究が世の中で役に立つのか」という意識が強くありました。しかし、テレビゲームが出始めた80年台に子どもだった方々が、大人になり今なおテレビゲームを遊ばれるので、ゲームに対する意識も少しずつ変わっています。今回の受賞もそういったデジタルゲームが世の中やアカデミックの中に受け入れられてきた世相を反映しているのかなと思います。今では輝かしい囲碁や将棋のAI研究でさえ風当りの強い時代がありましたから。

*「大規模 デジタルゲームにおける人工知能の一般的体系と実装 -FINAL FANTASY XVの実例を基に-」
2021年6月21日に一般社団法人人工知能学会「2020年度人工知能学会論文賞(JSAI Best Paper Award 2020)」を受賞
https://www.jstage.jst.go.jp/article/tjsai/35/2/35_B-J64/_article/-char/ja/


シンボリズムとコネクショニズム


武田
 囲碁といえば、直近で言うと第三次AIブームの囲碁AI「アルファ碁」はひとつ大きな転換点になりましたよね。わたし、デミス・ハサビス氏(DeepMind社CEO)のやったことについて思うことがあるんです。あれってディープラーニングを使って人間の強いプレイヤーを負かしたという、AIとしての知能の向上、という観点のみが強調されているんですが、彼って元々チェスプレイヤーで碁そのものでは無いにしても、ボードゲームについての深い洞察を持っている人なんですよね。ドメインを知っている人がAIをやっているという側面がある。だけど、ディープラーニングに触れている記事はよくあるんですが、ドメインを知っているからこそっていう文脈の話はあまり出てこないんです。それは不思議だなと思ってたんですよね。

FRONTEO CTO 武田 秀樹

三宅 そうですね。人工知能の中には、シンボリズムとコネクショニズムというのがありますが、シンボリズム=記号主義の方はドメインの知識、つまり、ルールベース、ナレッジベースなどを直接人間が埋め込む必要があります。囲碁はどちらかというと、ディープラーニングと評価学習とモンテカルロシミュレーションが組み合わさっているもので、全てシミュレーション技術なんですよね。フレームはあるのだけれども、その中で自動学習していく。人間の知識はほとんど入っていない。囲碁をそんなに知らなくてもある程度の研究ができるんです。囲碁のプレイヤーだった人が研究をしたとして、その知識は直接そんなに影響していなくて、むしろAIから再発見するような感じだと思います。ハサビスさんはチェスプレイヤーでしたが、大学では脳行動科学を研究していて、有名な論文を発表しています。そういう経歴の流れでAIにたどり着かれたようなんですよね。

武田 シンボリズムとコネクショニズムはゲームAIの中ではどのように扱われているのでしょうか。

三宅 今ゲーム産業は、武田さんがおっしゃるようなドメインに特化した知識を埋め込むかたちでゲームの人工知能ができ上っています。製品版のゲームAIはほとんどがそのパターンです。というのも、製品と研究は違って、製品には責任が生じるので、どういうロジックがあって、調整ができて、品質向上できるという保証が必要なんです。シンボリズムはルールを増やして、ドメイン知識を入れていけば、品質が上がるという仕組みです。中に何が入っているかが分かっていて、評価値も制作者がコントロール可能。ニューラルネットワークをはじめとするコネクショニズムの場合は「入力から出力までアルゴリズムよろしく」というもので、カスタマイズや品質コントロールができないブラックボックス。これを製品として出荷できるかという話なんです。その品質保証の研究は全然進んでいないんですよね。アカデミック分野の人は、とにかく人間より強くなればそれが成果になるのですが、製品の場合はユーザーが楽しめて、品質をコントロールできて、何かあればデバッグできるという保証が必要です。今はそのような品質保証はシンボリズムでないと実現できないので、これからはコネクショニズムでもコントローラブルで保証が可能なものを作るためにどうしたらいいかという研究が必要です。しかも、エンジニアでない人がコントロールできなくてはならないんですよね。ルールベースならデザイナーのデータ入力でコントロールできるんですが、コネクショニズムでは学習したニューラルネットワークについて改善が必要か、十分な品質かを判断する必要があります。そこまで発展して、ようやく産業に応用できるんですが、産業からアカデミック分野へもその研究のニーズを伝えられていないということも研究が進んでいない原因かもしれないですね。
「AlphaGo」のあと、DeepMindが「Starcraft2」というゲームで、OpenAIが「Dota2」というゲームで、それぞれAIが人間の学習時間にして150年分くらいを学習して人間に勝ったという発表がされましたが、研究はやはり「いかに人間を超えるか」で、我々産業側からすると「そこじゃない」感はあります。でもその勢いに押されちゃうんです。


「僕の予想では、2030年までのどこかでそれが起こる」三宅氏


武田
 その押されている状況で、産業側からの回答はなされているのでしょうか。

三宅 産業側も二つに分かれています。AI技術者の半分は「ディープラーニングはゲームにおいて使い物にならない」という意見、もう半分は「時間をかけてゲーム産業に慣らしていかなくてはならない」という意見です。後者は、まずはゲームの中ではなく開発工程にAIを入れようという取り組みをしています。例えば、クオリティアシュアランスをする自動プレイのAIが研究されています。テスターをAIに置き換える研究なので、最悪クラッシュしても問題ありません。そういう現場でまずは使ってみて、リアルタイム性を必要としない、メモリやCPU・GPUもふんだんにある状況でまずは導入しようという流れがあります。製品版として組み込むのはまだ早いということで。製品でないところで試されているものを参考にしながら、慎重に進められています。

武田 なるほど。プレイヤーに近い側の方に導入が進んでいるのはおもしろいですね。

三宅 おもしろいけれど、一方で、ゲーム産業以外の方が、ゲームにディープラーニングを積極的に取り入れている状況に比べると、なんとなく置いてけぼり感もありますよね(笑)

武田 三宅さんとしてはもっと取り入れたいという感覚ですか?

三宅 取り入れたほうがいいと思います。産業のニーズは産業内でしか分からないので、外部から研究成果を取り入れようとしても問題のポイントがずれてしまう。リアルタイムで用いるニューラルネットワークを取り入れるなら、取り入れるなりのニューラルネットの使いこなしかたがあると思うんですよね。ニューラルネットって00年代ではゲーム産業のブラックテクノロジー=黒魔術と呼ばれていて、何層にすればいいかもわからないし、デバッグの保証もないから使うなと言われてきたんです。でもディープラーニングが流行って、敷居が低くなってきて、もうさすがにニューラルネットを使わざるを得ない状況です。しかし、ほっといたら入るかというとそうではなくて、積極的にゲームに取り入れていくチャレンジをしなくてはいけない。長いスパンで見ると、ゲームAIは、今のシンボリズムからゆっくりコネクショニズムに変換していくんだと思うんですが、それがある年を契機に「がらっ」と変わるはずです。僕の予想では、2030年までのどこかでそれが起こると考えています。何が契機になるかはわからないですけど、GDCというカンファレンスが技術指標になっています。そこで発表されるゲームAI技術がある年には全部ディープラーニングに変わっているかもしれない。最初の転換点を誰がやるかも問題で、境目で勝つということが重要になってくる。ゲームカンパニーは、オンラインゲームなんかのときもそうですが、技術力でユーザーを惹き付けてきた歴史があるので、「この企業のAIすごいね」となったら、向こう10年はそれでブランディングができちゃうんですよね。みんな狙っているけど、難易度が高い。技術的に入れるだけならそれほど難しくないかもしれませんが、アーティストやゲームデザイナーを説得した上で開発環境を作って進める、というのが難しいですね。



身体表現とゲームAIの共通点


武田 話は変わりますが、三宅さんの論文を読んでいてイメージしたことがあるんです。わたしコンテンポラリーダンスが好きで、若いころは振付家になりたかったんですよ。

三宅 結構変化が激しいですね(笑)。

武田 20歳のころは本気で目指していたんですよ(笑)。ウィリアム・フォーサイスという有名な振付家がいて、二進法バレエ(Binary Ballistic Ballet)とかを提唱した人です。彼がおもしろいのは、身体表現と言語が対になったモーションの辞書のようなもののデジタルアーカイブを作っていて、それをダンサーに学習させるんです。学習して、身体表現におとした「言語」を使って、ダンサーに会話させるっていうことをやっているんです。ジャズのように、セオリーはあるけれど自由度もあるというか。明確にスクリプトがある群舞や、自由な会話をするパートが組み合わさって一つの作品になっています。それとゲームAIの話が私の中でリンクしたのですが、そのような振り付けの在り方と、ゲームの中でキャラクターがAIによってストーリーに沿って動いたり、条件によって動いたりするような構造は近いのじゃないかと思ったんです。

三宅 それはどういう単位なんですか?アルファベット1に対して動きが決まっているんでしょうか?

武田 いくつかバリエーションがあるのですが、例えばアルファベット~センテンスですね。

三宅 どの位置でどの単語をというのが決まっている場合と、自分で組み合わせてやる場合とあるんですね。確かに、キャラクターの動作単位と似ていますね。キャラクターAIって特にシンボリズムの場合は、ひとつひとつのモーションを示すのは離散的なシンボルなんですが、アニメーションというのは連続的なシステムなので相性が良くなくて、その離散と連続の接続が最も難しいところなんです。離散的な動きの辞書があって、それを連続して行う場合に、その繋ぎをどうするかとか、障害物があった場合に、弓が引けなくて一歩下がって引こうとしたら、谷から落ちましたというようなことが起きたりもします。連続と離散をどうつなぐかこれはいまだによい解決が見つかっていません。これは哲学でいうと心身問題ですね。

武田 デカルトの。

三宅 はい。人間が例えばペットボトルを取るという動作をする場合、腕を伸ばすとか間の動作は人間が勝手につないでいますけど、この能力は実はすごく高度な能力です。我々は無意識につないでいるので、どうやっているかという分解が難しい。意思決定に紐づかないから、意識の問題ではない。意識に紐づく動作はシンボルでやれるんですが、そうではない。バレエもスクリプトでやれるんだけれど、その間の動作を人間が勝手につないでくれるから成立しているんでしょうね。

武田 そうです。そうなんです。身体側からの制限が勝手に繋がりを実現してくれる、というか。

三宅 キャラクターの場合はその繋ぎを作らないといけない。


「理想はファンダメンタルな運動生成機能があって、その上に個別のモーションを載せたい」三宅氏


武田
 繋ぎのところをどういう風にデザインしているのか、すごく興味があります。

三宅 実はすごく大きな問題で、動作の連続を保証するのはアニメータなんですが、動作と動作の間のモーションをブレンドしていくグラフがあるんです。座っている状態から立つまでを、「座る」動作の割合、「立つ」動作の割合をコントロールして作っています。そこにモーションの気持ち良さがかかっています。ちなみに、この感覚って海外のアニメーションと日本のアニメーションでは違いがあって、海外のものはもっさりとした印象があるけれど、日本はパパっと速いものが多いです。リアリズムと歌舞伎といっていいかもしれない。ユーザーがコントローラーでキャラクターとインタラクションしたときの感触に大きな違いが出てきます。リアリティを重視すると、どうしてもゆっくりになるんですが、ゲームとしてのインタラクティビティは速い動作の方が高いです。動きの滑らかさの担保はアニメーションでやって、「立ってください」「座ってください」という指示はAIでやっています。さすがにアニメーションが担保できないものもありますけどね。はしごを上ってるのに「キックしてください」という指示をされてもはしごから落ちてしまう、とか。それをどう解決するかは難しいところなんです。よくやるのは多層構造にするという手です。意思決定とアニメーションの間に複数のレイヤーを入れていくんですが、いろいろな問題を解決するため何層も増えていってしまう。それぞれが個別の調整をしています。現状はそうですが、本質的な解決はそれではないというのはあります。AIって動きを単体で定義しちゃうんですよね。先程のバレエと同じように。動作を縦切りにしてしまうので運動生成機能というものがないんです。あるのはつなぎだけ。人間というのは「バランスをとる」「位置を調整する」「からだを動かす」など4段階くらいの運動生成機能があるんだそうです。ジェネラルな動きを作る機能が人間には備わっているんですね。それがAIやロボットではできないから、モーションを上から定義しているのですが、理想はファンダメンタルな運動生成機能があって、その上に個別のモーションを載せたい。長いスパンで目指すべきは、この運動生成機能を作るところなんです。アニメーションというモーションキャプチャーデータを付与するのではなくて、AI自身が動きを生み出していかないといけない。それが、なかなか難しいですね。実際、アカデミックではSIGGRAPHを中心にいろいろな研究が進んでいて、これが実現できると「敵がいる」と分かったときに、AIが自分で判断してそこまでスライディングするなど、オブジェクトとのインタラクションをなめらかに表現することが可能になる。これは、固定モーションではできないんです。極めて面白い研究です。

武田 「運動を生成する」って表現するんですね。

三宅 そうですね。モーションプランニング、モーションジェネレーション、プロシージャルジェネレーションなどと呼ばれています。結局AIってアウトプットが何かによって知能の賢さが変わるところがありますよね。ジャンケンするだけでよいのなら、グーとパーとチョキだけ考えていればよいわけですから。しかし、いろいろなアウトプットが必要になると、それに応じてAIが考えなくてはならないことも増えます。この先多様性が出てきたらAIの方も意思決定のレベルを上げなくてはなりません。


ゲームAIのアウトプット


武田
 何をアウトプットとするのかというのは、どんな機能がAIに求められるのかという点において、重要なポイントになりますよね。ゲームの場合、動きに特化すると、モーションジェネレーションがアウトプットになってきますが、もっとメタ的にみるとゲーム自体は遊びの要素があることや、ユーザーが楽しめることがゴールとしてあって、それら全てがアウトプットだとすると、多層構造になっていますよね。その中で、ゲームAIのアウトプットは一義的には何だと思いますか?

三宅 ゲームも歴史があり、徐々に変化していると思いますが、基本的にはユーザーが楽しめるループというのがあるんです。例えばチャンバラという動きがあるとして、それが1秒くらい楽しめる。ずっとやってても楽しいかというとそうではなくて、その先に相手を倒すというイベントがある。それで約1分間楽しめます。バッタバッタと敵を倒し続けていてもそのうち飽きるので、レベルを上げてあげる。レベル上げに疲れたら船がもらえて、次の大陸に行ける。それで30分間の楽しみになる。ゲームっていうのはこのように時間階層の楽しみを用意しておくんです。昔の単純なゲームは、ジャンケンポン!のようなものから始まって、80年代にはチャンバラができるようになって、そのうち経験値という概念が生まれるなど、複雑なゲームシステムに進化してきました。その後グラフィックが進化して、インタラクティブストーリーが出てきて、という風に1秒、1分、30分、3時間、10時間…と時間スケールごとに楽しみを作っていく、それをコントロールするのがAIです。身体動作のキャラクターAIは1秒の楽しみ、ゲーム全体をコントロールするメタAIがロングスパンの楽しみを司っていて、迷ってきたなと思ったら出口へ導いたり、飽きてきたなと思ったら新しいシーンを用意したりというように体験を担保する、その両極からユーザーを挟みこんでユーザーに応じた楽しみを提供するのがゲームAIの使命だと思っています。

武田 お話を聞いて、我々のAIの適応領域と比較してどうだろう、と思ったのですが、FRONTEOの場合、文書を読んで判断するという、弁護士などのプロフェッショナルの業務を代替したり支援したりします。例えば弁護士が裁判で証拠を見つけるときに、読んで判断しなくてはならないドキュメントがたくさんあるので、少量の文書について一定数の判断をした上で、その判断をAIに学習させます。その後、大量の残りの未判断ドキュメントについて学習済みモデルを適用して、人間の代わりに判断させるというものです。ドキュメントを読むという行為は、数分で1ドキュメントという時間の単位ですが、これらの判断は弁護士が長年培った業務知識や経験という数年単位の経験が背景にあります。また、このようなAIは、不正や訴訟が発生した場合の有事調査と、不正行為や訴訟につながるような問題が発生するかを平時において観測する、監査などに活用されていますので、監査で言えば毎日のチェックや週次・月次といった単位になりますし、有事であれば、数年に1度あるかどうかという長い時間軸になります。ゲームAIのように秒から何時間という多階層のイベントをAIがハンドリングをするという構造と同じではないですが、そのような時間の概念がゲームAIにあるというのが、示唆的でおもしろいと思いました。

三宅 時間とは少し違いますが、スケールの階層構造は似たところがあると思います。スケールに応じたサポートの仕方があると思うんですが、ゲームでは空間情報を解析するスパーシャルAI(Spatial AI、空間AI)もあって、空間に応じてナレッジを用意するAIです。ゲームは時間と空間との多層構造になっていますが、FRONTEOさんのAIが対象としている専門家の知識ということでいうとそこに、専門領域という階層もあるのかなと。


人とAIとのコミュニケーション


三宅
 現代社会はどんどん複雑化していて、身体とは別のところにナレッジが積み重ねることができるので、時間というものはかなり抽象化されたと思っています。ゲームAIの最大の特徴は①リアルタイム、②インタラクティブ、③身体がある、という3点です。特に、身体を持っているということが何を意味するかというと、人間と同じ時間と空間を連続的に体験するということなんです。つまり、身体を持つ以上、世界に巻き込まれているし、時間の流れを受けざるを得ない。それで、ゲームAIには時間という要素が入ってくるんです。身体動作を伴うものについては時間の階層性というものを設計することになります。テーマパークなんかもきっと時間階層ごとの体験が計算されていると思います。一方、現代の大抵の仕事は抽象化されていて、時間という概念を除いたところでナレッジが深く階層化されているんです。ドメインごとに知識の階層的構造があって、それに対してAIが個別の専門領域でサポートするという役割を担っていくと思うんです。ゲーム開発自身もゲーム開発者の領域もAIに渡していけるんじゃないかと思っています。AIだけでもゲームが作れるのがいいと思っていて、それを監督するのが人間であるべきと考えています。

武田 人とAIとのコミュニケーション方法も専門領域によって様々ですよね。伴走するのか先を走るのか。

三宅 そこには二つ課題があると思っていて、人間①とAI①がインタラクションして人間をサポートするというのが理想ですが、それは今のところ実現できないと思います。AIが人を理解するのはとても難しいですし、AIの中身にあるものと人間の中身にあるものがあまりにも違いすぎるので。AIはそれ以外の方法で人間をサポートしなくてはならないのが現状です。「人間を理解する」という言葉の定義を変えなくてはならないと思うんです。「協調する」というのが一番しっくりきますね。協調する場合は、必ずしも全てを理解する必要はありません。ある作業の中で必要な情報を渡す、先回りして対応するなど、人間とAIがうまく協調できたとして、それはその仕事の中での人間を理解していると考えられます。「それぞれの課題のなかで協調する」=「人間を理解する」というのが、これからAIがやっていくことですね。

ただ、そうするとそれぞれのフレームごとにAIを用意しなくてはならない、これが次の課題です。Aという仕事にはこのAI、Bという仕事にはこのAIと、マルチエージェント的なサポートになってきます。家であればお掃除ロボット、お料理ロボットが単体でいるんだけど、それを管理するのが人間ではなくて、管理するAIが必要だと思うんです。全体を管理するAIがあって、そこに個々の作業をサポートする複数のAIエージェントが存在し、人間を囲うようにサポートしているという図です。こういうものがこれからの形になるんじゃないかと思います。

武田 我々の領域は特定の知的判断にAIを使うという絞り込まれた目的の中で使われているというケースがほとんどです。インタラクションが人間的である必要がない領域です。ただ、AIで下された判断というのは、世界でも徐々に受容されつつあるものの、例えば訴訟や裁判の場において、AIだけで大丈夫なの?という感覚はまだまだ一部には根強くあります。そうするとAIの結果に対して、人間が説明しなくてはならない。我々のようなAIベンダーも説明可能なインタラクションを用意することが必要となってくる。「取り扱う不正や訴訟に関連する文書がAIによって一定以上の数発見された。その証拠性はどのようにして担保されるのか」という問いに対するインタラクションです。例えば我々はこれを統計的に有意である、という事で説明し、アプリケーションのUXに盛り込んでいます。人間の仕事は多種多様なドメインがあり、それぞれのドメインによって受け入れられる説明の仕方には共通項と違いがあり、受け入れられるプロセスも異なります。人間の世界のしきたりにAIを含むアプリケーション側が寄り添って答えを出すということをやっていけば、その領域の中では有用なAIになるのではないかと思っています。よく言われる話ですが、AIは得意なところが人間とは違うので、うまくAIと人間が協業することが必要だと考えています。
そろそろお時間がきてしまったのですが、この時間では語り切れませんね。

三宅 いくらでも話続けられますね。

武田 この続きはまたぜひ別の機会にお話ししましょう。

三宅 ええ。ぜひお願いします。

武田 本日はありがとうございました。

同じカテゴリの記事

よく見られている記事

ja 日本語
Machine Translation by Google. : close x