革新的なツールとして注目を集めるチャット型のAI(人工知能)サービス・ChatGPTは、ユーザーが知りたいことに対して、当意即妙な答えを返してくれます。 とても自然な対話ができるため、ChatGPTが言葉の意味、概念を理解しているのでは?と考える方がいるかもしれません。
実はAIの分野では「概念検索」といって言葉の概念を用いた検索の方法があり、以前から文書を扱うさまざまな分野、とくに特許調査などで応用されています。
ふだん、検索といえばGoogleやYahoo!といったインターネット上の検索エンジンで、キーワードで検索するのが一般的ですが、ここでは、キーワード検索に対して概念検索とは何か、AI(人工知能)を使った概念検索でどんなことが実現するのか、自然言語処理やAIのしくみも解説しながら紹介していきます。
監修
株式会社FRONTEO
取締役/CTO
博士(理学)
豊柴 博義
数学を専攻し博士(理学)を取得。米国国立環境健康科学研究所(NIEHS)や武田薬品工業等で、遺伝子発現データ解析やターゲット探索、バイオマーカー探索等の研究に従事。FRONTEOのAIアルゴリズムを研究開発。
概念検索とキーワード検索
なじみのあるキーワード検索は、目的の単語が含まれるページや資料などを抜き出すことです。Googleなどの検索エンジンであれば、「東京タワー」と検索して、東京タワーの場所や高さなどの情報、訪れた人のブログなどを探すようなケースです。
一方で概念検索とは、文章どうしのおおまかな共通の特徴を見つける、というイメージです。AI(人工知能)を用いた概念検索では、ある単語に対して「その単語の周りの単語の情報を埋め込む」ことで共通の特徴があるかを判断します。これは、自然言語処理といって、コンピューターが言語をデータとして処理できるよう、単語をベクトルという数値に置き換えることで実現できるのです。
ここで、概念検索に用いられる自然言語処理とは何か、周りの単語の情報を埋め込むとはどういうことかを見ていきましょう。
概念検索に用いる自然言語処理AIのしくみ、単語のベクトル化
自然言語とは日本語や英語など私たちが日常で使う言葉で、その自然言語をAI(人工知能)に習得させて機械的に処理できるようにしたのが自然言語処理AIです。身近なところではAlexaなどの音声アシスタントや問い合わせ対応のチャットボットなど、言葉を用いるサービスやアプリで用いられます。このしくみに関わっているのが「分布仮説」という考え方、そして「単語のベクトル化」による意味の埋め込みです。
「単語の意味は,周囲の単語によって決まる」
「分布仮説(distributional hypothesis)」とは、自然言語処理で重要な考え方の一つ。単語そのものが意味をもつというよりは、周囲の単語・文脈によって意味が形成されるという考え方です。これは既に1950年代に提唱されていた考え方で、とても画期的な着想でした。
単語をベクトル化するということ、単語の意味の足し引き
「単語のベクトル化」は、自然言語処理で単語を数値に置き換えるということ。言語をコンピューターで処理するには、数値に置き換える必要があるからです。このとき、周りの単語の情報が、数値の組み合わせ=ベクトルに「埋め込み(Embedding)」されるといいます。
数値なので、単語の意味どうしで足し算や引き算もできるようになります。有名なのが、図のような王様と女王様、王と男女という要素の例です。
自然言語処理AIを用いた検索ツールの例、GoogleやChatGPT、特許検索ツール
自然言語処理AIは、現在では検索エンジンでのキーワード検索、そしてChatGPTやその他幅広いツールにも広く応用されています。いくつかの検索ツールをその特徴とともに見ていきます。
Google、Yahoo! などの検索エンジンでの検索 単語の揺らぎもカバー
初期のインターネットの検索エンジンでは、単純に文字列が一致する候補を挙げるキーワード検索でしたが、現在ではGoogle、Yahoo! などの検索エンジンのキーワード検索もAIが支えています。単語のベクトル化、つまり意味を埋め込む手法が用いられ、単語の短縮形や文字の打ち間違いにも柔軟に対応して検索結果を出せるようになっています。
ChatGPTでの検索 情報を整理した自然な文章をAIが生成して回答
2022年末から大きな話題となったOpenAIが提供するChatGPTは、質問を入力すると文章で答えを返してくれます。ChatGPTは大量の情報の中から、入力に対応した情報をまとめて文章を生成するのが得意。検索という観点からは、キーワードを超えて文章として検索ができ、しかも自然な文章で情報を得られる点に大きなインパクトがありました。
特許検索ツールでの検索 特許調査で類似の特許や発想の参考になる特許を検索
概念検索という手法は、類似する特許の有無などを探す特許情報の検索に活用されています。一般にAIを用いた特許検索ツールでは、単語の出現頻度や分布を活用して類似度を計算するなどしており、使いこなしにコツが必要ではありつつ、関連する可能性がある文献を探し出すのに有効な手段の一つとなっています。
FRONTEOのAI「KIBIT」の概念検索 新しい発見のための検索
FRONTEOの自社開発AI「KIBIT」も自然言語処理AIで、元となるデータベース中の膨大なテキスト情報から、独自開発のアルゴリズム、つまりベクトル化の手法で概念検索を行って、関連度の高い順に情報を得られます。ディープラーニングとはまた別のアルゴリズムで、目的の単語に関する情報が少なくても精度が高いのが特長です。
自然言語処理AIは言葉を「理解」し、「考えて」いるか?
こうしたAIを活用した検索ツールを使うと、AIが言葉を「理解している」ように見えるかもしれません。しかし概念検索では、ある単語の意味合いは前後の単語や文脈から決まっていき、AIが単語そのものの意味や文法を理解し、考えるわけではありません。
検索エンジンなどの検索ツールでは、調べたい事項がある時や、ある目的に関連する情報をもっと得たい時に、手軽に情報を探し出すのに有用です。自分の考えや仮説を補強したい、より詳細な情報を得たいというときに便利に活用できるでしょう 。
AIと正しく向き合い、概念検索とともに新境地を切り開くには
AIが人間と同じように振る舞ったり、検索して出た結果が予想どおりだったりすれば驚きますし、そうした高性能のAIは当然世間から注目や評価を集めます。
一方、FRONTEOのAI「KIBIT」で概念検索を行う意味は、二つあります。一つは、人間一人では見切れない超大量のデータベースから検索できること。もう一つが、人間が通常発想しない、思いもかけない候補を見つけ出せることです。
データベースの全てを埋め込んだ「概念」は、人が把握できる範囲を超えたものになる
例えば検索エンジンで「アルコール」とキーワード検索をすると、ビールなど酒類に関する話題、物質や薬品としてのアルコールの解説など、それぞれ別のものを指すことがわかります。
複数の意味をもち、さまざまな文脈で現れる「アルコールという概念」が、概念検索の手法で大量のデータベースの中で定義されると、その概念にはもはや人間が把握しきれない部分も含まれてきます。その概念に対して検索を実施すると、予想していた正解が上位に出てこなかったり、ノイズに見える候補が入っているように感じたりします。しかしこれは、一定のルールによってデータベース全体から見出された、先入観(バイアス)のない結果なのです。
その予想外の結果は、人が自分で把握できる範囲の概念では探しきれていなかった情報がAIのおかげで全データベースの中から発見できた、と考え方を切り替えるべきです。KIBITが膨大なデータベースを背景につかみ取った検索結果は、正解でもノイズでもなく、人が新しい発見をするための手がかりなのです。
せっかく大量のデータを扱えるAIを使うなら、人と同じことができるコピーのような存在ではもったいない。AIに正解を出させるのではなく、人の有限の時間や頭脳では気づけない、思わぬ発見をめざしてAIを使うのがFRONTEOの概念検索です。
エキスパートが新境地を切り開くために力を発揮するAI「KIBIT」
FRONTEOのKIBITは、自然言語処理AIの一つで、膨大なテキストデータの中から必要な情報を抽出し、人々に新たな気づきや発見を提供する「発見型」のAI です。KIBITは、ときに検索する側のエキスパートでも気づかなかった情報も概念検索で抽出します。これは、単語をベクトル化して情報を埋め込むことに加え、そこに曖昧性をあえて許容するアルゴリズムで実現しているのです。
言語のベクトルは、元となるデータベース(コーパスといいます)から作成。医療分野なら医学・生物学文献データベースの「PubMed」、知財分野なら特許情報のデータベース、製造業分野なら厚生労働省の労働災害事例集と、分野ごとに最適なデータベースを元にしますが、これらはいわばその分野の集合知です。そのコーパスを、KIBITが独自開発のアルゴリズムで網羅的・ノンバイアスに解析し、その分野のエキスパートの判断を支援する文書を高い精度でスピーディーに発見できます。
とくにAI創薬の分野では、医薬品開発の大きな壁である新規標的の探索とその仮説生成に、「発見型概念検索AIシステム」の「KIBIT Amanogawa」が大きく貢献しています。KIBITの活用で、さまざまな分野のエキスパートが新境地を切り開くための支援が可能になっているのです。