論文検索をAIで革新 - 新発見を導く、関連性を見抜くAI | FRONTEO, Inc. | AI Learning - AI(人工知能)の話題を解説 | FRONTEO, Inc.

研究者にとって、研究の全てのプロセスで欠かせないのが「論文の検索」。新しいアイデアには先行研究へのアクセスが不可欠です。

現在は、電子ジャーナルや論文データベースで論文情報の入手がかなり容易になりました。医薬品開発で新薬の仮説を立てる際に重要な要素の一つが新規性であり、希少な疾患や新しい作用機序などに関する論文が必要なところですが、キーワード検索のみではそうした論文にはなかなか出会えません。

ここでは、研究に欠かせない論文とその検索手法を概説し、FRONTEOの「発見型論文探索」AIシステム「KIBIT Amanogawa」が、関連性のある論文を高い精度で発見できる特長を解説します。

監修

株式会社FRONTEO
取締役／CTO
博士（理学）
豊柴博義

数学を専攻し博士（理学）を取得。米国国立環境健康科学研究所（NIEHS）や武田薬品工業等で、遺伝子発現データ解析やターゲット探索、バイオマーカー探索等の研究に従事。FRONTEOのAIアルゴリズムを研究開発。

科学者の研究の始まりは論文検索から

論文とは研究者にとって、先人がこれまで何を考え、どう試して何を見つけてきたか、の手がかりです。研究テーマの設定から始まり、論文を書き上げて発表するにも、先行研究の論文の参照は欠かせません。

論文は、研究の発表・共有の一手段かつ最新情報の宝庫

学術研究では一般に、いくつかの発表や公表の形態があります。機関誌でのレポートや学会発表に始まり、速報性を優先する際はレター（Letter）、独自の研究結果を学術雑誌に投稿する原著論文（Article）、ある分野やテーマの概説・最新動向をまとめた総説（Review）、そして新規の知見が定着してくると、体系立てて書籍の形にまとめられます。

通常、研究の世界で「論文」というと、レター（Letter）、原著論文（Article）そして総説（Review）を指すのが一般的です。

論文検索から画期的な着眼や発想へたどりつく難しさ、キーワード検索の限界

論文の検索は研究に必須のプロセスで、研究では日々論文を読み込み、検索を繰り返して、エビデンスを確認したり新たな着想を得たりします。医薬品開発であれば、論文データベースや電子ジャーナルで、病名や物質名で検索するでしょう。他にも、目的に関連する論文が手元にあれば、その引用文献をたどることで、有益な論文を次々に見つけられます。

しかし、研究の最初の仮説の立案ではとくに、論文探しの難易度は高いものです。多くの遺伝子・分子はほとんど研究されておらず、キーワード検索で疾患との関連がありそうだがいまだ研究されていない新規性の高い遺伝子の論文を探そうとしてもほぼヒットしません。

膨大な論文から、画期的な仮説を生み出すことの限界

世界中の多くの研究者が次々に論文を発表し、それらが集合知として蓄積されていきますが、その中から適切な論文を見つける難易度は高まるばかりです。例えば生命科学系の論文検索データベースPubMedの収録論文数は3000万件を超え、Elsevier社の学術データベースScopusでは全分野で9100万件以上の論文を収録しています。

全ての論文は把握し切れない

研究で重要なプロセスである論文の検索には十分に時間を割くべきですが、時間は有限です。当然ながら、関連する論文を見つけるために全ての論文を読んで把握することは不可能です。

読む人のバイアスがかかってしまう

参照すべき論文を選び出す段階で、研究者自身の専門知識や思考といったバイアス（偏り）がどうしても入ります。個人の知見頼みの検索では、本来関連するはずの論文も見逃しかねません。

論文検索の課題は、関連性の高い論文にまだ出会えていないこと

医学系の場合、同じ疾患名や遺伝子名の記載がなくても、テーマとする疾病などに関連する論文がデータベースのどこかにある可能性は十分あります。実際、研究者自身の専門分野の情報は自身で見つけられても、本来関連するはずの別の情報にはうまく出会えていない……ということは実は大いに起こりうることで、見えない損失とも言えます。

論文の検索方法と、そこで使われている仕組みや技術

論文数が増え続けるとは言え、論文検索データベースや電子ジャーナルの普及で、論文へのアクセスは飛躍的に向上しました。ポイントは、その中からどう探すかです。科学論文での検索方法と、その裏で使われている手法や仕組みを概説します。

検索方法：検索データベース、電子ジャーナル

自然科学分野でいえば、検索データベースとしてはPubMedなど、電子ジャーナルではScienceDirectやEmbaseなど、多くのサービスが広く活用されています。

PubMed	米国国立医学図書館内、国立生物科学情報センターが提供する、医学系最大のデータベース。キーワード検索やシソーラスが活用できる。
Embase	Elsevierが提供する、医薬分野の書誌データベース。医薬品の治験論文が豊富で、シソーラス検索も可能。
Google Scholar	Googleが提供する検索システム。キーワード検索で、日本語/英語/その他言語の論文を網羅的に検索できる。
医学中央雑誌	国内の医学・歯学・薬学・看護学及び関連分野の論文情報を網羅的に検索できる。

文章の検索で一般に使われる手法や仕組み

各検索サービスの裏側では、よく見かけるキーワード一致検索の他にも、関連する論文をテキストにサジェストしリストアップするために様々な工夫がなされています。

キーワード検索	最も一般的な手法で、目的のキーワードに言及している論文を探す。関連性の高いものからランク付けされ、リストとして結果が返される。
シソーラス（統制語）	「シソーラス」は言葉どうしの関連性、同義語、階層構造、上位語と下位語などを整理した辞書のようなもの。統制語と呼ばれる語を活用するなどで、キーワードやトピックの関連語からも論文が見つかりやすくなる。
BERT	Googleが開発した、語の関連性を学習したアルゴリズム。文中でマスクした単語の予測と、2文章の意味的な連続の有無で学習されている。

論文検索にも大いに活用される、自然言語処理AIとその仕組み

論文の検索にコンピューターやAIを活用するためには、自然言語をAIなどが理解できる形に変換する必要があります。自然言語とは日本語や英語など私たちが日常で使う言葉で、その自然言語をAI（人工知能）に習得させて機械的に処理できるようにしたのが自然言語処理AIです。

言語をベクトル化するということ

自然言語処理において、非構造化データ（数値ではない）である言語をコンピューターが理解できる形に変換するのが「ベクトル化」です。このプロセスにより、言語の情報が数値で表現され、コンピューターによる処理が可能になります。

FRONTEOのAI「KIBIT」が実現する“発見型”の論文検索

最近話題の大規模言語モデルではディープラーニング、中でもTransformerが広く使われており、自然な文章となるように単語をつなげる連続的な言語処理が特徴です。

一方でFRONTEOの「KIBIT」は、未報告の関連性を見つけ出せる独自のアルゴリズムを持ち、既知の情報から未知の発見、つまり非連続的発見を導きます。このアルゴリズムには数多くの工夫が凝らされています。

その「KIBIT」を搭載した「KIBIT Amanogawa」は、PubMedの全論文を学習させ、独自の自然言語処理技術を論文探索に活用した「発見型論文探索」AIシステムです。

「KIBIT Amanogawa」は、PubMedの全論文から関連性を見出す高い解析力で、
・入力した単語や文章に対して、キーワードによらない「関連した文章」を見つけ出す
・非連続的発見のアプローチによるアルゴリズムで、他領域や未知の情報へたどり着く
ことができます。

AIで論文を検索するには、適切なデータベースとAIエンジンの両輪が必要

論文を探すには、質が高く、研究テーマに最適な論文が集約されたデータベースを対象とするのは当然ながら、AIエンジンの性能が、論文検索の成功に大きな影響を与えます。つまり論文検索では、適切なデータベースと効果的なAIエンジンの組み合わせが、成功に必須の要素です。

文章の作成や要約に向いている生成AIとは異なり、関連性の解析に優れたKIBIT

生成AI 、中でも2022年末から話題をさらったChatGPTは、文章の作成や要約に優れており大きな注目を浴びていますが、これを支えるのは、自然な文章の生成に特化したアルゴリズムです。

生成AI のChatGPT*やBERT*などは、文章の生成に特化したアルゴリズムである一方、言語の関連性を見つける点においては限られた精度しか持っていません。生成AIのアプローチは、関連性の比較や語の重み付けなどが文書比較に最適化してはいないからです。

KIBIT Amanogawaは、非連続的発見の概念に基づくアプローチにより、未報告の関連をも予測し入力単語や文章との関連性のある論文を高い精度で見出せます。KIBITは文章生成が目的ではなく、創薬研究の新たな仮説を生成することに焦点を当てているためです。

*GPT=Generative Pre-trained Transformer（事前学習済みの生成Transformer）、BERT＝Bidirectional Encoder Representations from Transformers（Transformerによる双方向のエンコード表現）。いずれもディープラーニングモデルの一つTransformer（トランスフォーマー：2017年発表の自然言語処理のモデル）に基づく言語処理手法。

創薬の課題解決に向け、論文検索AIが創薬の未来を拓く

創薬、すなわち医薬品の開発では、長い期間と大きなコストがかかる上、上市への成功率が下がってきていることも大きな課題となっています。

「First in Class（従来にないアプローチで発見する新しい作用機序などの薬）」の創薬の成功率のアップには、創薬のスタート時点のターゲット選定と、研究開発の道筋を決める仮説の生成が不可欠。この仮説を提供するAI創薬支援企業を、日本だけでなく世界でも見つけることは非常に困難です。それを突破する技術の一つが、KIBIT Amanogawaでの論文検索です。

アンバイアスなAIが、セレンディピティな出会いをもたらし、ディスカバリを支援する

KIBIT Amanogawaの特徴は、アンバイアス、セレンディピティ、そしてディスカバリの3つです。

「アンバイアス」とは、研究者の個人的な知識や興味、特定の雑誌などに偏ることなく、客観的かつ包括的にデータを解析できることを指します。「セレンディピティ」とは、通常のキーワードベースの検索では見つけられない、予想外の情報や論文を発見する能力で、これにより、異なる領域やキーワードを含まない論文からも関連性をもつ情報を見つけ出すことができます。そしてアンバイアスな解析によるセレンディピティな論文への出会いを通じ、研究者は新たな着想、つまり「ディスカバリ」にたどり着き、研究や探索を飛躍させることができます。

これまでの、キーワードの共通性のみでは真に「関連している」論文が見つけられない、という問題を解決し、遺伝子、症状、疾患などの個々のキーワードに引っ張られず、アンバイアスなAIが情報を選別することで「キーワードによらない関連性の高い情報」がより優先的に表示されるのです。

このとき、検索者が予想していた正解が上位になかったり、ノイズに見える候補が入っているように感じたりする場合があります。しかしこれは、データベース全体から見出された、先入観（バイアス）のない結果です。その予想外の結果は、AIのおかげで全データベースの中から発見できたと考え方を切り替えるべきです。「KIBIT」が予測した未報告の関連性は、ときに人が把握できる範囲を超えたものになるからです。

KIBIT Amanogawaは、新薬の開発に取り組む医薬系研究者に不可欠な論文検索AIシステムとなり、論文情報の解析と発見に特化したアルゴリズムで新たな知見を提供し、画期的なアイデアや発想を研究者が生み出す後押しをします。

仮説生成のための発見型概念検索AIシステム「KIBIT Amanogawa」ページへ