研究者にとって、研究の全てのプロセスで欠かせないのが「論文の検索」。新しいアイデアには先行研究へのアクセスが不可欠です。
現在は、電子ジャーナルや論文データベースで論文情報の入手がかなり容易になりました。医薬品開発で新薬の仮説を立てる際に重要な要素の一つが新規性であり、希少な疾患や新しい作用機序などに関する論文が必要なところですが、キーワード検索のみではそうした論文にはなかなか出会えません。
ここでは、研究に欠かせない論文とその検索手法を概説し、FRONTEOの「発見型概念検索」AIシステム「KIBIT Amanogawa」が、類似性・関連性のある論文を高い精度で発見できる特長を解説します。
監修
株式会社FRONTEO
取締役/CTO
博士(理学)
豊柴 博義
数学を専攻し博士(理学)を取得。米国国立環境健康科学研究所(NIEHS)や武田薬品工業等で、遺伝子発現データ解析やターゲット探索、バイオマーカー探索等の研究に従事。FRONTEOのAIアルゴリズムを研究開発。
科学者の研究の始まりは論文検索から
論文とは研究者にとって、先人がこれまで何を考え、どう試して何を見つけてきたか、の手がかりです。研究テーマの設定から始まり、論文を書き上げて発表するにも、先行研究の論文の参照は欠かせません。
論文は、研究の発表・共有の一手段かつ最新情報の宝庫
学術研究では一般に、いくつかの発表や公表の形態があります。機関誌でのレポートや学会発表に始まり、速報性を優先する際はレター(Letter)、独自の研究結果を学術雑誌に投稿する原著論文(Article)、ある分野やテーマの概説・最新動向をまとめた総説(Review)、そして新規の知見が定着してくると、体系立てて書籍の形にまとめられます。
通常、研究の世界で「論文」というと、レター(Letter)、原著論文(Article)そして総説(Review)を指すのが一般的です。
論文検索から画期的な着眼や発想へたどりつく難しさ、キーワード検索の限界
論文の検索は研究に必須のプロセスで、研究では日々論文を読み込み、検索を繰り返して、エビデンスを確認したり新たな着想を得たりします。医薬品開発であれば、論文データベースや電子ジャーナルで、病名や物質名で検索するでしょう。他にも、目的に関連する論文が手元にあれば、その引用文献をたどることで、有益な論文を次々に見つけられます。
しかし、研究の最初の仮説の立案ではとくに、論文探しの難易度は高いものです。治療薬の無い疾病であれば当然誰も研究したことがなく、キーワード検索で論文を探そうとしてもほぼヒットしません。
膨大な論文から、画期的な仮説を生み出すことの限界
世界中の多くの研究者が次々に論文を発表し、それらが集合知として蓄積されていきますが、その中から適切な論文を見つける難易度は高まるばかりです。例えば生命科学系の論文検索データベースPubMedの収録文献数は3000万件を超え、Elsevier社の学術データベースScopusでは全分野で9100万件以上の文献を収録しています。
全ての論文は把握し切れない
研究で重要なプロセスである論文の検索には十分に時間を割くべきですが、時間は有限です。当然ながら、関連する論文を見つけるために全ての論文を読んで把握することは不可能です。
読む人のバイアスがかかってしまう
参照すべき論文を選び出す段階で、研究者自身の専門知識や思考といったバイアス(偏り)がどうしても入ります。個人の知見頼みの検索では、本来関連するはずの論文も見逃しかねません。
論文検索の課題は、類似性、関連性の高い論文にまだ出会えていないこと
医学系の場合、同じ疾患名や遺伝子名でなくても、テーマとする疾病などに関連する論文がデータベースのどこかにある可能性は十分あります。実際、研究者自身の専門分野の情報は自身で見つけられても、本来関連するはずの別の情報にはうまく出会えていない……ということは実は大いに起こりうることで、見えない損失とも言えます。
論文の検索方法と、そこで使われている仕組みや技術
論文数が増え続けるとは言え、論文検索データベースや電子ジャーナルの普及で、論文へのアクセスは飛躍的に向上しました。ポイントは、その中からどう探すかです。科学論文での検索方法と、その裏で使われている手法や仕組みを概説します。
検索方法:検索データベース、電子ジャーナル
自然科学分野でいえば、検索データベースとしてはPubMedなど、電子ジャーナルではScienceDirectやEmbaseなど、多くのサービスが広く活用されています。
PubMed | 米国国立医学図書館内、国立生物科学情報センターが提供する、医学系最大のデータベース。キーワード検索やシソーラスが活用できる。 |
Embase | Elsevierが提供する、医薬分野の書誌データベース。医薬品の治験論文が豊富で、シソーラス検索も可能。 |
Google Scholar | Googleが提供する検索システム。キーワード検索で、日本語/英語/その他言語の論文を網羅的に検索できる。 |
医学中央雑誌 | 国内の医学・歯学・薬学・看護学及び関連分野の論文情報を網羅的に検索できる。 |
文章の検索で一般に使われる手法や仕組み
各検索サービスの裏側では、よく見かけるキーワード一致検索の他にも、関連する論文をテキストにサジェストしリストアップするために様々な工夫がなされています。
キーワード検索 | 最も一般的な手法で、目的のキーワードに言及している論文を探す。関連性の高いものからランク付けされ、リストとして結果が返される。 |
シソーラス (統制語) | 「シソーラス」は言葉どうしの関連性、同義語、階層構造、上位語と下位語などを整理した辞書のようなもの。統制語と呼ばれる語を活用するなどで、キーワードやトピックの関連語からも論文が見つかりやすくなる。 |
Word2Vec | 文の要約やクラスタリング、情報検索など、多くの自然言語処理タスクで利用される手法で、単語のベクトル化によって表せる単語の意味的な関係を検索に用いる。 |
BERT | Googleが開発した、語の関連性を学習したアルゴリズム。文中でマスクした単語の予測と、2文章の意味的な連続の有無で学習されている。 |
論文検索にも大いに活用される、自然言語処理AIとその仕組み
論文の検索にコンピューターやAIを活用するためには、自然言語をAIなどが理解できる形に変換する必要があります。自然言語とは日本語や英語など私たちが日常で使う言葉で、その自然言語をAI(人工知能)に習得させて機械的に処理できるようにしたのが自然言語処理AIです。ここに関わっているのが「分布仮説」という考え方、そして「単語のベクトル化」による意味の埋め込みです。
分布仮説「単語の意味は,周囲の単語によって決まる」
自然言語処理(NLP:Natural Language Processing)において単語をベクトルで表す手法の多くは「分布仮説(distributional hypothesis)」という考え方に基づいています。これは1950年代に提唱されていた考え方で、単語そのものが意味をもつというよりは周囲の単語・文脈によって意味が形成されるという、自然言語処理で重要な考え方の一つです。
言語をベクトル化するということ
自然言語処理において、非構造化データ(数値ではない)である言語をコンピューターが理解できる形に変換するのが「ベクトル化」です。このプロセスにより、言語の情報が数値で表現され、コンピューターによる処理が可能になります。このとき、周りの単語の情報が、数値の組み合わせ、つまりベクトルに「埋め込み(Embedding)」されるといいます。
FRONTEOのAI「KIBIT」が実現する”発見型概念検索”
最近話題の大規模言語モデルではディープラーニング、中でもTransformerが広く使われています。一方、FRONTEOの自社開発AI「KIBIT」は、機械学習の一種で、ディープラーニングとはまた別のアルゴリズムを用いています。
その「KIBIT」を搭載した論文検索AI「KIBIT Amanogawa」は、PubMedの全論文を学習させ、独自の自然言語処理 AIの技術を論文探索に活用した「発見型概念検索」システムです。
「KIBIT Amanogawa」は、PubMedの全論文から類似性と関連性を見出す高い検出力で、
・入力した単語や文章に対して「概念が似た文章」を見つけ出す
・「概念の仮想的な足し引き」で、他領域や未知の情報へたどり着く
ことができます。これは、分布仮説に基づいたアルゴリズムで類似性・関連性が高い論文を的確にリストアップする、ベクトル化によって意味の足し引き(演算)を利用した比喩表現で論文を見出す、という最先端のアプローチで実現しています。
AIで論文を検索するには、適切なデータベースとAIエンジンの両輪が必要
論文を探すには、質が高く、研究テーマに最適な論文が集約されたデータベースを対象とするのは当然ながら、AIエンジンの性能が、論文検索の成功に大きな影響を与えます。つまり論文検索では、適切なデータベースと効果的なAIエンジンの組み合わせが、成功に必須の要素です。
文章の作成や要約に向いている生成AIとは異なり、類似性の検出に優れたKIBIT
生成AI 、中でも2022年末から話題をさらったChatGPTは、文章の作成や要約に優れており大きな注目を浴びていますが、これを支えるのは、自然な文章の生成に特化したアルゴリズムです。
生成AI のChatGPT*やBERT*などは、文章の生成に特化したアルゴリズムである一方、言語の類似性を見つける点においては限られた精度しか持っていません。生成AIのアプローチは、類似性の比較や語の重み付けなどが文書比較に最適化してはいないからです。
KIBIT Amanogawaは、分布仮説に根ざしたアルゴリズムに基づき、言葉どうしの数学的な近さ、つまり類似性を高い精度で見出せます。KIBITは文章生成が目的ではないため、言語理解そのものに焦点を当てているためです。
*GPT=Generative Pre-trained Transformer(事前学習済みの生成Transformer)、BERT=Bidirectional Encoder Representations from Transformers(Transformerによる双方向のエンコード表現)。いずれもディープラーニングモデルの一つTransformer(トランスフォーマー:2017年発表の自然言語処理のモデル)に基づく言語処理手法。
KIBIT Amanogawaが高精度で、新たな「発見」に出会える理由
KIBIT Amanogawaが関連性・類似性の高い論文を見つける精度に優れているのは、他の検索手法のアルゴリズムとは異なるユニークなベクトル化の手法を持っているからです。
ポイントの一つが、単語と文の双方から解析する点、もう一つが、分布仮説に忠実にアルゴリズムを構築している点です。さらに、希少な言葉でも適切に検索できる重み付けと、単語の意味どうしの足し引きによる解析も強みです。
Googleを超えたアルゴリズム
類似文書を探し出すタスクにおけるKIBIT Amanogawaの精度の高さは実証済みで、Googleの自然言語処理モデルBERTベースのBioBERTと比較して、約15%高い精度を達成しています。〈Yamada et al.(2020)〉
言語のベクトル化では、分布仮説に由来するアルゴリズムの方が、BERTや生成AIなどで広く使われるTransformerよりも結果が良いことが報告されており、これが分布仮説に忠実なアルゴリズムのKIBIT Amanogawaの精度が高い一因です。さらに、FRONTEOの検証では、同じく分布仮説に由来するWord2Vec(Google開発のアルゴリズム)との比較でもKIBIT Amanogawaがより高精度という結果も得られており、Google以上のアルゴリズムで類似性・関連性を見分けられることが実証されています。
文章と単語にまたがって解析する独自技術
KIBIT Amanogawaは、単語、文章に関わりなく、それらの特徴の近さで類似性を評価します。検索語(新しく入力された単語または文章)を独自の近似式でベクトル化し、それをベクトル化済みのPubMedデータと比較して、類似性の高い順に提示します。
単語と文章を合わせて解析することを、専門的には同じベクトル空間で解析する、と言います。この「空間」は数学用語で、同じ性質を持つ要素たちの「集合」「要素の集まり」の意味合いです。
Word2Vecなど他の手法では、単語と文章は別の性質として扱われ、異なるベクトル空間に属します。従って、単語どうし、または文章どうし、それぞれのベクトル空間で計算し、類似性を評価するのが一般的です。しかし、KIBIT Amanogawaのアルゴリズムは、単語と文章を同じベクトル空間に近似、つまり、単語と文章を似た要素として扱える技術となっています。
この手法で、単語どうし、文章どうしの他の手法よりも、類似性の高い論文を識別する精度が向上しました。幅広い文脈や語義の違いを高い精度で認識できているのです。この単語と文章を同じベクトル空間で扱う手法は、特許取得済みの画期的なアプローチです。
分布仮説を忠実に表現
KIBIT Amanogawaは、分布仮説に徹底的に沿ったアルゴリズムで、専門的に言えば語の共起関係に基づいて単語や文の関連性を捉えています。例えるなら、これは子どもが言葉を学ぶプロセス、つまり「新しい単語がどんな文脈で使われるか」を通じて意味や使い方を獲得していく過程と同様です。
さらに、AIは人間のようなバイアス(思考の偏り)を持ちません。分布仮説、つまり周囲に出現する単語パターンのみに基づいて文脈を客観的に解析するので、文書や単語の純粋な関連性のみから有用な情報を提示します。
希少な言葉でも適切に検索できる、語への重み付け
KIBIT Amanogawaは、出現頻度の低い、つまり珍しい単語から関連性の高い論文を見出すことにも優れています。これは、単語の出現頻度に応じた適切な重みを、アルゴリズムが自動で割り当てるからです。具体的には、コーパスであるPubMed中で単語の出現回数が多いとその単語への重み付けは低く、出現回数が少ない珍しい単語には重み付けが高く付きます。こうして、希少なトピックの検索が可能になるのです。
概念の足し引きから新たな「発見」に出会え、着想を得られる
言語をベクトル化、つまり数値化すると、単語の意味、つまり概念どうしで演算もできるようになります。有名なのが、図のような王様と女王様、王と男女という要素の例です。
この性質を用いて、KIBIT Amanogawaでも「PubMedのデータベース内で仮想的に特定の概念(意味)を足し引きする」ことで、従来の検索ではヒットしない情報が得られ、新たな着想を得ることが可能になります。図のように、糖尿病(疾病)とGLP1R(糖尿病の標的)の情報を用いて、別の疾病である「単純糖尿病網膜症(SDR)」に対応する標的候補を、意味の演算によってデータベースから探索することができるのです。
他にも、ある遺伝子に関して検索する時に例えば、ある遺伝子(のベクトル)に含まれる「がん(cancer)の概念」を引き去り(無くし)、仮想的に「がんの概念を持たない、ある遺伝子」で検索することで、さらに画期的な着想につながる検索結果を得るという手法も使えます。
創薬の課題解決に向け、論文検索AIが創薬の未来を拓く
創薬、すなわち医薬品の開発では、長い期間と大きなコストがかかる上、上市への成功率が下がってきていることも大きな課題となっています。
「First in class(従来にないアプローチで発見する新しい作用機序などの薬)」の創薬の成功率のアップには、創薬のスタート時点のターゲット選定と、研究開発の道筋を決める仮説の生成が不可欠。この仮説を提供するAI創薬支援企業を、日本だけでなく世界でも見つけることは非常に困難です。それを突破する技術の一つが、KIBIT Amanogawaでの論文検索です。
アンバイアスなAIが、セレンディピティな出会いをもたらし、ディスカバリを支援する
KIBIT Amanogawaの特徴は、アンバイアス、セレンディピティ、そしてディスカバリの3つです。
「アンバイアス」とは、研究者の個人的な知識や興味、特定の雑誌などに偏ることなく、客観的かつ包括的にデータを解析できることを指します。「セレンディピティ」とは、通常のキーワードベースの検索では予測できない、予想外の情報や文献を発見する能力で、これにより、異なる領域からも関連性をもつ情報を見つけ出すことができます。そしてアンバイアスな解析によるセレンディピティな論文への出会いを通じ、研究者は新たな着想、つまり「ディスカバリ」にたどり着き、さらなる探索や研究を推進できます。
これまでの、キーワードの共通性のみでは真に「関連・類似している」論文が見つけられない、という問題を解決し、遺伝子、症状、疾患などの個々のキーワードに引っ張られず、アンバイアスなAIが情報を選別することで「概念的に関連性が高い情報」がより優先的に表示されるのです。
このとき、検索者が予想していた正解が上位になかったり、ノイズに見える候補が入っているように感じたりする場合があります。しかしこれは、一定のルールによってデータベース全体から見出された、先入観(バイアス)のない結果です。その予想外の結果は、自分が把握する概念からは探せていなかった情報が、AIのおかげで全データベースの中から発見できたと考え方を切り替えるべきです。データベースの全てを埋め込んだ「概念」は、ときに人が把握できる範囲を超えたものになるからです。
「KIBIT Amanogawa」は人の言語獲得のプロセスと同じ論理に基づくAIシステム
「分布仮説」が子どもが言葉を獲得するプロセスと同様なことから、その分布仮説に基づいて自然言語処理AIを構築するのが、言語情報を効果的に扱うために最適のアプローチといえます。
論文検索AI「KIBIT Amanogawa」は、分布仮説に忠実に基づいたアルゴリズムで、文脈を理解した効率的な言語処理を実現しています。これは、人間の思考プロセスを数学的なアルゴリズムで再現するという、FRONTEOのAI開発に通底する考え方にもつながります。
言語化しにくい微妙なニュアンスをAIだからこそ捉え、論文から真の類似性を見出す
文章の類似性が高いとは「言葉のニュアンスが似ている印象」ともいえますが、これはいざ言葉で説明し直そうとすると難しく微妙なものです。しかし、AIは数値化した言語を扱うことで、逆に言葉では表現しきれない微妙なニュアンスや機微を数値で捉え、しかも人間のようなバイアスなしに、私たちに気づかせてくれるのです。
KIBIT Amanogawaは、新薬の開発に取り組む医薬系研究者に不可欠な論文検索AIシステムとなり、論文情報の解析と発見に特化したアルゴリズムで新たな知見を提供し、画期的なアイデアや発想を研究者が生み出す後押しをします。