
いま最も注目されているテクノロジーの一つ、AI(人工知能)。世界中の企業や研究者がAIの開発にしのぎを削っています。AIを活用して業務効率化を図ろうと取り組みを進める企業も増えています。
業務を効率化するには、高い精度のAIが欠かせません。中でもAIの解析方法の一つ、機械学習の精度向上に重要な役割を果たすのが教師データです。機械学習の学習材料となる教師データでは量の膨大さが話題になることが多いですが、実は、適切な教師データを用意できるかによって、必要な教師データの量や機械学習の精度は大きく変わります。
ここでは、機械学習と教師データの関係や、教師データの課題について解説し、FRONTEOのAI「KIBIT」が教師データの課題にどう対応しているかを紹介していきます。


監修
株式会社FRONTEO
取締役/CTO
博士(理学)
豊柴 博義
数学を専攻し博士(理学)を取得。米国国立環境健康科学研究所(NIEHS)や武田薬品工業等で、遺伝子発現データ解析やターゲット探索、バイオマーカー探索等の研究に従事。FRONTEOのAIアルゴリズムを研究開発。
AI(人工知能)の3ステップ - 教師データは重要な「インプット」
AIを使って何ができるか、AIツールをさらに活用するにはどうするかを考えるときは、「インプット」「解析方法」「アウトプット」の3ステップに分けると整理しやすくなります。

AIにはどれも必須ですが、インプットするデータ、すなわち学習データの質は欠かせません。AIの精度を高めるには、適切な学習データをAIに読み込ませる必要があります。
なお、解析方法とは、機械学習やディープラーニングなど、いわゆる「AI」と聞いてイメージする技術やアルゴリズムで、アウトプットは「文章を分類する」「画像を生成する」などの出力のことです。また用途は、機械学習ではタスクと呼ばれることもあり、AI Learningの記事 でも紹介したように、用途ごとに最適なAIを適材適所で使い分けたり併用したりすることが重要です。
教師データを使う機械学習:教師あり学習
学習データのうち、問題と正解をセットにしたデータを教師データと呼びます。いわば答え付きの例題のようなものです。教師あり学習では、教師データ内に存在するデータのパターンや法則などをAIに探索・学習させ、正解がわからない新たな入力データに対して予測や判断ができるようにAIのモデルを最適化します。こうした教師あり学習は、メールのスパム判定や機械の故障予測、需要予測などに活用されています。
教師なし学習や強化学習
教師データを使わない機械学習として、教師なし学習や強化学習という手法があります。
教師なし学習は、正解を与えられていない学習データの中からパターンや構造を見つけ出す手法で、データのグループ化(クラスタリング)などで用いられます。強化学習は、AI自身の試行錯誤によって最適な回答を学習していく手法で、勝敗のあるチェスや将棋のAIなどで用いられます。
AIの機械学習における教師データとは
機械学習のための教師データの用意は、データの収集とアノテーション(正解データのラベリング)から始まります。データは自社データや公開データセットから取得する他、外部ベンダーに作成を外注するケースも見られ、自社データは目的に合ったデータを使用でき、外部データは整った形で利用可能という利点があります。
機械学習に必要な教師データの用意のしかた
教師データを用意するには、まずデータを集め、それにラベリングをしていきます。
データをどうラベリングするか(アノテーション)
データとそれに対応する答えを付与すること、つまりデータにラベルをつけることをアノテーションといいます。メールのスパム判定であれば、教師データの各メールに、スパムかそうでないかという正解データを付与します。
データをどこから集めるか
・自社のデータを使う
自社の文書データや画像データ、売上データなどを活用します。自社のデータなので、自社の業務や実状に合い、かつ、自社文化や言葉遣い、微妙な表現を取り込んだAIモデルの構築が期待できます。
・外部のデータセットを使う
公開されているデータセットを利用する、または教師データの販売・作成代行をするベンダー企業へ外注する、という方法があります。ひと揃いの整ったデータを機械学習に使いやすい状態で得られるなどのメリットがあります。実際に、公表情報を元にしたり、特定の業界向けに設計したモデルを提供したりしたAIサービスも存在します。例えばChatGPTは、Webページやニュース記事、論文などの一般的なトピックを大量に学習したAIサービスです。
教師データと機械学習の関係 - 機械学習は何をやっているのか
見本となる教師データが2つか3つあれば、人間ならある程度の判断はできそうな気もします。しかし、教師データが少ないと、機械学習で正しい回答を出させるのは困難です。それはなぜでしょうか。
AIのモデルを作るとは、関数を求めること
AIのモデルを作るとは、答えのあるデータ=教師データから法則を見つけるということです。言い換えれば、機械学習とはある入力に対して結果が出力される、つまり数学でいうと、xとyの値の両方が分かっているいくつかの (x₁, y₁)、(x₂, y₂) …という組(教師データ、図の●)が与えられた時に、 ●以外のxの値を入れても対応するyの値が出るようなグラフを描く(関数y=f(x) を決める)ということになります。

もし、与えられた点が2つだけだと、両方の点を通る線はいくらでも引けてしまいます。点3つでも同様で、いろいろなグラフの可能性が残ります。つまり、教師データ(図の●)が少ないと良いAIのモデルが作れないのです。

もし点が10個あれば、曲線の形状がかなりイメージできます。この曲線をいわばガイドラインとすれば、新しいxに対応するyの値もかなりの精度で予測できそうなことがわかります。

実際のAIではもっと複雑な数式で、教師データの数も通常はずっと多く必要になります。また、xやyも単なる数字ではなく、ベクトルや自然言語など、多種多様なものとなります。なお、たとえば画像の分類(ディープラーニング)の場合、教師データは1,000~10,000程度必要ともいわれます。
適切な教師データ作成の課題
教師データの量と質
必要な教師データの量や質は、AIを使う目的や状況によってさまざまです。データの量が不足するとモデルがパターンを学びきれず、教師データでは正解しても実運用のデータでは汎用性がない「過学習」に陥るおそれがあります。しかし、集めなければならないデータ量が多いと時間も労力もかかりますし、逆に学習の邪魔になってしまうことも多々あります。
データの質の面でも、誤ったラベルや無関係なデータのようなノイズや外れ値が含まれるとAIが適切に学習できないため、データの選定や作成工程もおろそかにできません。集めたデータの形式をそろえる必要があり、ラベル付けにも用途に応じたノウハウが求められます。
このように、教師データの作成はAIを活用するにあたって最初のハードルの一つで、大きな課題でもあります。
教師データの同一性 ~世界中や業界全体のデータから自社向けのAIモデルを作れるか
自社のデータを言語系AIで解析する場合、世界中や業界全体から作成した教師データで学習したAIサービスを用いても、目的どおりの精度のデータは必ずしも得られません。その理由の一つは、同じ業界でさえ、企業によって使う用語やその癖は変わってくるからです。
「教師データの量」でのグラフで例えると、世界中や他社など外部のデータを教師データにしたAIモデルでは、図のように、同じxでもyの値が異なる使い方になるような(x, y)の組合せがたくさん存在するケースがあります。自社データの解析にとってはノイズとなるデータがたくさんあり、どこにモデルの線を引いたらよいかわからないイメージです。これは、教師データがたくさんありすぎるとノイズになりうること、たくさんあればよいというものではないことを示しています。
あるいは、自社データはx, y平面上だけでなくz軸も加わった”別の空間上”に広がっているにもかかわらず、教師データはx, y平面上にしかほとんどデータがないようなケースもありえます。これは自社の独特な言葉遣いなどに対応します。こうして構築したAIのモデルへ自社のデータを入れると、出力の精度が低くなってしまうのです。

ビジネスパーソンの方なら、異動や転職をしたら部署や会社によって使う言葉がかなり違った、または取引先の企業によって言い回しが少しずつ異なる、といった実感が誰しもあるはず。このことからも、AIの精度を高めるためには、教師データは汎用データよりも、自社のデータを使うのが望ましいことがお分かりいただけるでしょう。すなわち、教師データに必要な要素とは、解析したいデータ(通常は自社データ)との同一性なのです。
FRONTEOがAIで支援する「不正調査」「監査」特有の課題、AIごとの強みや使い方
FRONTEOのAIは少ない教師データでも高い精度で解析できる自然言語処理AIで、国際訴訟での証拠調査や、不正調査、各種のモニタリング(監査)で企業を支援しています。
【FRONTEOがAIで支援する「不正調査」「監査」】
・eディスカバリ ・フォレンジック調査 | ・メール&チャット監査 ・SNS監視・モニタリング |
わずかな教師データで、微妙な差異を識別する精度が求められる、不正や訴訟の証拠調査
AIで不正調査をする場合、教師データには実際に不正のやり取りをしたメールなどを用いたいところです。しかし不正はそう頻繁に起こるものではないため、目的のメールはメール全体からすればごくわずかで、実データはそうそう集められるものではありません。
また訴訟の資料や不正の証拠を、メールや書類などの膨大なテキスト情報から探し出すには、微妙な文章の違いの判別も求められます。企業訴訟や不正調査において膨大なデータから証拠を探し出すのは、AIをもってしても非常に難易度の高いタスクなのです。
「発見する」目的に特化したAI、FRONTEOの「KIBIT」
このように、精度を高めるには自社データに正解ラベルを付けた教師データを用いるのがベストであり、かつ、教師データの量は人が用意するのが苦にならない程度の少量が望ましい、というのが社会実装上の大きな課題と言えるでしょう。一方、FRONTEOの自然言語処理AI 「KIBIT」は、膨大なテキストデータの中から必要な情報を発見するという用途(目的)に対し、この困難な要件を満たすよう設計された「発見型」のAIです。
質が大切だからこそ、必要な教師データ量をわずか数十件程度に抑えることで、人の目でその品質をしっかり確保することを可能にします。こうして用意した、自社由来で良質な教師データをインプットすると、微妙な文章の違いやかすかな動きの「機微」を読み取る高精度なAIモデルを構築することができます。
つまり、証拠などの情報をデータの中から探し出すという「用途」に対して、この要件を満たす発見型AIのKIBITという「解析方法」、そして何より良質な「教師データ」、この3要素の適切な組み合わせが、AIの精度を最大限に高めるのです。

KIBITで解決する、教師データの課題
教師データが予め用意されていて自社での作成が不要なAIサービスでは、通常、企業内でやり取りされたメールなどの解析精度を高めるのは困難です。そのため、FRONTEOのAIソリューションでは調査や監査を行う企業の内部データを重視し、企業ごとのデータから教師データを作成します。これは、対象の企業で使われる特有の単語や文章が入った教師データを使用しないと、どうしても精度が高められないからです。
とはいえ教師データ作成の負担はやはり大きいため、現在、数十件という少量の教師データで運用できるような高い精度のAIモデルを構築できるのが、KIBITの大きな特長です。通常の機械学習やディープラーニングのような数千件もの教師データは必要ありません。
KIBITが少ない教師データで高い精度を実現できるのは、使用するパラメータが少ないシンプルで数学を活用したアルゴリズムによるものです。シンプルゆえ、ノートPCレベルのコンピューターで、省電力かつ高速に、テキストを解析・学習できるのも強みです。
AI導入の障壁を下げ、AIの社会実装をめざす
KIBITは、少量の教師データからでも人間の暗黙知や感覚、判断を学んで人の思考を再現し、正解が未知である大量のデータから必要なデータをいち早く見つけ出します。
現在、数十件の教師データで実装できるKIBITですが、高い精度を保ったままさらに少ない教師データで運用できるよう、開発と改善を重ね続けています。高い精度のAIを、より少ない負担で活用できれば、多くのエキスパートの支援が可能になり、AIの社会実装の拡大へつながるのです。