KARAKURI Days JOB LIST
2019.10.17 制度・イベント

全社で取り組むカスタマーサクセス!AIを育てるアノテーションハッカソンに挑む。

こんにちは!Corporate and People Groupの小金井です。
前回お伝えした「KARAKURI Training Camp」のプログラムのひとつ、アノテーションハッカソンについてお伝えします。
アノテーションハッカソンは、自然言語処理や関連分野の若手研究者・技術者の中でも注目度が高まっているイベントです。

 

アノテーションハッカソンとは?

アノテーションはテキストや音声、画像などあらゆる形態のデータにタグを付ける作業のことです。機械学習アルゴリズムはタグが付いたデータを取り込むことで、パターンを認識できるようになります。そのためAIを育てるにはタグが付いた状態のデータは必要不可欠であり、そのデータ作りの精度を競うのがアノテーションハッカソンです。

今回のお題は、カスタマーサポート特化型AI「KARAKURI chatbot」を育てる「チャットボット育成ハッカソン」です!カラクリストのアノテーションのノウハウを貯めていくのはもちろん、全社でカスタマーサクセスを実現するチームになっていくために実施したので、目的は下記3つとしました。

  • 全員でチャットボット育成のノウハウを考え、共有する
  • メンバー(特に普段業務で関わりが少ない人)の得意な領域や視点を知る
  • 質の高い業界テンプレートを作る

 

チャットボット育成ハッカソンのルール

AIチーム(個人戦)と、それ以外の部門が集まる混合チームの計6チームに分かれました。評価の方法は「テストデータの正答率」です。事前に10~50代(一般の方)の12名から、LINEを使って集めた21個の会話カードに関する約2000件のテストデータをもとに、正答率が高くなるよう質問パターンを追加していきます。
1時間という限られた時間の中で、いかに高い正答率を出すことができるか!?テストデータを集めたユーザー層にマッチした言葉の選び方や、比重を置く会話カードの選定、その他にもノイズをいかに減らすかなど複合的な要素が絡み合います。各チームどのような戦略を立てるのか?

 

混合チーム:蓄積されたFAQデータから質問パターンを選定

混合チームA・B・Cの戦略は、会話カードごとに担当を割り振り、カラクリが蓄積しているFAQデータの中から使えそうな質問パターンを入力し、複数人でチェックするという大枠の方針は同じでした。

そんな中、驚いたのがハッカソン用に突貫で重複した質問パターン(ノイズ)を削除する「質問パターン削除用ツール」がエンジニアの手によって作られたことです。

限られた時間のハッカソンだからこそ作業効率に特化した「質問パターン削除用ツール」。必要な質問パターンの削除・保存をワンクリックで!

 

AIチーム:検索データの利用と想定質問表現リストの作成で正答率UP

個人戦で挑むAIメンバーは、テクニカルな戦法が光ります。

■AIチームメンバー①
日本語のWordNetを使って、会話カードの一部の単語を同義語置換して機械的に増やし、質問パターンとして追加していきます。
例えば、「配送方法」という言葉は、「配送」と「方法」という単語に分けられます。この「配送」と「方法」をそれぞれ同義語で置換し、「配送の仕方は?」「郵送の方法は?」などというように機械的に組み合わせて、質問パターンを増やしていく戦法です。

 

■AIチームメンバー②
各会話カードに対して想定される質問に含まれる単語・表現をリストアップし、同義語の置換をして質問パターンを追加していく戦法です。また、1つの会話カードに対して、質問パターンを5つぐらいしか入れずに精度向上に挑んだのが、このメンバーの一番の特徴です。
例えば、「ログインできません」という質問に対しては、「ログイン、パスワード、login、password、できない、忘れた、わからない・・・」という言葉がリストアップされ、同義語が複数パターン作成されます。このとき、リストアップされた単語・表現が重複しないよう精査するところまでこだわりました。

 

■AIチームメンバー③
Google検索を使って質問パターンのたたき台を大量に入手できるようにしました。検索結果のタイトル一覧を集めるプログラムを書き、ここから必要なものを機械的にピックアップし、最後の精査を目視レベルで実施できるツールを作りました。
例えば、「ログインのID・パスワードを忘れた場合は? – リクルート ID – ヘルプ」の「 – 」以降のような必要のない部分を除外するルールを実装しました。集めたタイトル一覧に対してBERTを用いて、検索キーワードに近いものほど上位に表示するようにし、ここで表示されたものを質問パターンに入力していきます。

 

このようにそれぞれ様々な工夫を凝らして、正答率の向上に挑みました。果たしてもっとも高い正答率を出したチームはどこでしょうか?

CTOによる検証が行われ結果発表です!

 

気になる結果は・・・

第1位:Cチーム(正答率84.44%)

第2位:Aチーム(正答率84.30%)
第3位:Bチーム(正答率82.05%)
第4位:AIチームメンバー③(正答率80.38%)
第5位:AIチームメンバー①(正答率73.19%)
第6位:AIチームメンバー②(正答率67.95%)

テストデータを集めた層をしっかり把握し、若者言葉を入れたり、他のチームが注力しないであろう挨拶に注力する戦略を練ったCチームの優勝という結果になりました。テクニカルに質問パターンを作成していったAIチームメンバーでしたが、目検で精査する時間が足りず、ノイズの多いデータになってしまったようですね。

今回のチャットボット育成ハッカソンを通して、カスタマーサクセスに必要なノウハウを、普段はお客様と直接関わることが少ない部門のメンバーも体験でき、AIに対する理解度も高まりました。また、いくつかの方法を検証することができ、今後のカスタマーエクスペリエンス向上に活かしていける内容になりました。

結果の詳細は、KARAKURI Techblogにて近日公開予定!ぜひフォローよろしくお願いいたします。

これからも、私たちカラクリストはユーザー企業様のカスタマーサクセスを全社的に行っていきます!

  • このエントリーをはてなブックマークに追加

関連記事

LATEST

KARAKURI DAYS トップへ戻る

RECRUIT

「今までにないカラクリで
世の中を豊かにしたい」

私たちが掲げるミッションや、
描くビジョン、価値基準として
最重視している
『3 VALUE』に共感し、共に新しく価値ある
サービスを生み出してくれるメンバーを募集しています。