日本最大級のカラコンサイト「ホテラバ」を運営する株式会社ホテラバ様 (以下ホテラバ社) とEverforthで、これまでのECサイト開発に加え新しい接客体験をつくるためのAIチャット開発、アプリ、新店舗のモバイルオーダーシステムなどをつくってきました。

Everforthは月間数千件にもわたるお客さまの声を確認・度重なるスタッフへのヒアリングを通してホテラバ社ならではの接客業務を学習し、それをAIの回答精度の向上につなげ「接客AIチャット」を公開。さらなるシステム改善へとつなげていきました。

日本最大級のカラコンサイト「ホテラバ」の接客AIチャット開発プロジェクトの全体像

今回は徹底的なドメイン理解をいかに技術と組み合わせていくのかについて、ホテラバ社でのAIチャット開発を例にまとめます。

「ホテラバ」は日本最大級のカラコンサイトです。商品開発から販売までを一連で行うホテラバはお客さまに非常に愛されているサービスです。

SNSのフォロワーは20万人を超えており、熱狂的なユーザーの方たちからカラコンの使い方や探し方について月数千件もの質問がホテラバ社にきています。

ホテラバ社のスタッフはその質問に一件一件手動で回答をしていてどうしてもタイムリーな返答は難しく、どうすれば購買意欲のあるお客さまを待たせず質問に答えられるかが課題となっていました。

ホテラバ社の課題: 月数千件のお客さまからの質問にもっと早く回答したい

私たちはこの解決策としてタイムリーに提案と会話のラリーを繰り返せるようにするAIエージェント開発を選びました。

質問の中には人間でも対応が難しいものがあります。正確に1問1答で対応することより、早くお客さまが求めてそうな商品を提案してユーザーからまた要望をもらって、、と会話を繰り返すことが必要でした。

月数千件の質問に対して内容として違和感のない回答をすぐに返答できるAIができれば、ホテラバ社にとってもユーザーにとってもメリットがあると捉えてEverforthがプロジェクトの推進を始めました。

このプロジェクトにおいて最もポイントになるのはカラコン特有の「お客さま語」をEverforthのメンバーが理解し、それをAIに落とし込んでいくプロセスでした。

プロジェクト全体の進め方のポイント

カラコンを探すユーザーのみなさまは「学校でバレにくいツーウィーク」「外デートで盛れるワンデー」「モラクのダズルグレーに似てる」といった、カラコンユーザーなら一般的でありつつよく知らない立場だと解釈が難しい言葉でカラコン探しを始めます。

ホテラバ社のスタッフはこの言葉から「であればこのようなカラコンがおすすめです」と頭の中で商品情報への変換をかけています。このカラコン特有の言語や情報を現場のスタッフと同じくらいEverforthのメンバーが理解していかなければ精度の高いAIチャットはつくれないため、深いドメイン理解が求められるプロジェクトでした。

まずプロジェクトを開始した後すぐにAIチャットを開発。ホテラバ社内で使えるお試し環境を構築し、利用状況をログで取得できるようにしました。

Everforthでは、AIチャットのクオリティを磨くためにはできるだけ早く実環境で使えるものを提供して、実際の行動を観測できる状態を早急につくることが大事だと考えています。

プロジェクト開始後すぐにv1としてAIチャットを開発し、ホテラバ社のスタッフに触ってもらえるように

基準としては最も早ければ数日、遅くても1ヶ月以内には実データを読み込んで使えるものを用意します。長期間をかけて調査をした後にプロダクトをつくるアプローチはほとんどせず、触ってもらいながら何度も壊して磨くことに時間を使います。

もちろんここでも汎用的なLLMだけ提供することはしません。過去の質問にも目を通し、実際の商品データや外部公開記事・既存のシステムのマスターデータなどを確認してできるだけクオリティを上げた状態でのAIチャットをお渡しします。

v1の時点でもできるだけクオリティを上げておく

AIチャットのクオリティは実際の行動からしか判断しづらいので、断片的なヒアリングではなく利用ログを確認する方がより正確に問題を把握できます。なので調査から始めるのではなく、実業務でも触れるクオリティのお試し環境をまずは用意しています。

普段お客さまの質問に対応しているホテラバ社のスタッフにお試し環境を触ってもらい、その裏側ではすべての会話のログや評価をEverforth側で確認しつつ修正点を探ります。

お試し環境では「ここはこう回答して欲しかった」というフィードバックや会話も回収できるようにしていて、それをすべて確認した上で課題を把握していきました。もしログや評価を見ても真意が掴みきれない場合は「実際どうなれば嬉しいか」とホテラバ社のスタッフとディスカッションも行っています。

ログやフィードバックを確認し、理解しづらい点やうまく使えてなさそうな点があればディスカッション

ログをもとに「あれ、うまく会話が起こっていないな」と違和感を見つけてその理由を深ぼることで、本当に現場で使える精度の高いドメイン理解が進んでいくように考えています。

ログの確認やディスカッションを行いながら得られた知見を活かして “深くドメインを理解したAI” を設計していきます。

現在スタッフが脳内で行なっている質問への対応をシステムのアーキテクチャに変換するイメージです。最終的に構築したアーキテクチャは以下のようなものになっています。

一点補足しておくと、この取り組みは2024年後半にまだ今ほどAIエージェント開発環境が発達していないタイミングで行っていたことなので、LLMを一回コールして戻ってきた結果を次の処理に渡して、、というワークフロー型のつくり方をしています。(今つくるとしても基本的な考え方は変わらないのですが、全然違う設計になる可能性はあります。)

その中でも、今やるとしても変わらないであろうポイントをまとめておきます。

AIチャットをつくるといっても、すべてをLLMで完結させる必要はありません。むしろプログラムの方が得意な箇所もあるので既存のソフトウェア技術が使えそうなところは積極的にプログラムを書くようにしています。

例えば今回のAIチャット設計においても、まずは商品をうまくフィルタリングしてくるための検索機能をプログラムで設計しています。

まず最初につくったのはLLMではなく、検索機能と商品データのテーブル

キーワード検索やベクトルDBを使った検索に頼るのではなくできるだけメタデータでフィルターできる情報を増やせば増やすほど検索の精度は上がるので、実際の商品のデータと「どういう風に探したいか」というユーザーの意図をもとにデータのテーブルと検索システムを用意しました。

ただこのまま検索画面のようなものをつくってもスタッフやユーザーが使いこなすのはどう考えても難しいはずなので、ユーザーの発言から求めているものをうまく読み取り検索を代わりにしてくれる部分をAIに担わせようという発想で設計を進めています。

検索システムができた後にLLMでの処理を設計していきました。ここでやりたいのは「ユーザーのやりたいことを読み取って、適切に検索条件に当てはめて、商品データを取得してくる」ということです。

これを一回のLLMの処理でできるかというと全くそんなことはなかったので、処理速度と回答の質を保持するために、複数のAIエージェントとプログラムを組み合わせてフローを構築します。ホテラバのAIチャットでいうと以下のように役割を分けています。

  1. 前後のやり取りを踏まえて要望を文章化... LLM

  2. 業界知識を踏まえて検索条件に変換... LLM

  3. 検索条件をもとに商品データを検索... プログラム

  4. 質問内容に合わないものを除外...  LLM

  5. バリエーションを拡充... プログラム

  6. 検索条件との不一致、提案済みのものを除く... プログラム

  7. 提案する商品を10件に絞る... プログラム

  8. 短文で自然な回答を生成... LLM

業務を分解し、用途に合わせた複数のLLMとプログラムを組み合わせてフローを設計

まず会話のラリーの中でも「商品を探したい」「単に日常会話やリアクションをしている」「提案への質問をしている」という要素を見極めて、要望に変換するAIエージェント (*図中1) を置いています。とある商品を探す場合にも「モラクのダズルグレーに似てるワンデーを...」のように他商品を引用して質問することもあるので、その際にはその商品を特定するフローも挟むようにしています。

また、その文章化された要望をメタデータに当てはめて変換(Describe / Extract)、読み取れていない文章もドメイン知識を補完してタグ化 (Tagging) という手順で3つのAIエージェントを組み合わせて検索条件を抽出しています。(*図中2)

逆に、検索してきた商品データを拡充、提案する商品を10件に絞り込むなどの処理はプログラムで行うようにしています。(*図中5, 6)

このように、複数のAIエージェントを用途に合わせて使い分けつつ、プログラムの方が良い部分はプログラムで処理することで、精度が高く処理も早い構造がつくれます。

検索に至るまでのLLMの動きのイメージ

特に専門的なドメインであればあるほど、LLMにそのドメイン特有の知識を読み込ませなければ出力の精度が低くなってしまうことを想定する必要があります。

ユーザーの会話の中には、カラコン探し特有の言葉 (汎用的なLLMでは理解できない、ドメイン特有の情報) があったりします。例えば「学校でバレづらい」「外デートで盛れる」といった言葉です。

このような言葉は、LLMだとしても汎用的なモデルでは処理ができないので、ログやヒアリングの中でこのような言葉を見つけたら、それを一つひとつプロンプトで説明するようにしました。(前述したTaggingという箇所に、このプロンプトを適用)

汎用的なLLMでは処理しづらいカラコン探し特有の言葉をプロンプトで説明する

イメージとしては、接客をしているスタッフが脳内で行なっている処理を言語化したようなものです。例えば以下のような指示を与えています。(*実際は画像のように英語で記載)

「バレない」「学校で使える」「裸眼に近い」と言われたら、それは “日本人の裸眼に似ている色のカラーコンタクトを求めている” ということです。これは “色” の話だと理解してください。ただし、実際に求められているのは “ユーザーの目の色” に近いことです。なので、もしあなたがユーザーの目の色を知っているなら、具体的に「ブラウン」「青」などその色と同じようなカラコンを提示し、もし知らなければ「黒目に似合う」「茶目で盛れる」などフリーワードで回答してください。

このようなドメイン特有の単語に対する処理のパターンを踏まえて回答してもらうことで、実際の接客スタッフと比べて回答の質を落とさないことを目指しています。

プロンプトを活用したTaggingのLLMの処理イメージ。「ギャルっぽい」などの言葉がうまく商品データに紐付けた検索条件に変換されている

AIチャットのクオリティは完全に定量的に見極めることは難しいので、「ドメイン理解を持っている現場の方の行動が爆発的に生まれ出す」タイミングを見極めることで評価します。

AIの精度が低いころは、2〜3回試して「ここがまだ微妙ですね」と触るのをやめてしまうことが多かったりします。「どうせ言っても改善されないだろう」とフィードバックもあまり生まれません。

一方で、ログやヒアリングによって得られたドメイン知識をもとにAIチャットを磨き込み続けると、あるタイミングで「これは使える」「こういうこともできますか?」と反応が前のめりになる転換点がきます。

AIチャットのクオリティは「爆発的に行動が生まれ出す」タイミングで評価。一定ラインを超えると前のめりなフィードバックが生まれ出す転換点がくる

まるで人間だと思えるような回答というレベルに達していくと、明らかにこれまでとは違ってAIチャットを使い倒す人や「さすがにAIでも無理だろう」というような期待のあるフィードバックも大量に生まれてきます。

AIチャットが現場で使える存在だと認識された時、自然とこちらから提案するまでもなく「いつリリースできますか」という声をもらえるようになっていきます。

今回に限った話ではありませんが、UIなどの調整は最終段階で行います。

上記のような転換点を迎えると「実際にお客さまに見てもらうならば...」と実業務で利用した際の見え感についてのフィードバックも生まれ出すので、そのタイミングまではUIは特に磨かず最終段階で整えていきました。

リリース前の段階で、最後にインターフェースを整える。それまでは精度向上に注力

toCサービスなので、ホテラバを利用するユーザーが普段慣れ親しんでいるホテラバのSNSのトーンにテキストも調整。イラストを加えたり、「得意なこと」「苦手なこと」を明記して愛着を持って使ってもらえるよう意識しています。

このような流れで2024年12月にホテラバのAIチャットをリリースしました。

このページは一年が経った今でも多くのユーザーの方や、社内での商品検索業務に活用いただいており、当初課題としていたタイムリーな質問対応に大きく貢献しています。

さらに付加価値として、このAIチャットのプロジェクトから得られたドメイン知識が他のプロジェクトにも活用され始めています。

これまでは見えていなかった接客上での会話からお客さまの悩みや傾向などが多く見えていく中で、 ホテラバ社のスタッフからしても「そんな行動をしてるの?」と新しい発見が多く見つかることとなりました。

例えばAIチャットを運用し始めた後に「AIチャットで実際に検索に使われている条件や、どんな商品がクリックされているかの情報をもとにマーケティング施策などに活かせるインサイトが得られないか」という相談を受けたことがあります。

そこでEverforth側でAIチャット構築の中でわかってきたドメイン知識をもとにログからわかるユーザーの傾向やデータをまとめてマーケティング施策用に活用しやすいように整備しました。これを使ってマーケティング担当のスタッフはユーザー向けの記事作成を行なっています。

これまでブラックボックスだった接客中の対応やユーザーの傾向・会話データが収集できるようになったことで、マーケティング施策にも活用できるように

プロジェクトを通して得られたドメイン理解を活かして、Everforth側でホテラバの接客体験をさらにアップデートできる箇所がないかも検討を進めていきました。

ドメイン知識を活かして、アプリ開発や新店舗のモバイルオーダーシステムなどもEverforthが主導

例えばアプリのリニューアル。お客さまが求めている体験をすでにある程度理解できていたので、Everforthとして戦略の整理をリードし要件設計や開発までを担うようになりました。

さらにSHIBUYA 109に出店したリアル店舗の中で使うモバイルオーダーシステムを開発。今回のAIチャット開発でユーザーの方の特性やホテラバ社のスタッフの業務を深く理解できていたので、プロジェクトが広がっても問題なく対応することができています。

Everforthとして大切にしている姿勢の一つが「徹底的にドメインを理解し、技術と組み合わせていく」ということです。

単にAIエージェントを開発する技術力があるだけではお客さまや社員に本当に使われるサービスにはなりません。その業界特有のドメイン知識や業務に取り組む方だからこそ知っている暗黙知を丁寧に引き出し、それをAIで置き換えていくようなドメイン理解と技術力の両方を扱えることが重要です。

なのでEverforthの開発組織では、技術の強みをフルに活用するためにも良いものをつくるために領域を区切らずに柔軟に動くことを推奨しています。

Everforthのメンバーは技術・デザイン・ドメイン理解と役割を固定せずそれぞれが必要に応じて柔軟に動きます。もちろん得意不得意はチームで補い合いながら、広い役割を担うメンバー同士がコラボレーションしてものづくりに取り組んでいます。

深くドメインを理解することで技術をより活用できるようになり、さらには一つのプロダクトだけでなく全社の体験まで変えていく動きができるようになります。

パートナーの事業を一歩先に進めていくために、徹底的なドメイン理解から技術・デザインを組み合わせたEverfothのものづくりを今後も続けていきます。