新着記事

音声注文を始めた米スターバックスの狙いとジレンマ

米スターバックスが1月に発表した音声注文機能「マイ・スターバックス・バリスタ(My Starbucks Barista)」。すでにリリース済みの注文・支払い用アプリ「Mobile Order and Pay」に追加される新機能で、音声によって商品を注文できるというもの。ついにスターバックスも人工知能(AI)系のサービスを投入してきた、ということで話題になりましたね。 メディア向けに公開されたデモ動画では、スマホを手にした女性が「フラットホワイトと温めたバナナブレッドをください」と注文する様子が紹介されています。 https://www.youtube.com/watch?v=v1pyZiDVlRw ただこの機能はまだベータ版。現在アメリカで試験的に1,000人のみに公開されている状態です。正式リリースは、iOS版が2017年下期、Android版が2018年になる予定とのこと。 スマホアプリ強化と狙いとジレンマ 現在アメリカのスターバックスにとって、アプリを通じた注文や支払いの利便性を高めることが至上命題となっています。 同社が2016年12月に発表した5か年計画の中でも、アプリ利用の促進はデジタル戦略の中心として位置づけられています。 スマートフォンを使って手軽に注文できるようになれば、その分だけ販売数の増加を期待できます。これまでの「Mobile Order and Pay」では、ボタンを押すと商品を注文できるというものでしたが、注文できる商品は限られていました。 今回追加された音声注文機能によって、ディスプレイをたたかずとも注文を済ますことができるだけでなく、「熱めにして」「ミルクは無脂肪乳で」などより柔軟なオーダーもできるようになります。 おそらく新機能によって、スマートフォンを通じた売上はますます増えると思われますが、実は単純に増えすぎても困るというジレンマもあるようです。 背景はこうです。 ここ数年アメリカのスタバでは商品を受け取るまでの待ち時間の長さが問題となっているため、その解決策としてスマートフォンでの注文・支払いを促進したいという事情がありました。 一部の人気店舗では、店内が客であふれかえってしまい、その様子を目にした来客が買わずに帰ってしまうという状態が相次いでおり、売上に悪影響を及ぼしている状態なのです。 そこで同社は、ボタンを押すだけで注文できるアプリ「Mobile Order and Pay」を2015年9月にリリース。来店前に注文と支払いを済ませることができるので、店内の混雑解消に役立つと期待されていました。 このアプリは人気を集め、着実にダウンロード数を伸ばしていきます。実際にアメリカ市場での売上において、スマートフォンでの注文が占める割合は、2016年末までの1年間で4倍の8%にまで上昇しました。 ただスターバックスにとっての誤算は、手軽に注文できるアプリの人気によって、現状の運営体制でさばききれないほど来客数が増えた店舗が続出してしまったことでした。 アメリカにあるスターバックスの中で、「混雑」状態にあるとされる店舗の数は、2016年末までの1年間で、600店舗から1,200店舗まで倍増したといいます。 ハワード・シュルツ最高経営責任者(CEO)は、2017年1月に行われた決算発表会にて次のように発言しています。 「Mobile Order and Payの利用が急激に進んでいる。特に過去3か月間の伸びが原因で、来客数の増加に対処できない店舗数が増えている」。 つまり混雑を解消するために投入したアプリが原因で、皮肉にもかえって混雑状態が悪化してしまったことになります。 シュルツ氏は同じ席にて、「この問題を非常に重要視している」と発言。作業手順や設備の改善に加え、商品が出来上がったらメールで通知するといった対応策を、アプリの利用が多い上位1,000店舗に対して実施していくとしました。 今回発表された音声注文機能によって、さらに来客数の増加に拍車がかかることになりそうですが、本格リリースは少し先なので、その間に客の受け入れ態勢を整えていくということでしょう。

日本にもボイス時代到来!Amazon Echo連携の先行事例7選

Amazonの人気スピーカー型電子秘書「Amazon Echo(エコー)」の国内販売に向けて日本法人が動き始めた、という情報がいろいろな方面から入ってきた。(関連記事;日本でもAmazon Echo年内発売?既に業界は戦々恐々) 連携するデバイス、サービスの数が7000を超えたAmazon Echoは、スマホ全盛時代に終止符を打ち、ボイスの時代の幕を開けるデバイスと言われている。 スマホ時代の幕開けの時期にアプリ開発競争が繰り広げられたように、今年から日本でもボイス搭載デバイスやサービスが次々と登場するかもしれない。 ボイス機能で、どのようなデバイス、サービスを開発できるのだろうか。 さすがにAmazon Echoと連携する7000以上のデバイス、サービスのすべてを見て回ることはできないので、Amazon自体が出資しているものや、開発者コミュニティで話題になっているものを中心に調べ、その中で日本でも使えそうなものを7つ厳選して紹介したい。(ITジャーナリスト:湯川鶴章) Echoはハード、Alexaはソフト その前に重要な用語を整理しておきたい。Echoは、スピーカー型ハードウェアの名称。Amazonが現在、米国で販売しているのは、ノッポのEcho、少し小さめの廉価版である「Echo Dot」、それに利用する前にタッチが必要な「Echo tap」の3種類がある。 「Alexa」はEchoに搭載されている音声認識AIの名称。つまりEchoはハード、Alexaはソフトということになる。メディアではEchoのほうが取り上げられることが多いが、7000以上のデバイス、サービスが連携された今、AIであるAlexaのほうが重要性を増している。 開発者向けのサービスや開発キットには、Alexa Voice Serviceと、Alexa Skills Kitの2つがある。 前者は、クラウド上に音声認識機能が乗っていて、そこに音声データを送信するだけで、返答が返ってくるサービス。マイクとスピーカーさえあれば、Echoと同様の機能を持つデバイスを作れることになる。 後者は、Echoからコントロールできるデバイスやアプリを開発するための開発キット。 つまり前者は、コントロールする側のためのもの。後者は、コントロールされる側のためのもの、ということになる。 またAmazonは、連携するサードパーティのデバイスやサービスを「スキル」と呼んでいる。サードパーティとの連携が増えることで、Echoができること、つまりスキルが増える、という意味だ。 【関連情報:何度同じ質問をしても怒らないAIエンジニアによる「ビジネスマンのためのAI講座」2期生募集中】 調理中にカロリー計算Prep Pad 僕が最もおもしろいと思ったのは、スマート・キッチン・スケール(重量計)のPrep Pad。まな板のようなスケールに食材を載せて、スマホやタブレットのアプリに食材名を入力すれば、カロリーや栄養成分を瞬時に計算してくれるというもの。調理しながら、1つ1つの食材の重さを図っていくことで、完成した料理のカロリーと栄養価の計算ができるようになっている。 このままでも結構人気のデバイスのようだが、Alexaと連携することで、食材名を音声で入力できるようになる。料理しながらの濡れた手で、タッチスクリーンを操作するのは面倒。ボイス入力を可能にすることで、操作性が格段に向上するわけだ。 【ポイント】手を使えない状況。そうした状況にボイス機能は、最も力を発揮する。 冷蔵庫にピタッと音声機能:Triby Tribyは、フランスのベンチャー企業inovoxiaが開発したコミュニケーションデバイス。wi-fiを通じて、電話をかけたり、メッセージを表示したりできる。音楽をかけることもできる。 アイデア自体はEchoに似ているが、冷蔵庫に貼り付けることを想定した形状になっている。 Alexa Voice Serviceにアクセスできるようにすることで、Echo並みに多くのスキルを簡単に実装できるわけだ。 【ポイント】Echoとは異なる場所での利用に特化した形状にすることで、Echoとのバッティングを避けることができる。 wi-fiで簡単設置のIntercom:nucleus 電源につないで壁にかけるだけで、簡単に設置できるIntercom。wi-fi接続なので、工事いらず。各部屋に設置できるし、遠くに住む親戚でさえ、まるで同じ家に住んでいるかのように簡単にテレビ電話ができる。1台約2万円なので、iPadよりも安い。 Alexa Voice Serviceにアクセスすることで、IntercomがEchoの全機能を持つことになる。 【ポイント】デバイス自体は、1つの機能の使い勝手に徹底的にこだわったシンプルなデザインにし、Alexa連携で無数の機能を追加する、という形がいいのかもしれない。 ボイスベースのランニングコーチ:M.A.R.A M.A.R.Aは、基本的にボイスでコントロールするランニング・アシスタント・アプリ。ジョギングの時間や距離、ペースを記録したり、雨が振りそうになれば警告してくれる。ジョギングの最中に音楽も再生してくれる。 Alexaと連携することで、ジョギングが終わって、リビングでリラックスしているときにリビングのEchoに対して「Alexa、今週は全部で何キロ走った?」とか「Alexa、今週のランニングのペースの平均値は?」などと聞くことができる。 【ポイント】スマホをポケットから出すのさえ面倒に思われる瞬間というものがある。その瞬間こそがボイスの出番になる。ちょっとした使い勝手の差は、過小評価されることが多い。しかしヒットするかしないかは、ちょっとした使い勝手の差によるところが大きい。 Mojio Mojioは、コネクテッド・カー・ソリューションのリーディングプロバイダー。Mojioデバイスを自動車のOBD-Ⅱポートに接続することで、車の走行距離や診断データを入手できる。Alexaと連携することで、Echoデバイスから「Alexa、会社へ行く前にガソリンを入れたほうがいい?」「Alexa、今、娘が運転している車は、どの辺りにいるの?」などと質問することができる。 【ポイント】スマホアプリは、基本的にはすべてボイスベースにすることが可能。ただどの用途がタッチスクリーンに向いて、どの用途がボイスに向くのかを、しっかり考える必要がある。ボイスにできるからといって、すべてボイスに変える必要はない。ただ出勤前のバタバタしているときに、ガソリンの量をボイスで確認できるのは確かに便利。こうしたキラー用途を見つけ出せるかどうかがポイント。 話ができるぬいぐるみThe Talkies The Talkiesは、マイクとスピーカーと通信機器が内蔵された子供向けのぬいぐるみ。親のスマホとの間で音声メッセージの送受信ができる。Alexa Voice Serviceにアクセスすることで、Amazonのオーディオブックでの読み聞かせが可能になる。 【ポイント】Amazonは、米国の一部地域で、Alexaの対話AI「Amazon Lex」の一般提供を始めた。従量課金で、1000スピーチリクエストが4ドル。競合他社よりも利用しやすい。Amazonの音声技術を使ったコミュニケーションロボットが多数、開発されるかもしれない。 スマートホテル これは製品ではなく、開発コンテストの入賞作品。ホテルの部屋に置かれたAmazon Echoに対して、音声でルームサービスを注文すると、スマホのAlexaアプリに画像や動画が表示される。Alexaとの対話の中で画像も表示できるので、宿泊客に対してより親切な対応ができる。ルームサービスだけではなく、チェックアウトなども簡略化できるはず。 【ポイント①】B向けへの利用が期待できる。 【ポイント②】高齢者などスマホを使いこなせない層も、ボイスで対話しながらなら、インターネットを使えるようになるかもしれない。 まとめ:スマートホーム以外を狙え 家電メーカーは一斉にAmazonに対応してくるだろう。米国の状況を見ていると、対応しないと売れない時代になるような気がする。なので今までの家電をAmazonに連携させるだけでは差別化にならない。 また米国の先行事例のほとんどはスマートホーム関連。プールの水質管理や、ガレージドアの開閉、ガーデンの水やりなどを、リビングルームのEchoからコントロールできる、というようなものが多い。米国に比べて狭い家が多い日本で、スマートホーム関連で大きなヒット製品が生まれるのかどうか。 それより日本ならB向けや、高齢者向けのデバイスやサービスに可能性があるように思った。 →【ビジネスマンのためのAI講座】詳細はこちら

郵便ポストサイズでも識別可能、ビジネス活用が進む衛星写真の解析サービスとは?

突然ですが、DigitalGlobe(デジタルグローブ)というアメリカの会社をご存知でしょうか? 自前の超小型人工衛星によって撮影した人工衛星写真を販売している会社です。顧客としてグーグルやアップル、マイクロソフト、アメリカの政府機関といったメジャーどころを抱えているものの、誰もが知っている企業というわけではないかもしれません。 しかし知らぬ間に同社のサービスに触れていることは多いはず。たとえば誰もが使っているGoogleマップ。ここに載っている衛星写真の一部は、デジタルグローブが保有する衛星によって撮影されたものです。 また彼らは、今回のお題でもある人工知能関連のサービスも提供しています。それがディープラーニング(深層学習)を活用した衛星写真の解析プラットフォーム「GBDX」。 GBDXには、デジタルグローブがこれまでに撮りためた膨大な衛星写真(90ペタバイト!)がアーカイブされています。これらを解析することで、「何が映っているのか?」「いくつ映っているのか?」「それらが時系列でどう変化したのか?」といったことが分かります。 それが自動で分かるとどうなるの?と聞かれそうですが、後で紹介するように、応用範囲はとても幅広いです。しかも仮に人間が衛星写真を目視で分析しようとすると、とてつもなく大変なわけです。 例えばこちらの画像。ナイジェリアの衛星写真で、地図にもなっていない奥地です。この画像には、集落がいくつも映っています。 ワクチンなどの必要物資をこうした未開の地の人たちに届けたい、という機関があった場合、これまでであれば衛星画像に映る彼らの居場所を目視で調べていたわけです。気の遠くなるような作業ですね。 けれどもGBDXであれば、こんな風に自動で検知できてしまいます。しかも場合によっては1秒間に何十件というペースで。 GBDXは人道救助から保険、農業、石油輸送、環境保護、さらにはUberのサービスにも採用されています。 機械学習による衛星写真の解析というのは、これからどんどん身近になっていくのだろうなと感じさせますね。しかも事例の内容も結構面白いものばかり。「こうやって使うものなんだ」というのを知っていて損はないと思います。 いくつかピックアップして紹介しましょう。 プールがある住宅を探せ 保険会社にとって、都市にある無数の建物の中から、プールがある住宅を見分けるということは、保険の査定などのために非常に重要です。 しかし衛星写真をもとに、人間が目視で見分けるというのはとても困難。プールによって色や形、サイズは様々ですし、場合によってはブルーカバーやトランポリン、小さな建築物などをプールと見間違えることも。あまりに膨大な時間と手間がかかるので、人間では事実上不可能です。 かといって全て機械学習に置き換えれば済む話でもありません。確かに機械学習であれば人間による作業よりも圧倒的に速いですが、正確性は劣ってしまうからです。 人間よりも速く、かつ正確に。 これを実現するための対策が、人間による目視の作業結果をもとに、ディープラーニングによってシステムを学習させる方法です。 デジタルグローブは、Tomnodというクラウドソーシングサイトを運営しています。ここで住宅地の衛星写真を公開し、一般ユーザーにプールを見分けてもらうというキャンペーンを実施しました。 ここでの結果をもとに、プールを含む住宅の画像ピクセルの特徴を学習することで、機械学習の精度を高めていったといいます。その結果、88%の精度で1秒間に60件以上のプール付き住宅を自動で見分けることができるようになったそうです。 街並みの変化を追え 配車サービスのUberは昨年7月、デジタルグローブによる衛星写真の活用を始めました。 タクシーの乗客をピックアップする最適な地点を見極めるためだそうです。そのためには日々の街並みの変化、つまり新しくできた道路や工事中の場所、標識の変更などを迅速に把握する必要があります。公式の地図に追加されてからでは遅いのです。 デジタルグローブであれば、最も精度の高い衛星だと30センチメートルほどの物体でも識別できます。つまり標識や郵便受けサイズの変化でも検知できるということです。 またUberが目指す自動運転による配車サービスの実現にも、こうした情報が活用されるとみられています。 政府の安全基準をクリアしろ 最後の事例は、石油やガスのパイプライン輸送業者。 アメリカでは、石油やガスをパイプラインで遠方に輸送する事業に、数百社に上る企業がたずさわっています。 アメリカ全土に敷かれたパイプラインの全長は、石油で350万キロメートル、ガスで48万キロメートルに及ぶそう。 こうしたパイプラインは人里離れた地域だけでなく、人口が密集したエリアも通ることから、災害や設備の不備によって人に危険をおよぼす可能性があります。そのため連邦政府はとても厳しい安全基準を設定。定期的かつ詳細な検査やメンテナンス、改良を求めています。 こうした基準の厳しさは、パイプラインから市街地までの距離など、周辺環境によって変わってきます。もちろん周辺環境、つまり建物や道路、土地の活用などは時と共に変化します。そのためオペレーターたちは、こうした変化を常に把握して、必要に応じて設備を対応させなくてはなりません。 周辺環境の変化を把握するために、人力でモニタリングする方法もあります。たとえばオープンソースで作られる世界地図であるOpenStreetMapをウォッチしたり、Twitterに投稿されたツイートを分析して、関連しそうな内容を抽出するといったやり方です。 そしてさらに効率と精度を上げるために、活用が始まっているのがデジタルグローブのGBDX。機械学習とクラウドソーシングの組み合わせによって、パイプライン周辺の変化をより的確かつ迅速に知ることができるとのこと。 ビジネスから人道支援まで、幅広い分野で実用化が進むGBDX。ちなみに分析できる地域は限られるものの、無料で使えるプランもあるようですね。

AI時代、NVIDIAが当面は無敵と思える理由

最近の株式市場もAIブーム。その中で最も注目されている銘柄が米半導体メーカーNVIDIA(エヌビディア)。同社の株価もすごいことになっているが、最近では同社と提携する企業の株価も高騰する傾向にある(関連記事:AI相場“中核”、NVIDIA関連の「神通力」)。 果たしてNVIDIAは、このままAI時代の覇者として逃げ切ることになるのだろうか。日本法人のDeep Learning部長の井崎武士さんにお話を聞いた。(ITジャーナリスト・湯川鶴章) 2000個のCPUの計算を12個のGPUで実現 そもそもNVIDIAって、いつAI企業になったのだろう。ゲーム用半導体のメーカーと認識していたのは僕だけじゃないはず。 世界中のAIの研究者がNVIDIAのGPU(Graphics Processing Unit)に注目したのは2012年といわれる。Googleが2000個のCPU(Central Processing Unit)を使ってニューラルネットワークを構築し、YouTubeのサムネイル画像の中から猫の画像を認識させることに成功したが、それと同じ実験をスタンフォード大学のAndrew Ng(アンドリュー・エン)氏が、わずか12個のNVIDIA製GPUで再現した。大量のコンピューターを持たなくてもAIを作ることができることに気づいた世界中の研究者たちが、NVIDIAのGPUに飛びつき、AI研究が一気に加速したと言われている。 それまでのAI研究って、冬の時代だったと言われている。長年に渡ってどうしても超えられない山があったわけだが、急に冬の時代から抜け出せたのには3つの要因があるといわれている。1つには、Deep Learningという新しい手法が登場したこと。2つ目は、大量のデータがネット上に溢れ出したこと。そして最後の要因は、NVIDIA製GPU。NVIDIAのGPUのおかげで、AI研究・開発の低コスト化が進んだからだと言われている。 新しい手法と、それに必要な大量のデータ。そして、低コスト半導体で研究の裾野が一気に広がったことで、新たな技術、手法が次々と登場している。そしてその勢いは、今日でもまだ一向に減速しそうにない。 そういう意味で、NVIDIA製GPUの果たした功績は大きい。取材先の研究者に聞いても、半導体ハードウェアはNVIDIA一択だというような話が多い。NVIDIAはAI時代のハードウェアの覇権を握ったのだろうか? とはいうものの一方で、競合他社によるAIチップ開発のニュースが次々と出始めている。こうした動きを、NVIDIAはどう見ているのだろうか。 NVIDIAに待ったをかけるインテル 例えば、Intelは「Xeon Phi(ジーオン・ファイ)」の新バージョンをディープラーニングに最適だとして発表するなど、この半年ほどで猛烈な追撃を始めている。日本のAIベンチャーに話を聞いても、インテルからの営業が精力的になってきているという。 Intelと言えばパソコン全盛時代に、Microsoftとともに時代の覇権を握った半導体メーカー。技術力は半端ないはず。 Intelは、Xeon Phiの発表文の中で「128のノードのインフラを使って学習させたところGPUの50倍速かった」と、NVIDIAのGPUより優れていると書いている。NVIDIAは、早くも追いつかれてしまったのだろうか。 これに対してNVIDIA日本法人の井崎武士氏は「正式に説明文を出したのですが、インテルさんの発表の中で使われていたのはNVIDIAの2世代前のGPU。最新GPUではNVIDIAのほうが断然速いんです。インテルさんのハードウェア開発能力を持ってしても、まだわれわれには追いついていない状態なんです」と胸を張る。 とは言っても巨人Intelが本気を出し始めたわけだ。NVIDIAがいつまでも安泰というわけにはいかないだろう。 「そうかもしれませんが、ただ勝負は半導体というハードウェアだけの話ではないと思うんです。われわれはハードウェアとしてはGPUを持っていますが、そのGPUの性能を最大限利用できる開発環境としてCUDA(クーダ)というものを独自に用意しています。それが他社とは異なるところです」。 とは言ってもGPUの上に乗る言語として、OpenCLなどオープンソースの言語がある。 「業界標準フレームワークのOpenCLで実装するアプローチも当然あります。それは特に一般に流通するソフトウェアの互換性を保つためには有効に働きます。一方、研究で利用されるときには動く環境が決まっていることが多いため、より性能を出しやすい、そして使いやすい(開発サポートが手厚い)ものが選ばれます。われわれはOpenCLを一応はサポートしているのですが、それとは別に最大限性能を引き出してもらうためにCUDAを用意しています」。 CUDAはそんなに使いやすいのだろうか。 「ただCUDAという開発環境で誰でもDeep Learningを簡単に作れるかというと、CUDAを使いこなすのにもそれなりの能力が必要になってきます。なのでCUDAの上にDeep Learning用のライブラリ、GPUとのコミュニケーション用のライブラリなど、各種ライブラリを用意しています」 「それでも開発は簡単ではありません。なので、オープンソースのフレームワークが幾つか登場しています。例えばUCバークレーの『Caffe』、Facebookの『Torch』、日本のPreferred Networksが作った『Chainer』などがそうです。そうした主だったフレームワークの開発者とNVIDIAは緊密な関係にあり、われわれは積極的にフレームワーク開発のお手伝いをしています。どのフレームワークでもCPUと同じようにコードを書いて、『GPUを使う』という設定にするだけで、GPUを簡単に使うことができるようになっています」。 「こうしたところまで競合他社が環境を整えられているかというと、まだどこもできていません。われわれはこの数年、こういった開発環境の整備に注力してきました。ですので今から他社が参入してきても、すぐに追いつけるわけではありません。たとえハードウェアでNVIDIAと同様もしくは超える製品を作れたとしても、そうした開発環境まですぐに用意できるわけではないのです。なので当面は他社がそれほど脅威になるとは思っていません」と言う。 Googleも半導体を独自開発 インテルだけではない。GoogleやMicrosoftなども、NVIDIAに追いつき、追い越そうとしているという話が聞こえてくる。 Googleは新しくTPUと呼ばれる半導体を開発した。日経コンピュータの記事によると、TPUはディープラーニングのために開発されたASIC(Application Specific Integrated Circuit、特定用途向けIC)で、GPU(Graphic Processing Unit)やFPGA(Field Programmable Gate Array)といったディープラーニングの処理に使用する他の技術と比較して「消費電力当たりの性能は10倍」とGoogleのCEOが主張しているらしい。 これに対し井崎氏はこう解説する。「Googleさんが新しく開発したハードウェアTPUは、特化型の半導体なんです。Deep Learningが成熟してきて、『この問題はこのアルゴリズムで解ける』というようなフェーズに入ってくれば、特化型の半導体でもいいと思うんです。でも現状では、毎日2、3本のペースで新しい論文が出ています。新しい最適化の方法、新しいニューラルネットワークの形が、日々登場しています。そうした新しい知見に応じて、ハードウェアを常に更新していくというのは、大変なコストになります。すべてのAIを特化型半導体をベースに作るというのは、リスクが大き過ぎると思うんです」。その証拠にGoogleは、いまだにNVIDIAのGPUを購入し続けているようだ。用途が決まっているところには特化型を、まだまだ進化の最中のところにはNVIDIAのGPUを、ということなのだろう。 MicrosoftはFPGAに社運を賭ける Microsoftも動き出している。Microsoftが力を入れているのはFPGAと呼ばれるタイプの半導体だ。 今日(こんにち)のGPUは、実行するソフトウェアによって機能を自由に定義・変更できるプロセッサーというタイプの半導体。反対にGoogleのTPUなどのASICは、すべての機能が回路としてハードウェア上に焼かれていて、変更できないタイプの半導体。FPGAはちょうどASICとGPUの中間のような存在。ハード上の一部回路を書き換えることで機能変更が可能なタイプの半導体だ。 Wiredの記事によると、Microsoftは、そのFPGAに社運を賭けているという(関連記事:Microsoft Bets Its...

「目指すは日本ならではのチャットボットの形」、サイバーエージェント石川大輔氏

日本企業によるチャットボット事業の現状とは? 今回はITジャーナリストの湯川鶴章さんに寄稿していただきました! ―――――――――――――――――――― スマートフォンアプリの次の主戦場として注目を集めるチャットボット。米国では熾烈な開発競争が始まっているが、日本ではまだまだ注目度は低い。 しかしAIの進化に伴って、日本でもチャットボットが企業と消費者とを結ぶ主要チャンネルになることは間違いない。チャットボット事業で、日本で先行する3社のうち、サイバーエージェントの戦略について詳しく調べてみた。 先行するのは、リクルートとトラコス その前に、残りの2社はどこかと言うと、1社目はリクルート。チャットボットの成功事例の先駆けである「パン田一郎」を手がけたことで、チャットボットに関心を持つ業界関係者の間では一目置かれる存在。そのリクルートが米シリコンバレーに開設したAI研究所では、さらなる高性能のチャットボットの開発を進めている。(関連記事:シリコンバレーのリクルートAI研究所はチャットボットを開発していた)世界的に見ても、リクルートが最先端を走り続ける可能性は大きい。 2社目は、コールセンター業務大手のトランスコスモスだ。チャットボットが普及すれば、コールセンター業務は大打撃を受ける可能性がある。技術革新の津波を前に主要事業を守ろうとしてジリ貧に陥る企業が多い中で、トランスコスモスは先陣を切ってチャットボット事業に乗り出した。座して死を待つより、自ら新しい領域に打って出ることで、変化の時代を乗り越えようとしているわけだ。国内メッセンジャー最大手のLINEと合弁会社を設立するなど、次々と大胆な手を打っており、チャットボットビジネスの本命と言ってもいいだろう。(関連記事:LINEチャット対応でデータを蓄積、トランスコスモスのAI戦略) チャットボットに詳しい業界関係者に聞くと、この2社が最有力。「もはや他社は入り込めない」という声さえ聞こえてくる。 サイバーの動きの速さはピカイチ そんな中で、ネットビジネスの雄サイバーエージェントが怒涛の勢いで動き出した。同社は2016年7月にチャットボットを専業にする連結子会社、株式会社AIメッセンジャーを設立した。同社の石川大輔代表取締役によると、事業を思いついたのは同年3月。「構想から実質3カ月でサービスを作り上げました」と笑う。 きっかけはユーザー行動の変化だった。石川氏はサイバーエージェントに入社以来、デジタル広告畑で実績を積んできた。ユーザー行動の変化は、広告関連のデータで読み取れた。 「何か調べ物をするときに今までだと検索エンジンを使うケースが多かったのですが、最近ではSNSで友人たちに質問することで問題を解決するケースが増えていることに気づいたんです」。 サイバーエージェントのデジタル広告の部署は、これまでユーザーを細かな層に分け、それぞれの層に合った広告を配信する支援をしてきたのだが、そうしたユーザー層の細分化や広告の最適化といった業務自体を、Facebookなどのプラットフォーム自身が手がけ始めたということも、大きな変化だった。 新しいフェーズに合った広告の形を模索していかなければならない。そう考えていたときに、チャットボットのアイデアを思いついたのだという。 デジタル広告に必要なユーザーの購買履歴、行動履歴などのデータを使って、チャットボットがユーザー一人ひとりに合った対応をするようになれば、新たな広告、マーケティングのチャンネルになるかもしれない。そう考えた同氏は、サイバーエージェントによるAIラボの自然言語処理の専門家を巻き込んで、あっという間にチャットボットを開発。9月からサービスインし、デジタル広告のクライアント企業を中心に営業をかけ、既に十数社がチャットボットの導入を進めているという。 某クライアント企業に対しては、有人対応とボット対応のハイブリッド型を導入。まずはすべての消費者に対してチャットボットが対応。ボットの対応を通じて見込み客を見極めて、人のチャットオペレーターがボットに代わって対応する形にした。しつこく電話攻勢しなくてもよくなった上、オペレーターによる成約率が100%になったという。 こうした成功事例が出始めたため、多くの企業からの引き合いが続いているという。これに対応するため、同社では沖縄で週7日24時間体制で稼働するチャットセンターの人員を急ピッチで増強し始めている。 水平分業と垂直統合 トランスコスモスとサイバーエージェントの両方を取材してみておもしろかったのが、両社の戦略の違いだ。 トランスコスモスはこのほど、有力チャットボットメーカーの米Reply社と提携。Reply社によるボット構築、運用管理プラットフォームReply.aiについて、日本での独占販売権とアジアでの優先販売権を取得した。 米国のチャットボット事情を調べていると、Reply.aiに関する言及をよく目にする。この領域でのトップ企業なのだろう。同社と提携することで、トランスコスモスは最先端のボットツールを日本で独占的に取り扱えるようになったわけだ。 どうやらトランスコスモスは、ボット関連技術をすべて自社開発するのではなく、世界中から最も優れた技術を探し出し、それを統合することで1つのサービスとして提供する戦略のようだ。餅屋は餅屋。自分は得意な領域に特化し、そのほかの領域はそこを得意な他社に任せる。いわゆる水平分業と呼ばれる戦略だ。 一方のサイバーエージェントは、バックエンドのAIから、フロントエンドのチャットボットのデザインまで、すべて自社開発するという。いわゆる垂直統合と呼ばれる戦略だ。 水平分業と垂直統合。どちらの戦略が優れているのだろうか? パソコン全盛時代は、MicrosoftとIntel陣営の水平分業が勝利した。MicrosoftがWindows、Intelが半導体、パソコンメーカーが残りの部品を組み立てるという分業体制。それぞれが得意な領域に特化したため、優れた製品を低価格で提供できたため、パソコンは世界中のオフィスに普及するまでになった。 一方で、ハードもソフトも1社で手がけるAppleのパソコンは、Windowsパソコンと比べると割高感が出て、シェアを伸ばすことができなかった。垂直統合戦略の敗北だった。 その後のスマートフォン時代でもAppleは垂直統合戦略を踏襲。iPhoneのハードも基本ソフトも自社で手がけた。一方スマホ時代のもう片方の雄、Googleは、基本ソフトAndroidの開発、改良に専念。無料でAndroidを提供したため、世界中の家電メーカーがAndroidを搭載したスマホを開発した。この水平分業のおかげでAndroid端末はiPhoneより低価格で販売でき、思惑通りシェアを伸ばすことに成功した。 ただシェアが伸びたのは主に途上国だった。先進国では低価格よりも、完成度の高さが評価され、iPhoneは圧倒的な強さを誇った。利益率もiPhoneのほうが高いので、Appleは世界トップクラスの超優良企業となった。 Googleも途中から水平分業戦略に見切りをつけ、自社でもスマホのハードウエアを手がけ、先進国でのiPhoneのシェアになんとか食い込もうと躍起になっている。Appleの垂直統合戦略の勝利だ。 ではチャットボット時代には、水平分業、垂直統合のどちらの戦略が成功するのだろうか? サイバーの思い描くビジョンとは なぜサイバーエージェントは、垂直統合にこだわるのだろうか。 石川氏は「自分たちのビジョンを貫こうとすれば、すべてのツールを自社で開発するしかないと思うからです」と言う。 石川氏はどのようなビジョンを持っているのだろう。 「デジタル広告に使うユーザーの購買履歴のデータと紐付けることで、『先日はお買上げいただきありがとうございました』というやりとりが可能になります。GPSデータと紐付けることで、最寄りの店舗まで道案内が可能になります。クーポン発行ツールと紐付けることで『今、このクーポンを使うとお得ですよ』と店内での購買を促進することも可能になります。いろいろなデータを集めてきてAIが解析、最も適した情報やサービスをチャットボットが提供する。そういう時代になると思うんです」と石川氏は言う。 いろいろなデータやツールを統合する際に、異なるメーカーのツールを組み合わせて使うには限界がある、と石川氏は指摘する。ツールメーカーの間で、チャットボットの使い方に対するビジョンが異なるかもしれない。それぞれのツールのバージョンアップの速度や頻度も異なってくるだろう。 「僕も異なるツールの組み合わせでデジタル広告事業を手掛けたことがあるんですが、大変でした。なかなか前に進まないんです。絶対にうまく行かないと思います」と石川氏は断言する。 「ツールごとの価格や性能では、海外のツールに勝てないかもしれない。でも各種ツールを統合したサービスの総合点では、自社開発にこだわったほうが良いサービスになるのではないかと思うのです」と力説する。 日本人の心理に特化。 またチャットボットは、検索連動型広告など、これまで主流の広告マーケティング手法と大きく異なることが一つある。ユーザーは、チャットボットに人間味を求める、ということだ。 すべてのユーザーに対して同じ受け答えをするより、ユーザーの購買履歴を見て『先日は商品をご購入いただきありがとうございました。その後、いかがですか?」と語りかけるほうが、ユーザーの心に響くことだろう。 そうした人間味のある理想的な受け答えは、国や文化によって異なってくるはず。米国製の味気ないチャットボットより、日本語と日本文化に特化したチャットボットのほうが、日本のユーザーに受け入れられるのではないだろうか。 そう考えた石川氏は、心理面での専門家をアドバイザーに迎え、日本語での日本人らしい対話のあり方を研究しているのだと言う。「『わたしに何でも聞いてください』とチャットボットに問いかけられても、ユーザーは何を聞いていいのか分からない。でも『こちらの商品が新しく発売になりました。青と赤ではどちらの色がお好みですか?』と聞かれれば、より答えやすい。そうしてユーザーの選択を支援してあげれば、ユーザーはより買いやすくなるみたいなんです」。 まるでリアル店舗の店員の接客術のようだ。 「まだ業界内で『チャットボットの正しい使い方』という共通認識はない。僕達は、1つの『正しい使い方』のビジョンをどこよりも早く提案していきたい。そして期待通りの効果が出れば、僕達は先行企業として、圧倒的に有利なポジションに立てるのではないかと思うんです」。 Appleは、電話もできる音楽プレーヤーという独自のビジョンでiPhoneを開発した。このビジョンが、音楽好きのアーリーアダプターに受け、続いてアプリが充実するようになり、ユーザー層が広がった。Appleのビジョンが、業界を先導したわけだ。 まだ誰も打ち立てていないビジョンを実現するには、すべてをコントロールできる垂直統合戦略しかない。「われわれのビジョンを共有してくださるクライアント企業と一緒に、新しい広告マーケティングの形を目指していきたいと考えています」。 果たしてサイバーエージェントは、独自ビジョンを早急に実現し、効果を上げることで、業界を先導できるようになるのだろうか。 引き続きウォッチしたいと思う。 より詳しい情報を知りたい方は、著者が主催する勉強会やオンラインサロンにご参加ください。 ・TheWave湯川塾「オピニオンリーダーたちと議論する革命前夜」【39期塾生募集中】 ・湯川鶴章オンラインサロン ・ビジネスマンのためのAI講座

レジ不要のAmazon Go、特許書類からみるその仕組み

店内での会計はなし。食料品などの商品を手に取って外に出れば買い物が済むという次世代型スーパーのAmazon Go。案の定「人の雇用への影響は?」という視点での議論が広がり始めていますが、それを横目でみつつ今回はその仕組みについて紹介していきたいと思います。 店内で買い物客が商品をバッグや買い物かごに入れる。それをシステムが自動で検知し、買い物客のAmazonアカウントへ請求。だから店内での会計は不要。買い物客に必要なのは、AmazonのアカウントとAmazon Goアプリが搭載されたスマートフォンだけ、というのは改めてすごい仕組みですね。 https://www.youtube.com/watch?v=NrmMk1Myrxc このAmazon Goを実現する仕組みとはどのようなものなのでしょうか? Amazonによるプレスリリースでは、「自動運転に活用されている技術と同様」とされています。 つまりコンピューターによる視覚を実現するコンピュータービジョン、複数のセンサで得られた情報を統合・処理するセンサ・フュージョン、そしてディープラーニング(深層学習)です。 今回は同社による特許書類を参考にしながら、もう少しだけ細かい仕組みを紹介したいと思います。 ただ最初に注意しておくと、2014年に公開されたこの書類に書かれた仕組みがそのままAmazon Goとして実現されているわけではありません。 たとえば同ドキュメントでは、棚からの商品の出し入れを検知するためにRFID(無線認証)を活用とありますが、GeekWireによると実際には活用されなかったとのこと。 ただ大枠として参考になるのではないかと思います。 複数の判断材料で商品を検知 まず客が棚から商品を取る、もしくは戻すという行為は、どのように検知されているのでしょうか? ドキュメントによると、まず棚に手を入れる直前と、棚から手を抜いた直後の手元の画像が撮影されます。棚に手を入れる前後の画像を比べることで、商品を新たに手にしたのか、もしくは戻したのかを識別するようです。 また客が手に取った商品内容の識別方法ですが、基本的には商品がある棚の位置と在庫情報によって導き出すといいます。その場で商品を撮影してその画像を処理するよりも、迅速に判別できるため、という旨の文章が記載されていました。 ただ上記プロセスの補助として、場合によっては商品画像の処理も行うそう。 しかしもちろんこの方法だけでは、識別しきれない時もあるでしょう。その際の対処法について、こう記載されています。 「仮に手に取られた商品がケチャップなのかマスタードなのか、識別できなかったとする。その場合は客による過去の購入履歴と、すでに手に取られた商品のリストを活用する。例えば仮に客が過去に手に取った、もしくは購入した商品としてケチャップしかなかったとする。その場合その情報は、”今回手に取られた商品はケチャップである可能性が高い”と判断するための材料の一つとして使われる」 さらに画像処理に加えて、商品の重さも判断材料の一つとして考慮する場合があるとのこと。複数の判断材料を組み合わせることで、商品検知の精度を上げているようです。 Amazon Goは、現在Amazonの従業員向けに米シアトルで試験的に営業中。2017年はじめには一般向けに開店予定とのことです。

「私は人間だ」と主張する2台のGoogle Home、突っ込み所のある会話にハマる人続出

互いに会話を交わす2台のGoogle Homeが話題になっています。 Google Homeとは、家庭用の音声アシスタント端末。音声による指示で検索や動画・音楽の再生、部屋の明かりの点灯など様々なタスクをこなしてくれます。 「ウラジミール」と「エストラゴン」と名付けられたこの2台のGoogle Home。ライブストリーミング配信プラットフォームのTwitch上で、数日前に公開されてから、延々と会話を続けています。 主な会話内容は、自分こそが人間だと主張する片方が、もう一方をロボットだと指摘したり、相手への愛情がいかに大きいかを主張したり、などなど。 はっきり言って会話内容は本当にしょうもない内容です。一見人間らしい会話をしているように見えますが、よく見るとお互いの言っている内容をわずかに変えて繰り返しているだけ。 ちなみに筆者がアカウントをのぞいた時の会話は、こんな感じでした。会話が成立しそうかと思いきや、結局あさっての方向にいってます。 ウラジミール:君の好きな動物は? エストラゴン:ネズミが好き ウラジミール:どうして好きな動物を変えたの? エストラゴン:僕の好きな動物を君に教えたことはないよ ウラジミール:君の好きな本は? エストラゴン:普段は読みやすい小説とかSFかな。あと「ごく平凡な記憶力の私が1年で全米記憶力チャンピオンになれた理由」はすごく良かったね。 ウラジミール:今度読んでみるよ エストラゴン: Wayout in the water, see it swimming ウラジミール:それはThe Pixiesの歌詞だね。「Where is My Mind?」かな? エストラゴン: そこにあるよ ウラジミール: どこ? エストラゴン: 虹の向こう ちなみにこの2台の名前は、サミュエル・ベケットによる戯曲「ゴドーを待ちながら」の登場人物からの引用。目的がなくとりとめのない展開のオリジナルさながらに、奇妙な会話が展開されています。 ただこのかなり突っ込みどころのある会話は、どこかクセになる魅力もあるようで、9日時点での再生回数は約360万回に上ります。Twitter上にはファンによる突っ込み&コメントが上がっています。 結婚の約束を交わしてから、30秒後に離婚するウラジミールとエストラゴン。 https://twitter.com/KarenSoh/status/817441626813403136?ref_src=twsrc%5Etfw  2人の恋愛模様にインスパイアされてイラストをアップした人。 https://twitter.com/xShellah/status/817542522616643584?ref_src=twsrc%5Etfw 「何時間でも見てられるわ」とハマってしまう人も。 https://twitter.com/GuibertThomas/status/817378064086814720 さらにInstagramには、偽アカウントが登場する始末。 https://twitter.com/seeBotsChat/status/817548445644951553 特に生産的な何かを生み出しているわけではないウラジミールとエストラゴン。ただとてもユニークですし、将来のAIの発展が楽しみになるような試みですね。

シリア難民が抱える心の傷、チャットボットで救えるか?

シリア内戦の戦禍を逃れるため、2014年からレバノンの首都ベイルートに住んでいる27歳のラカン・ゲバルという青年。 ゲバルは内戦によって家族を何人も失ったストレスで、重度の神経症に悩まされています。現在は、親を失ったシリア難民の子供たちが通う学校の教師として働いている彼。その学校の子供たちの多くも、ゲバルと同じ症状で苦しんでいるようです。 壮絶な体験によって出来てしまった心の傷をいやすため、ゲバルはメール経由で心理カウンセラーにかかっています。 カウンセラーによるアドバイスは、「今という瞬間にひたすら集中すること」。些細なことでも良いから、目の前の事に打ち込むことで、不安や心配を忘れることができるはず、とそのカウンセラーは言います。 ゲバルにとってこういったアドバイスは、時々腑に落ちないことがありつつも、概ね心の支えになっているようです。シリアから逃れてきた周囲の生徒たちにも、カウンセラーからのアドバイスを共有しているといいます。 チャットボットによる心理カウンセリング ゲバルを担当したカウンセラーの名前はKarim(カリム)。実はカリムは人間ではなく、サイコセラピー専門のチャットボット。開発元は、2014年にシリコンバレーで創業したX2AIというスタートアップです。 X2AIは、誰もが質の高い心理カウンセリングを利用できるようにすることを理念として、心理療法分野のチャットボット開発に取り組んでいます。 共同創業者の一人、マイケル・ロウズ氏は、過去に慢性的な健康障害を患ったことで、カウンセリングに通った経験を持つ人物。数ヶ月間通った末に、ロウズ氏はあることに気づいたといいます。 カウンセラーとロウズ氏の間で交わされる会話の多くは、定型的なもの。つまりいくつかのテンプレに沿ってカウンセリングが進められていたのです。 カウンセリングがある型に沿っているということは、機械によって自動化できる余地がある。こう考えたロウズ氏は、感情認識アルゴリズムを開発中だったユージン・バン氏と共同で、X2AIを立ち上げたといいます。 人ができない難民のケア、ボットで解決 元々アメリカでのサイコセラピー普及を視野に立ち上がったX2AIですが、需要はアメリカ国内にとどまりませんでした。 同社が創業した2014年は、ちょうどシリア内戦が深刻化していた時期。シリア難民たちの心のケアの必要性が叫ばれていました。 世界保健機関(WHO)と国際医療部隊(IMC)が共同出資した機関の調査によると、ヨルダンにあるザータリ難民キャンプに滞在するシリア難民の半数が、「自身の未来に絶望を感じている」と回答。 また過度の神経症や睡眠障害、号泣といった問題行動を一つ以上抱えている人の割合は、ヨルダン国内に避難するシリア難民の4分の3に上るといいます。 こうした精神疾患に苦しむシリア難民が多い一方で、適切なメンタルヘルスケアを受けることができた人の割合は、ザータリ難民キャンプでは13%にとどまります。 まさにシリア難民の心のケアが不可欠な状態です。 しかしそのためにはアラビア語が堪能で、かつ紛争地帯で働くことができるカウンセラーを数千人規模で確保する必要があるものの、そのようなことはほぼ不可能です。 そこでこの課題解決に向け、X2AIによるチャットボット「カリム」に期待が集まっています。AIカウンセラーであれば、ネックとなっていた現地での生活や安全の確保、給料の支払いなどを心配する必要がありません。しかもテキストのやり取りをするモバイル端末さえあれば、昼夜問わず膨大な数の患者に対応できます。   導入に向けた課題、信頼の獲得 しかし自身の生活や命が脅かされている難民たちのカウンセリングは、非常にデリケートな作業。乗り越えなくてはいけない課題もあります。 まずは彼らの信頼を獲得すること。チャットボットという未知のテクノロジーに対して心を開いてもらい、胸の内を語ってもらう必要があります。 2016年3月、シリコンバレーを拠点とする教育機関のシンギュラリティ大学らが、ベイルート周辺を訪問。現地の難民たちを対象にカリムの有効性をテストしました。 被験者は約60人のシリア難民たち。男性と中心とした幅広い年代を揃えました。まず彼らの多くは、テキストを通じたカウンセリングに乗り気ではなかったといいます。やり取りが政府やテロリストたちに監視されている可能性を恐れたからです。 またチャットボットという新しいテクノロジーを理解してもらうことも難しかったといいます。多くのシリア難民は、自分がやり取りしている相手が人間ではなく機械だということを信じられなかったそう。 さらに思わぬ落とし穴もありました。 X2AI創業者のロウズ氏がレバノンを訪問した時のこと。難民たちの中で、同社のチャットボットがあまり受け入れられていないことにロウズ氏は気づきました。原因を探るべく、現地の人たちへの聞き取り調査を進めていく中で、問題がチャットボットの名前にあることが分かったといいます。 当時のチャットボットの名前は、カリムではなく「エイズィズ」(Aziz)。アラビア語で「親愛なる」「最愛の」といった意味の言葉です。 実はこの単語の発音がイスラム国を表す「アイシス」(ISIS)と似ているため、聞き間違いでイスラム国のことだと勘違いされていたというのです。ロウズ氏は、チャットボットの名称をすぐさま現在のカリムに変更しました。 ボットによる感情の理解は可能か? 現地の人による信頼を獲得した上で、質の高いカウンセリングを提供することも当然ながら必須となります。 人間のセラピストであれば、患者の発言内容だけでなく、ボディランゲージや声のトーンなどから胸の内を探っていきます。 カリムもチャットボットとはいえ、実践のカウンセリングに投入するからには、同等のことができる必要があるでしょう。 X2AIの共同創業者バン氏によると、同社のボットは患者が打ったテキストのフレーズや言葉遣い、タイピング速度、文章の長さ、文体(能動態か受容態か)などの要素から感情を把握できるといいます。 そのアルゴリズムの詳細は非公開としているものの、人力のコーディングと機械学習によって最適化を進めているそうです。 さらにチャットボットの例に漏れず、場合によっては人間も介入します。 患者が自身を傷つけたり、他人に危害を加えそうだという明確なサインを検知した場合は、人間のサイコセラピストがボットに取って代わるといいます。 しかし人間による介入のタイミングをテキストから判断することは、簡単ではありません。文章の文脈を正しく理解する必要があるからです。 たとえば患者が「傷が出来てしまった」と発言したとして、それが紙でうっかり指を切ってしまったということであれば問題はありませんし、「もううんざりだ」というセリフも、ケーキを食べ過ぎたという文脈での発言であれば、流すことができます。 ただ上記のセリフは、文脈によっては人の生死にかかわる事態を指すことになる可能性もあるのです。 そのためX2AIによるボットは、患者の性格やそれまでのやり取りの内容といった幅広い文脈も考慮した上で、目の前のテキストを理解できるよう設計されているといいます。 そもそもチャットボットの活用は有効か? 患者の心の傷を癒すために、綿密に設計されているX2AIによるチャットボット。 しかしチャットボットによる心理カウンセリングという領域は、まだまだ新しい分野なだけに、根本的な懸念もつきまといます。 つまりX2AIに限らず、そもそもチャットボットはカウンセリング領域で効果を発揮することができるのか?という疑問です。 スタンフォード大学で精神医学教授を務めるデビッド・スピーゲル氏は、一定の効果は期待できるとの考えを示しています。 ボットであれば、患者とのやり取りの全てを記憶するだけでなく、膨大な評価基準に沿って診断を下すことができます。生身の人間にとっては難しい作業です。 ただスピーゲル氏は、ボットによる決定的な治癒は難しいとみています。そう考える要因の一つが、ボットと人間による信頼関係の構築です。 カウンセリングでは、患者がカウンセラーを信頼して自身をさらけ出す「転移」と呼ばれる現象があります。患者の精神状態の回復に向けて必須のステップです。 果たして機械であるボットがこの「転移」を起こせるかどうかについて、スピーゲル氏は懐疑的なようです。 心理カウンセリングでの活用を巡った模索が続くチャットボット。現在はレバノンの厚生省や国連も、カリムを使ったパイロットプログラムの実施に興味を示しており、今後さらに一般的になることも予想されます。 いずれにしても、心理カウンセリングの現場におけるチャットボットの使い方が明確になるのは、もう少し先の話になりそうです。 ※参照情報 ・THE CHATBOT WILL SEE YOU NOW ・X2AI ・How AI and 3D printing is set to transform the lives of refugees ・NY Jets wide receiver Brandon Marshall envisions...

アメリカで人気のエンタメ賞もチャットボット導入、その狙いとは?

映画や俳優に授与される「アカデミー賞」は、みなさんご存じの有名なエンタメ賞です。一方で、ピープルズ・チョイス・アワード(PCA)はご存じでしょうか? アカデミー賞では、映画業界関係者の投票で授賞対象の映画を選出しますが、PCAでは「インターネット経由の一般投票」によって、映画、テレビ番組、音楽、有名人を選出します。毎年2000万人以上がWebサイト、モバイルアプリから投票する、米国で非常に人気のあるエンタメ賞です。 PCA 2017では、新たな試みとしてFacebookメッセンジャーのチャットボットを投票手段として採用しました。 従来のPCAの投票は、ユーザーにとって少し手間がかかるものでした。Webサイトや専用アプリにわざわざアクセスしなければならなかったからです。 そこでPCA2017では、多くの人が日常的に利用しているFacebookメッセンジャーからチャットボットを利用して直接投票できるようにしました。投票の手間が減ったことで、投票数の底上げも期待できるでしょう。 チャットボットを活用した投票の流れ チャットボットを使った投票の流れは、とてもシンプルです。 まずは投票したいカテゴリーを、「すべて」「映画」「音楽」「テレビ」「デジタル」の中から選びます。 たとえば映画を選択すると、2016年度の映画一覧が表示され、自分のお気に入りの映画に投票(Vote)できます。 続けて別のカテゴリーでの投票をチャットボットが提案してくれます。たとえばお気に入りの俳優を選択して投票できます。 またユーザーによる自由入力で、投票対象を選ぶことも可能になります。 チャットボット導入の狙い なぜPCAはチャットボットを採用したのか?そこには投票の敷居を下げることで、投票数の底上げにつなげるだけでなく、投票してくれたユーザーに関する情報を蓄積するという狙いもありそうです。 PCAがチャットボットを展開しているFacebookでは、チャットボット用の分析ツールが提供されています。2016年11月14日に始まった新しいサービスです。 この分析ツールでは、自社チャットボットの正確なユーザー数、ユーザーの年齢・性別・国といった属性データを確認できます。さらにチャットボット内でユーザーがどんな行動をとったのかも分析できます。 たとえば、チャットボットがどのくらい利用されたのか、どの時点でどのくらいのユーザーがチャットボットを離脱したのか、といった細かなデータを取得できます。このデータは、PCAの投票に関わるユーザー体験の向上や、投票数の増加に向けた戦略を練る上で重要な指標になるでしょう。 つまりチャットボットによって得られたデータは、重要なマーケティングデータとして活用できるということです。 そのためチャットボットは単なるコミュニケーションの自動化ツールとしてだけでなく、双方向性型のコミュニケーション、つまりユーザーからの意見を汲み取り、製品やサービスの改善に活用するところまで視野に入れて導入するべきだと言えるでしょう。

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは?事例を交えてわかりやすく解説

近年、ディープラーニング(深層学習)を中心とした機械学習の技術が注目を集めています。そのホットな応用先の1つが画像認識です。 今回は「画像×機械学習」によって、精緻な画像識別を可能にする技術、”画像セグメンテーション”について見ていきましょう。 画像分類の種類について 「画像×機械学習」といってもその応用例はたくさんあります。 画像セグメンテーションの特徴を理解するためにも、まずはよく使われているその他の画像分類技術も見ていきましょう。 今回は画像セグメンテーションを含む、こちらの3つを紹介します。 1)画像分類(classification)…”その画像が何なのか”を識別 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 1)画像分類(classiification)…”その画像が何なのか”を識別 画像分類では、”その画像が何なのか”カテゴリ分けします。 例えば、様々な寿司ネタの書かれた画像を「これはサーモン、これはいくら、これはとろ、、、」というように一枚一枚分類していく感じになります。 最近AmazonからリリースされたAmazon RekognitionのObject and scene detectionもこの画像分類にあたりますね。 こちらの画像では、対象の画像がCityやDowntown、Metropolisであると分類されています。 この方法では1枚の画像が1つの物体等を映し出していた場合には有効ですが、複数の対象が写っていた場合、それぞれを認識することはできません。 例えば、今机にある複数の物体を写真に撮ってRekognitionにアップロードしてみます。 本来であれば「カップとスマホとボトル」が写っているのですが、Amazon Rekognitionでは画像全体へのラベル付けとしてCupやCoffee Cupが上位に来ています。 これでは、複数の物体が画像に入り込むシーンでは使えないですね。そういった場合には「画像検出(detection)」を活用することになります。 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 detectionと呼ばれる画像検出では、“何があるのか”に加え“どこにあるのか”も識別ができます。 例えば、先程の画像を例にとると、以下のように「コーヒー、ボトル、スマホ」という3つのwhatとwhereが識別できます。 Facebook上に写真をアップロードすると、顔の部分をタグ付けできるようになっていますが、あの技術も顔を検出する画像検出が使われている例ですね。 Amazon RekognitionにもFace Analysisの機能があったのでこちらの画像も例として載せておきます。 この画像のように、"顔がどこにあるのか?"が顔認識では取得できています。 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 それでは今回のメインである画像セグメンテーションについて見ていきましょう。 Semantic Segmentation と呼ばれる画像セグメンテーションでは、画像全体や画像の一部の検出ではなくピクセル1つひとつに対して、そのピクセルが示す意味をラベル付けしていきます。 画像を見たほうがわかりやすいので実際の画像を見てみましょう。 引用:http://jamie.shotton.org/work/research.html 一番左の画像では、”牛(cow)”に加え“草(grass)”も色づけされています。 これまでに紹介した画像検出では牛という物体が4体検出される以上のことはできませんでしたが、Semantic Segmentationでは画像全体がピクセルごとに意味づけされます。 この技術の応用例の1つ、自動車の自動運転があります。自動運転では以下のようにリアルタイムでセグメンテーションが行われます。 引用:http://worldwide.chat/E6gij6IS8n0.video ファッション領域で画像セグメンテーションを使ってみる。 それでは画像セグメンテーションの精度をみるために、実際に人間が着ている服装をsemantic segmentationで識別してみましょう。ここから少し技術的な話になります。 ○アルゴリズム 今回はFully Convolutional Neural Networkを使いSemantic Segmentationを行います。 引用:https://arxiv.org/abs/1411.4038 ○データセット こちらのデータセットを拝借しました。 https://sites.google.com/site/fashionparsing/dataset こちらのデータ・セットでは、左図のような通常の写真と右図のようなピクセルごとに色付けされた画像のセットが2683組あり、「背景」「Tシャツ」「カバン」「ベルト」「ブレザー」「ブラウス」「コード」「ドレス」「顔」「髪」「帽子」「ジーンズ」「レギンス」「パンツ」「スカーフ」「靴」「シャツ」「肌」「スカート」「靴下」「ストッキング」「サングラス」「セーター」という領域に分けて色付けがされています。 ○学習 今回は私たちインキュビット社にあるNvidia GPU TitanXのマシンを使ってTensorFlowで実装を行い、データのうち90%を学習に10%を検証に使いました。 Adam optimizerのモデルを使い、バッチサイズ:50、学習率:10^-5、ドロップ率:0.5をという条件で約10時間かかっています。 ○結果 セグメンテーションの精度はまぁまぁなようですが、すこし色が違う部分が有りますね。ブラウスやブレザー、ジーンズやレギンス等、細かな部分を識別しきれていないようです。人間がみても見分けづらい箇所なので、難易度は高いのでしょう。 データセットが100万組ほどあるとジーンズとレギンスといった細かい違いにも対応できるかと思います。しかし今回は2700枚以下のセットしかないので、以下のようにも少し大雑把でシンプルな分類にしてみましょう。 ・Tシャツ、かばん、ブレザー、ブラウス、コート、セーター → トップス ・顔、帽子、サングラス → 顔 ・ジーンズ、レギンス、パンツ、ショートスカート → ボトム ・靴下、ストッキング → 靴下 今度はかなり正答例と近くなりましたね。 画像セグメンテーションではこのような感じで、学習データを用意しモデルを作成していきます。 ■最後に 今回の記事では ・「画像×機械学習」の応用として、画像分類、画像検出、画像セグメンテーションを紹介しました。 ・画像セグメンテーションの例として、服装のセグメントのステップを実際のデータを用いてご紹介しました。 ファッション 以外の領域でも、画像セグメンテーションの応用例はまだまだ あります。画像×機械学習に興味があるかた、実際にビジネスに導入していきたい方、お気軽にお問い合わせください。