事例を知る

事例を知る

社員の誰もがAIを活用できる環境へ、ウーバーが社内プラットフォームを公式発表

社内の関係者の誰もが、機械学習を使ったサービス改善を実施できる。 こうした環境の実現に向けて、配車サービスのウーバーが社内システムを強化しています。 同社はこれまで各サービスで機械学習を活用した機能を実装してきました。 たとえばフードデリバリーサービス「UberEats」では、配達先までの距離や道路の混雑状況、調理時間などのデータをもとに、配達時間を予測するといった具合です。 こうした機能の開発・実装に向けて、ウーバーが活用しているのが、自社向け機械学習プラットフォームMichelangelo(ミケランジェロ)。HDFSやSpark、TensorFlowなどのオープンソースを中心に構築されています。 データの処理や学習モデルの構築、予測など、これまでチームによってバラバラだった一連のワークフローがこのプラットフォームによって標準化できたといいます。 過去1年にわたって社内のエンジニアやデータサイエンティスト向けに導入を進めていたといいますが、今回公式に発表されました。 機械学習を活用するにあたって、なぜ社内共通のプラットフォームが必要なのか?実際にどのように使われているのか?詳細をみていきましょう。 なぜ必要なのか?ウーバーの課題感 機械学習モデルを開発・実装するにあたって、ミケランジェロのような社内共通プラットフォームがなかった時代。ウーバーは予測モデルを備えたシステムが必要になるたびに、毎回ゼロベースで構築していたといいます。 そのため手間と時間が膨大にかかることから、オープンソースのツールを使って短期間で作れるものに限られていたそう。 またそれだけのことができるスキルやリソースを持った一部のデータサイエンティストやエンジニアが活用するにとどまっていました。 さらに機械学習モデルを学習させる際も、個々のデータサイエンティストが持つデスクトップで動く範囲のみ。そして学習結果を保存する共通の場所もないから、取り組みがサイロ化してしまう。 このような状態では、社内の誰もがより手軽に機械学習モデルに携われる状態にまでスケールさせることができないでいたのです。 代表例はUberEats そこでウーバーが導入したシステムがミケランジェロ。サービスに機械学習モデルを実装するにあたって必要な次のワークフローを標準化することができるといいます。 1.データの処理 2.モデルの学習 3.モデルの評価 4.モデルの実装 5.予測 6.予測結果のモニタリング ミケランジェロを使った機械学習実装の代表例として紹介されているサービスが、フードデリバリーのUberEats。配達時間の予測やレストランのランキング付けなどに活用されているとのこと。 「配達時間を正確に予測することは、思ったより複雑だ」とウーバーはブログ記事で述べています。ケースごとの不確定要素が非常に多いからです。 料理の調理時間は、注文内容やレストランの繁忙度によって異なります。またUberEatsの配達パートナーがレストランに到着するまでの時間や、配達先に到着するまでにかかる時間は、距離やルート、交通量、天気など、多くの要素に影響されます。 UberEatsがミケランジェロを通して目指すゴールは、こうした不確定要素が複雑にからみ合う状況かでも、正確な配達時間を表示すること。その実現のために同社のデータサイエンティストたちは、”Gradient boosted decision tree regression models”と呼ばれる手法を活用しているそうです。 今後も向こう数カ月間で、機械学習を自動で最適化するAutoMLの導入を予定するなど、プラットフォームの改善活動を続けていくとしています。

シリア難民が抱える心の傷、チャットボットで救えるか?

シリア内戦の戦禍を逃れるため、2014年からレバノンの首都ベイルートに住んでいる27歳のラカン・ゲバルという青年。 ゲバルは内戦によって家族を何人も失ったストレスで、重度の神経症に悩まされています。現在は、親を失ったシリア難民の子供たちが通う学校の教師として働いている彼。その学校の子供たちの多くも、ゲバルと同じ症状で苦しんでいるようです。 壮絶な体験によって出来てしまった心の傷をいやすため、ゲバルはメール経由で心理カウンセラーにかかっています。 カウンセラーによるアドバイスは、「今という瞬間にひたすら集中すること」。些細なことでも良いから、目の前の事に打ち込むことで、不安や心配を忘れることができるはず、とそのカウンセラーは言います。 ゲバルにとってこういったアドバイスは、時々腑に落ちないことがありつつも、概ね心の支えになっているようです。シリアから逃れてきた周囲の生徒たちにも、カウンセラーからのアドバイスを共有しているといいます。 チャットボットによる心理カウンセリング ゲバルを担当したカウンセラーの名前はKarim(カリム)。実はカリムは人間ではなく、サイコセラピー専門のチャットボット。開発元は、2014年にシリコンバレーで創業したX2AIというスタートアップです。 X2AIは、誰もが質の高い心理カウンセリングを利用できるようにすることを理念として、心理療法分野のチャットボット開発に取り組んでいます。 共同創業者の一人、マイケル・ロウズ氏は、過去に慢性的な健康障害を患ったことで、カウンセリングに通った経験を持つ人物。数ヶ月間通った末に、ロウズ氏はあることに気づいたといいます。 カウンセラーとロウズ氏の間で交わされる会話の多くは、定型的なもの。つまりいくつかのテンプレに沿ってカウンセリングが進められていたのです。 カウンセリングがある型に沿っているということは、機械によって自動化できる余地がある。こう考えたロウズ氏は、感情認識アルゴリズムを開発中だったユージン・バン氏と共同で、X2AIを立ち上げたといいます。 人ができない難民のケア、ボットで解決 元々アメリカでのサイコセラピー普及を視野に立ち上がったX2AIですが、需要はアメリカ国内にとどまりませんでした。 同社が創業した2014年は、ちょうどシリア内戦が深刻化していた時期。シリア難民たちの心のケアの必要性が叫ばれていました。 世界保健機関(WHO)と国際医療部隊(IMC)が共同出資した機関の調査によると、ヨルダンにあるザータリ難民キャンプに滞在するシリア難民の半数が、「自身の未来に絶望を感じている」と回答。 また過度の神経症や睡眠障害、号泣といった問題行動を一つ以上抱えている人の割合は、ヨルダン国内に避難するシリア難民の4分の3に上るといいます。 こうした精神疾患に苦しむシリア難民が多い一方で、適切なメンタルヘルスケアを受けることができた人の割合は、ザータリ難民キャンプでは13%にとどまります。 まさにシリア難民の心のケアが不可欠な状態です。 しかしそのためにはアラビア語が堪能で、かつ紛争地帯で働くことができるカウンセラーを数千人規模で確保する必要があるものの、そのようなことはほぼ不可能です。 そこでこの課題解決に向け、X2AIによるチャットボット「カリム」に期待が集まっています。AIカウンセラーであれば、ネックとなっていた現地での生活や安全の確保、給料の支払いなどを心配する必要がありません。しかもテキストのやり取りをするモバイル端末さえあれば、昼夜問わず膨大な数の患者に対応できます。   導入に向けた課題、信頼の獲得 しかし自身の生活や命が脅かされている難民たちのカウンセリングは、非常にデリケートな作業。乗り越えなくてはいけない課題もあります。 まずは彼らの信頼を獲得すること。チャットボットという未知のテクノロジーに対して心を開いてもらい、胸の内を語ってもらう必要があります。 2016年3月、シリコンバレーを拠点とする教育機関のシンギュラリティ大学らが、ベイルート周辺を訪問。現地の難民たちを対象にカリムの有効性をテストしました。 被験者は約60人のシリア難民たち。男性と中心とした幅広い年代を揃えました。まず彼らの多くは、テキストを通じたカウンセリングに乗り気ではなかったといいます。やり取りが政府やテロリストたちに監視されている可能性を恐れたからです。 またチャットボットという新しいテクノロジーを理解してもらうことも難しかったといいます。多くのシリア難民は、自分がやり取りしている相手が人間ではなく機械だということを信じられなかったそう。 さらに思わぬ落とし穴もありました。 X2AI創業者のロウズ氏がレバノンを訪問した時のこと。難民たちの中で、同社のチャットボットがあまり受け入れられていないことにロウズ氏は気づきました。原因を探るべく、現地の人たちへの聞き取り調査を進めていく中で、問題がチャットボットの名前にあることが分かったといいます。 当時のチャットボットの名前は、カリムではなく「エイズィズ」(Aziz)。アラビア語で「親愛なる」「最愛の」といった意味の言葉です。 実はこの単語の発音がイスラム国を表す「アイシス」(ISIS)と似ているため、聞き間違いでイスラム国のことだと勘違いされていたというのです。ロウズ氏は、チャットボットの名称をすぐさま現在のカリムに変更しました。 ボットによる感情の理解は可能か? 現地の人による信頼を獲得した上で、質の高いカウンセリングを提供することも当然ながら必須となります。 人間のセラピストであれば、患者の発言内容だけでなく、ボディランゲージや声のトーンなどから胸の内を探っていきます。 カリムもチャットボットとはいえ、実践のカウンセリングに投入するからには、同等のことができる必要があるでしょう。 X2AIの共同創業者バン氏によると、同社のボットは患者が打ったテキストのフレーズや言葉遣い、タイピング速度、文章の長さ、文体(能動態か受容態か)などの要素から感情を把握できるといいます。 そのアルゴリズムの詳細は非公開としているものの、人力のコーディングと機械学習によって最適化を進めているそうです。 さらにチャットボットの例に漏れず、場合によっては人間も介入します。 患者が自身を傷つけたり、他人に危害を加えそうだという明確なサインを検知した場合は、人間のサイコセラピストがボットに取って代わるといいます。 しかし人間による介入のタイミングをテキストから判断することは、簡単ではありません。文章の文脈を正しく理解する必要があるからです。 たとえば患者が「傷が出来てしまった」と発言したとして、それが紙でうっかり指を切ってしまったということであれば問題はありませんし、「もううんざりだ」というセリフも、ケーキを食べ過ぎたという文脈での発言であれば、流すことができます。 ただ上記のセリフは、文脈によっては人の生死にかかわる事態を指すことになる可能性もあるのです。 そのためX2AIによるボットは、患者の性格やそれまでのやり取りの内容といった幅広い文脈も考慮した上で、目の前のテキストを理解できるよう設計されているといいます。 そもそもチャットボットの活用は有効か? 患者の心の傷を癒すために、綿密に設計されているX2AIによるチャットボット。 しかしチャットボットによる心理カウンセリングという領域は、まだまだ新しい分野なだけに、根本的な懸念もつきまといます。 つまりX2AIに限らず、そもそもチャットボットはカウンセリング領域で効果を発揮することができるのか?という疑問です。 スタンフォード大学で精神医学教授を務めるデビッド・スピーゲル氏は、一定の効果は期待できるとの考えを示しています。 ボットであれば、患者とのやり取りの全てを記憶するだけでなく、膨大な評価基準に沿って診断を下すことができます。生身の人間にとっては難しい作業です。 ただスピーゲル氏は、ボットによる決定的な治癒は難しいとみています。そう考える要因の一つが、ボットと人間による信頼関係の構築です。 カウンセリングでは、患者がカウンセラーを信頼して自身をさらけ出す「転移」と呼ばれる現象があります。患者の精神状態の回復に向けて必須のステップです。 果たして機械であるボットがこの「転移」を起こせるかどうかについて、スピーゲル氏は懐疑的なようです。 心理カウンセリングでの活用を巡った模索が続くチャットボット。現在はレバノンの厚生省や国連も、カリムを使ったパイロットプログラムの実施に興味を示しており、今後さらに一般的になることも予想されます。 いずれにしても、心理カウンセリングの現場におけるチャットボットの使い方が明確になるのは、もう少し先の話になりそうです。 ※参照情報 ・THE CHATBOT WILL SEE YOU NOW ・X2AI ・How AI and 3D printing is set to transform the lives of refugees ・NY Jets wide receiver Brandon Marshall envisions...

「私は人間だ」と主張する2台のGoogle Home、突っ込み所のある会話にハマる人続出

互いに会話を交わす2台のGoogle Homeが話題になっています。 Google Homeとは、家庭用の音声アシスタント端末。音声による指示で検索や動画・音楽の再生、部屋の明かりの点灯など様々なタスクをこなしてくれます。 「ウラジミール」と「エストラゴン」と名付けられたこの2台のGoogle Home。ライブストリーミング配信プラットフォームのTwitch上で、数日前に公開されてから、延々と会話を続けています。 主な会話内容は、自分こそが人間だと主張する片方が、もう一方をロボットだと指摘したり、相手への愛情がいかに大きいかを主張したり、などなど。 はっきり言って会話内容は本当にしょうもない内容です。一見人間らしい会話をしているように見えますが、よく見るとお互いの言っている内容をわずかに変えて繰り返しているだけ。 ちなみに筆者がアカウントをのぞいた時の会話は、こんな感じでした。会話が成立しそうかと思いきや、結局あさっての方向にいってます。 ウラジミール:君の好きな動物は? エストラゴン:ネズミが好き ウラジミール:どうして好きな動物を変えたの? エストラゴン:僕の好きな動物を君に教えたことはないよ ウラジミール:君の好きな本は? エストラゴン:普段は読みやすい小説とかSFかな。あと「ごく平凡な記憶力の私が1年で全米記憶力チャンピオンになれた理由」はすごく良かったね。 ウラジミール:今度読んでみるよ エストラゴン: Wayout in the water, see it swimming ウラジミール:それはThe Pixiesの歌詞だね。「Where is My Mind?」かな? エストラゴン: そこにあるよ ウラジミール: どこ? エストラゴン: 虹の向こう ちなみにこの2台の名前は、サミュエル・ベケットによる戯曲「ゴドーを待ちながら」の登場人物からの引用。目的がなくとりとめのない展開のオリジナルさながらに、奇妙な会話が展開されています。 ただこのかなり突っ込みどころのある会話は、どこかクセになる魅力もあるようで、9日時点での再生回数は約360万回に上ります。Twitter上にはファンによる突っ込み&コメントが上がっています。 結婚の約束を交わしてから、30秒後に離婚するウラジミールとエストラゴン。 https://twitter.com/KarenSoh/status/817441626813403136?ref_src=twsrc%5Etfw  2人の恋愛模様にインスパイアされてイラストをアップした人。 https://twitter.com/xShellah/status/817542522616643584?ref_src=twsrc%5Etfw 「何時間でも見てられるわ」とハマってしまう人も。 https://twitter.com/GuibertThomas/status/817378064086814720 さらにInstagramには、偽アカウントが登場する始末。 https://twitter.com/seeBotsChat/status/817548445644951553 特に生産的な何かを生み出しているわけではないウラジミールとエストラゴン。ただとてもユニークですし、将来のAIの発展が楽しみになるような試みですね。

アメリカで人気のエンタメ賞もチャットボット導入、その狙いとは?

映画や俳優に授与される「アカデミー賞」は、みなさんご存じの有名なエンタメ賞です。一方で、ピープルズ・チョイス・アワード(PCA)はご存じでしょうか? アカデミー賞では、映画業界関係者の投票で授賞対象の映画を選出しますが、PCAでは「インターネット経由の一般投票」によって、映画、テレビ番組、音楽、有名人を選出します。毎年2000万人以上がWebサイト、モバイルアプリから投票する、米国で非常に人気のあるエンタメ賞です。 PCA 2017では、新たな試みとしてFacebookメッセンジャーのチャットボットを投票手段として採用しました。 従来のPCAの投票は、ユーザーにとって少し手間がかかるものでした。Webサイトや専用アプリにわざわざアクセスしなければならなかったからです。 そこでPCA2017では、多くの人が日常的に利用しているFacebookメッセンジャーからチャットボットを利用して直接投票できるようにしました。投票の手間が減ったことで、投票数の底上げも期待できるでしょう。 チャットボットを活用した投票の流れ チャットボットを使った投票の流れは、とてもシンプルです。 まずは投票したいカテゴリーを、「すべて」「映画」「音楽」「テレビ」「デジタル」の中から選びます。 たとえば映画を選択すると、2016年度の映画一覧が表示され、自分のお気に入りの映画に投票(Vote)できます。 続けて別のカテゴリーでの投票をチャットボットが提案してくれます。たとえばお気に入りの俳優を選択して投票できます。 またユーザーによる自由入力で、投票対象を選ぶことも可能になります。 チャットボット導入の狙い なぜPCAはチャットボットを採用したのか?そこには投票の敷居を下げることで、投票数の底上げにつなげるだけでなく、投票してくれたユーザーに関する情報を蓄積するという狙いもありそうです。 PCAがチャットボットを展開しているFacebookでは、チャットボット用の分析ツールが提供されています。2016年11月14日に始まった新しいサービスです。 この分析ツールでは、自社チャットボットの正確なユーザー数、ユーザーの年齢・性別・国といった属性データを確認できます。さらにチャットボット内でユーザーがどんな行動をとったのかも分析できます。 たとえば、チャットボットがどのくらい利用されたのか、どの時点でどのくらいのユーザーがチャットボットを離脱したのか、といった細かなデータを取得できます。このデータは、PCAの投票に関わるユーザー体験の向上や、投票数の増加に向けた戦略を練る上で重要な指標になるでしょう。 つまりチャットボットによって得られたデータは、重要なマーケティングデータとして活用できるということです。 そのためチャットボットは単なるコミュニケーションの自動化ツールとしてだけでなく、双方向性型のコミュニケーション、つまりユーザーからの意見を汲み取り、製品やサービスの改善に活用するところまで視野に入れて導入するべきだと言えるでしょう。

日本にもボイス時代到来!Amazon Echo連携の先行事例7選

Amazonの人気スピーカー型電子秘書「Amazon Echo(エコー)」の国内販売に向けて日本法人が動き始めた、という情報がいろいろな方面から入ってきた。(関連記事;日本でもAmazon Echo年内発売?既に業界は戦々恐々) 連携するデバイス、サービスの数が7000を超えたAmazon Echoは、スマホ全盛時代に終止符を打ち、ボイスの時代の幕を開けるデバイスと言われている。 スマホ時代の幕開けの時期にアプリ開発競争が繰り広げられたように、今年から日本でもボイス搭載デバイスやサービスが次々と登場するかもしれない。 ボイス機能で、どのようなデバイス、サービスを開発できるのだろうか。 さすがにAmazon Echoと連携する7000以上のデバイス、サービスのすべてを見て回ることはできないので、Amazon自体が出資しているものや、開発者コミュニティで話題になっているものを中心に調べ、その中で日本でも使えそうなものを7つ厳選して紹介したい。(ITジャーナリスト:湯川鶴章) Echoはハード、Alexaはソフト その前に重要な用語を整理しておきたい。Echoは、スピーカー型ハードウェアの名称。Amazonが現在、米国で販売しているのは、ノッポのEcho、少し小さめの廉価版である「Echo Dot」、それに利用する前にタッチが必要な「Echo tap」の3種類がある。 「Alexa」はEchoに搭載されている音声認識AIの名称。つまりEchoはハード、Alexaはソフトということになる。メディアではEchoのほうが取り上げられることが多いが、7000以上のデバイス、サービスが連携された今、AIであるAlexaのほうが重要性を増している。 開発者向けのサービスや開発キットには、Alexa Voice Serviceと、Alexa Skills Kitの2つがある。 前者は、クラウド上に音声認識機能が乗っていて、そこに音声データを送信するだけで、返答が返ってくるサービス。マイクとスピーカーさえあれば、Echoと同様の機能を持つデバイスを作れることになる。 後者は、Echoからコントロールできるデバイスやアプリを開発するための開発キット。 つまり前者は、コントロールする側のためのもの。後者は、コントロールされる側のためのもの、ということになる。 またAmazonは、連携するサードパーティのデバイスやサービスを「スキル」と呼んでいる。サードパーティとの連携が増えることで、Echoができること、つまりスキルが増える、という意味だ。 【関連情報:何度同じ質問をしても怒らないAIエンジニアによる「ビジネスマンのためのAI講座」2期生募集中】 調理中にカロリー計算Prep Pad 僕が最もおもしろいと思ったのは、スマート・キッチン・スケール(重量計)のPrep Pad。まな板のようなスケールに食材を載せて、スマホやタブレットのアプリに食材名を入力すれば、カロリーや栄養成分を瞬時に計算してくれるというもの。調理しながら、1つ1つの食材の重さを図っていくことで、完成した料理のカロリーと栄養価の計算ができるようになっている。 このままでも結構人気のデバイスのようだが、Alexaと連携することで、食材名を音声で入力できるようになる。料理しながらの濡れた手で、タッチスクリーンを操作するのは面倒。ボイス入力を可能にすることで、操作性が格段に向上するわけだ。 【ポイント】手を使えない状況。そうした状況にボイス機能は、最も力を発揮する。 冷蔵庫にピタッと音声機能:Triby Tribyは、フランスのベンチャー企業inovoxiaが開発したコミュニケーションデバイス。wi-fiを通じて、電話をかけたり、メッセージを表示したりできる。音楽をかけることもできる。 アイデア自体はEchoに似ているが、冷蔵庫に貼り付けることを想定した形状になっている。 Alexa Voice Serviceにアクセスできるようにすることで、Echo並みに多くのスキルを簡単に実装できるわけだ。 【ポイント】Echoとは異なる場所での利用に特化した形状にすることで、Echoとのバッティングを避けることができる。 wi-fiで簡単設置のIntercom:nucleus 電源につないで壁にかけるだけで、簡単に設置できるIntercom。wi-fi接続なので、工事いらず。各部屋に設置できるし、遠くに住む親戚でさえ、まるで同じ家に住んでいるかのように簡単にテレビ電話ができる。1台約2万円なので、iPadよりも安い。 Alexa Voice Serviceにアクセスすることで、IntercomがEchoの全機能を持つことになる。 【ポイント】デバイス自体は、1つの機能の使い勝手に徹底的にこだわったシンプルなデザインにし、Alexa連携で無数の機能を追加する、という形がいいのかもしれない。 ボイスベースのランニングコーチ:M.A.R.A M.A.R.Aは、基本的にボイスでコントロールするランニング・アシスタント・アプリ。ジョギングの時間や距離、ペースを記録したり、雨が振りそうになれば警告してくれる。ジョギングの最中に音楽も再生してくれる。 Alexaと連携することで、ジョギングが終わって、リビングでリラックスしているときにリビングのEchoに対して「Alexa、今週は全部で何キロ走った?」とか「Alexa、今週のランニングのペースの平均値は?」などと聞くことができる。 【ポイント】スマホをポケットから出すのさえ面倒に思われる瞬間というものがある。その瞬間こそがボイスの出番になる。ちょっとした使い勝手の差は、過小評価されることが多い。しかしヒットするかしないかは、ちょっとした使い勝手の差によるところが大きい。 Mojio Mojioは、コネクテッド・カー・ソリューションのリーディングプロバイダー。Mojioデバイスを自動車のOBD-Ⅱポートに接続することで、車の走行距離や診断データを入手できる。Alexaと連携することで、Echoデバイスから「Alexa、会社へ行く前にガソリンを入れたほうがいい?」「Alexa、今、娘が運転している車は、どの辺りにいるの?」などと質問することができる。 【ポイント】スマホアプリは、基本的にはすべてボイスベースにすることが可能。ただどの用途がタッチスクリーンに向いて、どの用途がボイスに向くのかを、しっかり考える必要がある。ボイスにできるからといって、すべてボイスに変える必要はない。ただ出勤前のバタバタしているときに、ガソリンの量をボイスで確認できるのは確かに便利。こうしたキラー用途を見つけ出せるかどうかがポイント。 話ができるぬいぐるみThe Talkies The Talkiesは、マイクとスピーカーと通信機器が内蔵された子供向けのぬいぐるみ。親のスマホとの間で音声メッセージの送受信ができる。Alexa Voice Serviceにアクセスすることで、Amazonのオーディオブックでの読み聞かせが可能になる。 【ポイント】Amazonは、米国の一部地域で、Alexaの対話AI「Amazon Lex」の一般提供を始めた。従量課金で、1000スピーチリクエストが4ドル。競合他社よりも利用しやすい。Amazonの音声技術を使ったコミュニケーションロボットが多数、開発されるかもしれない。 スマートホテル これは製品ではなく、開発コンテストの入賞作品。ホテルの部屋に置かれたAmazon Echoに対して、音声でルームサービスを注文すると、スマホのAlexaアプリに画像や動画が表示される。Alexaとの対話の中で画像も表示できるので、宿泊客に対してより親切な対応ができる。ルームサービスだけではなく、チェックアウトなども簡略化できるはず。 【ポイント①】B向けへの利用が期待できる。 【ポイント②】高齢者などスマホを使いこなせない層も、ボイスで対話しながらなら、インターネットを使えるようになるかもしれない。 まとめ:スマートホーム以外を狙え 家電メーカーは一斉にAmazonに対応してくるだろう。米国の状況を見ていると、対応しないと売れない時代になるような気がする。なので今までの家電をAmazonに連携させるだけでは差別化にならない。 また米国の先行事例のほとんどはスマートホーム関連。プールの水質管理や、ガレージドアの開閉、ガーデンの水やりなどを、リビングルームのEchoからコントロールできる、というようなものが多い。米国に比べて狭い家が多い日本で、スマートホーム関連で大きなヒット製品が生まれるのかどうか。 それより日本ならB向けや、高齢者向けのデバイスやサービスに可能性があるように思った。 →【ビジネスマンのためのAI講座】詳細はこちら

レジ不要のAmazon Go、特許書類からみるその仕組み

店内での会計はなし。食料品などの商品を手に取って外に出れば買い物が済むという次世代型スーパーのAmazon Go。案の定「人の雇用への影響は?」という視点での議論が広がり始めていますが、それを横目でみつつ今回はその仕組みについて紹介していきたいと思います。 店内で買い物客が商品をバッグや買い物かごに入れる。それをシステムが自動で検知し、買い物客のAmazonアカウントへ請求。だから店内での会計は不要。買い物客に必要なのは、AmazonのアカウントとAmazon Goアプリが搭載されたスマートフォンだけ、というのは改めてすごい仕組みですね。 https://www.youtube.com/watch?v=NrmMk1Myrxc このAmazon Goを実現する仕組みとはどのようなものなのでしょうか? Amazonによるプレスリリースでは、「自動運転に活用されている技術と同様」とされています。 つまりコンピューターによる視覚を実現するコンピュータービジョン、複数のセンサで得られた情報を統合・処理するセンサ・フュージョン、そしてディープラーニング(深層学習)です。 今回は同社による特許書類を参考にしながら、もう少しだけ細かい仕組みを紹介したいと思います。 ただ最初に注意しておくと、2014年に公開されたこの書類に書かれた仕組みがそのままAmazon Goとして実現されているわけではありません。 たとえば同ドキュメントでは、棚からの商品の出し入れを検知するためにRFID(無線認証)を活用とありますが、GeekWireによると実際には活用されなかったとのこと。 ただ大枠として参考になるのではないかと思います。 複数の判断材料で商品を検知 まず客が棚から商品を取る、もしくは戻すという行為は、どのように検知されているのでしょうか? ドキュメントによると、まず棚に手を入れる直前と、棚から手を抜いた直後の手元の画像が撮影されます。棚に手を入れる前後の画像を比べることで、商品を新たに手にしたのか、もしくは戻したのかを識別するようです。 また客が手に取った商品内容の識別方法ですが、基本的には商品がある棚の位置と在庫情報によって導き出すといいます。その場で商品を撮影してその画像を処理するよりも、迅速に判別できるため、という旨の文章が記載されていました。 ただ上記プロセスの補助として、場合によっては商品画像の処理も行うそう。 しかしもちろんこの方法だけでは、識別しきれない時もあるでしょう。その際の対処法について、こう記載されています。 「仮に手に取られた商品がケチャップなのかマスタードなのか、識別できなかったとする。その場合は客による過去の購入履歴と、すでに手に取られた商品のリストを活用する。例えば仮に客が過去に手に取った、もしくは購入した商品としてケチャップしかなかったとする。その場合その情報は、”今回手に取られた商品はケチャップである可能性が高い”と判断するための材料の一つとして使われる」 さらに画像処理に加えて、商品の重さも判断材料の一つとして考慮する場合があるとのこと。複数の判断材料を組み合わせることで、商品検知の精度を上げているようです。 Amazon Goは、現在Amazonの従業員向けに米シアトルで試験的に営業中。2017年はじめには一般向けに開店予定とのことです。

「小学2〜3年生レベル」の人工知能、North Faceの商品リコメンドサービスを使ってみた

何か商品を買う時に、自分に一番合った物をカタログ情報だけで選ぶのって結構難しかったりします。 たとえば冷蔵庫。「4人家族用のサイズで、電気代がそこそこ安く抑えられて、野菜や魚を新鮮に保存できるやつが欲しい!」みたいな希望を満たす商品を探そうとしても、冷蔵庫の容量や機能名、消費電力量といった情報から、最適な品番を選ぶのは至難の技。 結局自分だけでは選びきれず、家電量販店の店員などに相談してオススメされた商品を買うっていうパターンは多いと思います。 今回紹介するアウトドアブランドのThe North Faceは、そうした商品選択に悩む消費者の課題をAI技術によって解消しようとしています。 適切なアウトドア製品を選ぶのも、また難しい作業だったりします。たとえばアウターを選ぶにしても、防水性や防風性、耐久性、重さ、通気性など、商品特徴となる項目がたくさんある中で、着るシチュエーションや現地の気温などを考慮しながら、選ばないといけません。 商品に詳しくてアウトドアの経験も豊富な人なら大丈夫かもしれませんが、初心者だとまずムリそうです。 そこでThe North Faceが2016年4月にリリースしたのが、商品リコメンドサービス。着用する時期や場所、男性用か女性用かといったいくつかの質問に答えるだけで、最適な商品群を表示してくれるというもの。 裏側の技術はIBMのWatson 今回のサービスを実現している技術が、IBMによるコグニティブ・テクノロジー「Watson」です。 Watsonとは、テキストや画像のような非構造化データを分析することで、推論や予測による答えを導き出すためのテクノロジー・プラットフォーム。分析対象となるデータが増えるほど、機械学習によって学習して賢くなっていく点が特長です。 The North Faceは、約12ヶ月かけてWatsonを活用したこのサービスを開発したといいます。ショッピングアシスタントとしてのWatson。使い心地はどうなんでしょうか? 店員と会話しているかのような使い勝手 まずは専用サイトにアクセス。一つ目の質問は「ジャケットはいつどこで着るの?」というもの。試しに「Commuting in Tokyo」(東京での通勤時に)と入れてみました。ちなみ「I want to use it when commuting in Tokyo」「I’ll use it when commuting in Tokyo」みたいな文章で入力しても理解してくれました。 次の質問は「どの時期に着るの?」。この時の入力は、「December」(12月)といった特定の時期だけでなく、「from next...

量から質へ、方向転換を迫られるFacebookのチャットボット

Facebook上のチャットボットが答え損なっているユーザーのリクエストは、全体の70%に上る。 こんなレポートが先日、テック系メディア「The Information」によってリリースされました。同レポートは「現状のチャットボットは人間による手助けがないと、ユーザーのリクエストに答えきれない。人間の要望に答えるだけの技術力がまだない」と結論づけています。 また今後のFacebookによる対応について、こう予測しています。 「ユーザーがチャットボットに失望するような事態を避けるため、より限定された用途での活用を重視していくはずだ」。 そしてこの見方を裏付けるかのような機能が、同レポートがリリースされた直後の3月2日にFacebookによってリリースされました。 従来のようにテキストではなく、ユーザーによる回答を選択肢で選ばせるメニューを表示させる機能を、チャットボット開発者向けに出したのです。 https://videopress.com/v/prkprUKp 確かにどうせユーザーが複雑な文章を打っても理解できないのなら、はじめから選択肢で選ばせたほうが合理的と言えそうです。 しかし合理的といっても、あくまで短期での話。つまり選択式メニューを単純に多用してしまうと、ユーザーとの自然な会話が発生しない、すなわちボットが会話から学習して改善する機会が減ることにもなりかねません。 いずれにしてもFacebookがチャットボット向けのプラットフォームを昨年4月にリリースしてから、早一年。リリースからたった3か月後には、プラットフォーム上のチャットボットの数が1万1000件を超えるなど、破竹の勢いをみせていたものの、このタイミングで方針の見直しを迫られた形です。 チャットボットの今後、量から質へ転換 今回リリースした選択式メニューについてFacebookは、「会話方式を排したシンプルなMessengerエクスペリエンス」だとしています。 会話方式を排除するという動きについては、Facebook上のチャットボットを使ったことのある人にとって意外ではないかもしれません。もともと会話と呼べるほどのコミュニケーションなどできていなかったからです。 たとえば1-800-Flowers.comというフラワーギフトのECサイト。メッセンジャー上からテキストで花のオーダーができます。チャットボットの代表事例の一つとしてよく紹介されますが、現在でも会話といえる水準には至っていません。 オーダーする場面で、欲しい商品(Red rose)を伝えても、あくまでボットが理解できるギフトカテゴリーをまずは選ぶよう指定されてしまいます。 この1-800-Flowers.comを例に挙げつつ、Digital TrendsのライターであるJustin Pot氏は、次のように述べています。 「人間がボットとの会話方法を学ぶのではない。ボットが人間との会話方法を学ぶのだ。そうなるまでアプリやウェブサイトの存在が脅かされることはないだろう」。 これまでは数の伸びが強調されることの多かったメッセンジャー上のチャットボット。プラットフォームのリリースから1年たって、その質が問われる時期に差し掛かっているといえるでしょう。 来月に開催されるFacebook主催の開発者カンファレンス「F8」では、チャットボットの質向上を重視した何らかの発表があるのではとの予測も出ています。今後のチャットボットの動向を追う上で、ぜひ注目したいところです。

AI時代、NVIDIAが当面は無敵と思える理由

最近の株式市場もAIブーム。その中で最も注目されている銘柄が米半導体メーカーNVIDIA(エヌビディア)。同社の株価もすごいことになっているが、最近では同社と提携する企業の株価も高騰する傾向にある(関連記事:AI相場“中核”、NVIDIA関連の「神通力」)。 果たしてNVIDIAは、このままAI時代の覇者として逃げ切ることになるのだろうか。日本法人のDeep Learning部長の井崎武士さんにお話を聞いた。(ITジャーナリスト・湯川鶴章) 2000個のCPUの計算を12個のGPUで実現 そもそもNVIDIAって、いつAI企業になったのだろう。ゲーム用半導体のメーカーと認識していたのは僕だけじゃないはず。 世界中のAIの研究者がNVIDIAのGPU(Graphics Processing Unit)に注目したのは2012年といわれる。Googleが2000個のCPU(Central Processing Unit)を使ってニューラルネットワークを構築し、YouTubeのサムネイル画像の中から猫の画像を認識させることに成功したが、それと同じ実験をスタンフォード大学のAndrew Ng(アンドリュー・エン)氏が、わずか12個のNVIDIA製GPUで再現した。大量のコンピューターを持たなくてもAIを作ることができることに気づいた世界中の研究者たちが、NVIDIAのGPUに飛びつき、AI研究が一気に加速したと言われている。 それまでのAI研究って、冬の時代だったと言われている。長年に渡ってどうしても超えられない山があったわけだが、急に冬の時代から抜け出せたのには3つの要因があるといわれている。1つには、Deep Learningという新しい手法が登場したこと。2つ目は、大量のデータがネット上に溢れ出したこと。そして最後の要因は、NVIDIA製GPU。NVIDIAのGPUのおかげで、AI研究・開発の低コスト化が進んだからだと言われている。 新しい手法と、それに必要な大量のデータ。そして、低コスト半導体で研究の裾野が一気に広がったことで、新たな技術、手法が次々と登場している。そしてその勢いは、今日でもまだ一向に減速しそうにない。 そういう意味で、NVIDIA製GPUの果たした功績は大きい。取材先の研究者に聞いても、半導体ハードウェアはNVIDIA一択だというような話が多い。NVIDIAはAI時代のハードウェアの覇権を握ったのだろうか? とはいうものの一方で、競合他社によるAIチップ開発のニュースが次々と出始めている。こうした動きを、NVIDIAはどう見ているのだろうか。 NVIDIAに待ったをかけるインテル 例えば、Intelは「Xeon Phi(ジーオン・ファイ)」の新バージョンをディープラーニングに最適だとして発表するなど、この半年ほどで猛烈な追撃を始めている。日本のAIベンチャーに話を聞いても、インテルからの営業が精力的になってきているという。 Intelと言えばパソコン全盛時代に、Microsoftとともに時代の覇権を握った半導体メーカー。技術力は半端ないはず。 Intelは、Xeon Phiの発表文の中で「128のノードのインフラを使って学習させたところGPUの50倍速かった」と、NVIDIAのGPUより優れていると書いている。NVIDIAは、早くも追いつかれてしまったのだろうか。 これに対してNVIDIA日本法人の井崎武士氏は「正式に説明文を出したのですが、インテルさんの発表の中で使われていたのはNVIDIAの2世代前のGPU。最新GPUではNVIDIAのほうが断然速いんです。インテルさんのハードウェア開発能力を持ってしても、まだわれわれには追いついていない状態なんです」と胸を張る。 とは言っても巨人Intelが本気を出し始めたわけだ。NVIDIAがいつまでも安泰というわけにはいかないだろう。 「そうかもしれませんが、ただ勝負は半導体というハードウェアだけの話ではないと思うんです。われわれはハードウェアとしてはGPUを持っていますが、そのGPUの性能を最大限利用できる開発環境としてCUDA(クーダ)というものを独自に用意しています。それが他社とは異なるところです」。 とは言ってもGPUの上に乗る言語として、OpenCLなどオープンソースの言語がある。 「業界標準フレームワークのOpenCLで実装するアプローチも当然あります。それは特に一般に流通するソフトウェアの互換性を保つためには有効に働きます。一方、研究で利用されるときには動く環境が決まっていることが多いため、より性能を出しやすい、そして使いやすい(開発サポートが手厚い)ものが選ばれます。われわれはOpenCLを一応はサポートしているのですが、それとは別に最大限性能を引き出してもらうためにCUDAを用意しています」。 CUDAはそんなに使いやすいのだろうか。 「ただCUDAという開発環境で誰でもDeep Learningを簡単に作れるかというと、CUDAを使いこなすのにもそれなりの能力が必要になってきます。なのでCUDAの上にDeep Learning用のライブラリ、GPUとのコミュニケーション用のライブラリなど、各種ライブラリを用意しています」 「それでも開発は簡単ではありません。なので、オープンソースのフレームワークが幾つか登場しています。例えばUCバークレーの『Caffe』、Facebookの『Torch』、日本のPreferred Networksが作った『Chainer』などがそうです。そうした主だったフレームワークの開発者とNVIDIAは緊密な関係にあり、われわれは積極的にフレームワーク開発のお手伝いをしています。どのフレームワークでもCPUと同じようにコードを書いて、『GPUを使う』という設定にするだけで、GPUを簡単に使うことができるようになっています」。 「こうしたところまで競合他社が環境を整えられているかというと、まだどこもできていません。われわれはこの数年、こういった開発環境の整備に注力してきました。ですので今から他社が参入してきても、すぐに追いつけるわけではありません。たとえハードウェアでNVIDIAと同様もしくは超える製品を作れたとしても、そうした開発環境まですぐに用意できるわけではないのです。なので当面は他社がそれほど脅威になるとは思っていません」と言う。 Googleも半導体を独自開発 インテルだけではない。GoogleやMicrosoftなども、NVIDIAに追いつき、追い越そうとしているという話が聞こえてくる。 Googleは新しくTPUと呼ばれる半導体を開発した。日経コンピュータの記事によると、TPUはディープラーニングのために開発されたASIC(Application Specific Integrated Circuit、特定用途向けIC)で、GPU(Graphic Processing Unit)やFPGA(Field Programmable Gate Array)といったディープラーニングの処理に使用する他の技術と比較して「消費電力当たりの性能は10倍」とGoogleのCEOが主張しているらしい。 これに対し井崎氏はこう解説する。「Googleさんが新しく開発したハードウェアTPUは、特化型の半導体なんです。Deep Learningが成熟してきて、『この問題はこのアルゴリズムで解ける』というようなフェーズに入ってくれば、特化型の半導体でもいいと思うんです。でも現状では、毎日2、3本のペースで新しい論文が出ています。新しい最適化の方法、新しいニューラルネットワークの形が、日々登場しています。そうした新しい知見に応じて、ハードウェアを常に更新していくというのは、大変なコストになります。すべてのAIを特化型半導体をベースに作るというのは、リスクが大き過ぎると思うんです」。その証拠にGoogleは、いまだにNVIDIAのGPUを購入し続けているようだ。用途が決まっているところには特化型を、まだまだ進化の最中のところにはNVIDIAのGPUを、ということなのだろう。 MicrosoftはFPGAに社運を賭ける Microsoftも動き出している。Microsoftが力を入れているのはFPGAと呼ばれるタイプの半導体だ。 今日(こんにち)のGPUは、実行するソフトウェアによって機能を自由に定義・変更できるプロセッサーというタイプの半導体。反対にGoogleのTPUなどのASICは、すべての機能が回路としてハードウェア上に焼かれていて、変更できないタイプの半導体。FPGAはちょうどASICとGPUの中間のような存在。ハード上の一部回路を書き換えることで機能変更が可能なタイプの半導体だ。 Wiredの記事によると、Microsoftは、そのFPGAに社運を賭けているという(関連記事:Microsoft Bets Its...

抑えておきたい、AppleやGoogle等が手掛ける人工知能プロジェクト22選

人工知能(AI)はもはやSFの世界の出来事ではない。 AI自らが自律的に学習するディープラーニング(深層学習)の発展をきっかけとして、大企業からベンチャーまで様々な企業がAI技術を使ったビジネス活用に取り組み始めている。 急激に拡大するAI産業をけん引しているのが、ITジャイアントと呼ばれるGoogleやApple、Facebook、Amazon等だ。彼らは自社が保有する膨大なユーザーデータを活用しながら、人工知能関連技術の開発に取り組んでいる。 今回は世界のAI産業を俯瞰する上で不可欠な彼らによる取り組みを中心に、主なAIプロジェクトを紹介していく。 ■IBM 企業によるAIプロジェクトというと、IBMが開発した「Watson」を思い浮かべる人も多いだろう。 2011年2月にアメリカの人気クイズ番組「ジョパディ!」に出演し、当時史上最強といわれたチャンピオン解答者に勝利したことで、世間での知名度を一気に上げた。 https://www.youtube.com/watch?v=KVM6KKRa12g コンピューターでありながら人と同じように理解・学習し、人間の意思決定を支援するコグニティブ(認知型)・システムと位置づけられるWatson。IBMは「Watson」ブランドの下で様々な製品やサービスを展開しているが、大きくは開発者向けツールと既成アプリケーションの2つに分類できる。 Watson APIs IBMが提供する開発者向けのAPI(Application Programming Interface)。Watson APIの活用によって、外部の開発者が自身のアプリケーションにWatsonの技術を取り込むことができる。 APIの種類は、画像識別機能を持つ「Visual Recognition」や、言語翻訳の「Language Translation」、文字を音声に変換する「Text to Speech」など19種類(2016年6月時点)に上る。 Watson Marketplace IBMは「Watson Marketplace」にて、Watsonを利用した既成アプリケーションも提供している。ショッピング支援アプリケーションの「Watson Trend」や自然言語を処理する分析ツール「Watson Analytics」、SNSでのコメントを分析する「Analytics for Social Media」など多岐にわたる。 SystemML 「SystemML」はIBMが開発した機械学習システムで、企業データの分析を目的とした業界特化型の機械学習アルゴリズムを作成するために活用される。SystemMLを取り入れたアプリケーションによるエコシステム構築を狙うIBMは、2015年に同システムのオープンソース化に踏み切っている。  ■Google 検索エンジンで馴染みのGoogleも、AI研究に多大なリソースを投入している。同社は「Google Brain Team」と呼ばれるAIプロジェクトの社内専門チームを設立。獲得した技術を検索エンジンやAndroid対応パーソナルアシスタントサービス「Google Now」をはじめとする自社製品に応用している。さらに研究成果をオープンソースとして公開しているほか、AIに関する研究論文も複数出版している。 TensorFlow Tensor Flowは機械学習に必要な数値計算を行うライブラリ。Google...

人気記事

AI時代、NVIDIAが当面は無敵と思える理由

最近の株式市場もAIブーム。その中で最も注目されている銘柄が米半導体メーカーNVIDIA(エヌビディア)。同社の株価もすごいことになっているが、最近では同社と提携する企業の株価も高騰する傾向にある(関連記事:AI相場“中核”、NVIDIA関連の「神通力」)。 果たしてNVIDIAは、このままAI時代の覇者として逃げ切ることになるのだろうか。日本法人のDeep Learning部長の井崎武士さんにお話を聞いた。(ITジャーナリスト・湯川鶴章) 2000個のCPUの計算を12個のGPUで実現 そもそもNVIDIAって、いつAI企業になったのだろう。ゲーム用半導体のメーカーと認識していたのは僕だけじゃないはず。 世界中のAIの研究者がNVIDIAのGPU(Graphics Processing Unit)に注目したのは2012年といわれる。Googleが2000個のCPU(Central Processing Unit)を使ってニューラルネットワークを構築し、YouTubeのサムネイル画像の中から猫の画像を認識させることに成功したが、それと同じ実験をスタンフォード大学のAndrew Ng(アンドリュー・エン)氏が、わずか12個のNVIDIA製GPUで再現した。大量のコンピューターを持たなくてもAIを作ることができることに気づいた世界中の研究者たちが、NVIDIAのGPUに飛びつき、AI研究が一気に加速したと言われている。 それまでのAI研究って、冬の時代だったと言われている。長年に渡ってどうしても超えられない山があったわけだが、急に冬の時代から抜け出せたのには3つの要因があるといわれている。1つには、Deep Learningという新しい手法が登場したこと。2つ目は、大量のデータがネット上に溢れ出したこと。そして最後の要因は、NVIDIA製GPU。NVIDIAのGPUのおかげで、AI研究・開発の低コスト化が進んだからだと言われている。 新しい手法と、それに必要な大量のデータ。そして、低コスト半導体で研究の裾野が一気に広がったことで、新たな技術、手法が次々と登場している。そしてその勢いは、今日でもまだ一向に減速しそうにない。 そういう意味で、NVIDIA製GPUの果たした功績は大きい。取材先の研究者に聞いても、半導体ハードウェアはNVIDIA一択だというような話が多い。NVIDIAはAI時代のハードウェアの覇権を握ったのだろうか? とはいうものの一方で、競合他社によるAIチップ開発のニュースが次々と出始めている。こうした動きを、NVIDIAはどう見ているのだろうか。 NVIDIAに待ったをかけるインテル 例えば、Intelは「Xeon Phi(ジーオン・ファイ)」の新バージョンをディープラーニングに最適だとして発表するなど、この半年ほどで猛烈な追撃を始めている。日本のAIベンチャーに話を聞いても、インテルからの営業が精力的になってきているという。 Intelと言えばパソコン全盛時代に、Microsoftとともに時代の覇権を握った半導体メーカー。技術力は半端ないはず。 Intelは、Xeon Phiの発表文の中で「128のノードのインフラを使って学習させたところGPUの50倍速かった」と、NVIDIAのGPUより優れていると書いている。NVIDIAは、早くも追いつかれてしまったのだろうか。 これに対してNVIDIA日本法人の井崎武士氏は「正式に説明文を出したのですが、インテルさんの発表の中で使われていたのはNVIDIAの2世代前のGPU。最新GPUではNVIDIAのほうが断然速いんです。インテルさんのハードウェア開発能力を持ってしても、まだわれわれには追いついていない状態なんです」と胸を張る。 とは言っても巨人Intelが本気を出し始めたわけだ。NVIDIAがいつまでも安泰というわけにはいかないだろう。 「そうかもしれませんが、ただ勝負は半導体というハードウェアだけの話ではないと思うんです。われわれはハードウェアとしてはGPUを持っていますが、そのGPUの性能を最大限利用できる開発環境としてCUDA(クーダ)というものを独自に用意しています。それが他社とは異なるところです」。 とは言ってもGPUの上に乗る言語として、OpenCLなどオープンソースの言語がある。 「業界標準フレームワークのOpenCLで実装するアプローチも当然あります。それは特に一般に流通するソフトウェアの互換性を保つためには有効に働きます。一方、研究で利用されるときには動く環境が決まっていることが多いため、より性能を出しやすい、そして使いやすい(開発サポートが手厚い)ものが選ばれます。われわれはOpenCLを一応はサポートしているのですが、それとは別に最大限性能を引き出してもらうためにCUDAを用意しています」。 CUDAはそんなに使いやすいのだろうか。 「ただCUDAという開発環境で誰でもDeep Learningを簡単に作れるかというと、CUDAを使いこなすのにもそれなりの能力が必要になってきます。なのでCUDAの上にDeep Learning用のライブラリ、GPUとのコミュニケーション用のライブラリなど、各種ライブラリを用意しています」 「それでも開発は簡単ではありません。なので、オープンソースのフレームワークが幾つか登場しています。例えばUCバークレーの『Caffe』、Facebookの『Torch』、日本のPreferred Networksが作った『Chainer』などがそうです。そうした主だったフレームワークの開発者とNVIDIAは緊密な関係にあり、われわれは積極的にフレームワーク開発のお手伝いをしています。どのフレームワークでもCPUと同じようにコードを書いて、『GPUを使う』という設定にするだけで、GPUを簡単に使うことができるようになっています」。 「こうしたところまで競合他社が環境を整えられているかというと、まだどこもできていません。われわれはこの数年、こういった開発環境の整備に注力してきました。ですので今から他社が参入してきても、すぐに追いつけるわけではありません。たとえハードウェアでNVIDIAと同様もしくは超える製品を作れたとしても、そうした開発環境まですぐに用意できるわけではないのです。なので当面は他社がそれほど脅威になるとは思っていません」と言う。 Googleも半導体を独自開発 インテルだけではない。GoogleやMicrosoftなども、NVIDIAに追いつき、追い越そうとしているという話が聞こえてくる。 Googleは新しくTPUと呼ばれる半導体を開発した。日経コンピュータの記事によると、TPUはディープラーニングのために開発されたASIC(Application Specific Integrated Circuit、特定用途向けIC)で、GPU(Graphic Processing Unit)やFPGA(Field Programmable Gate Array)といったディープラーニングの処理に使用する他の技術と比較して「消費電力当たりの性能は10倍」とGoogleのCEOが主張しているらしい。 これに対し井崎氏はこう解説する。「Googleさんが新しく開発したハードウェアTPUは、特化型の半導体なんです。Deep Learningが成熟してきて、『この問題はこのアルゴリズムで解ける』というようなフェーズに入ってくれば、特化型の半導体でもいいと思うんです。でも現状では、毎日2、3本のペースで新しい論文が出ています。新しい最適化の方法、新しいニューラルネットワークの形が、日々登場しています。そうした新しい知見に応じて、ハードウェアを常に更新していくというのは、大変なコストになります。すべてのAIを特化型半導体をベースに作るというのは、リスクが大き過ぎると思うんです」。その証拠にGoogleは、いまだにNVIDIAのGPUを購入し続けているようだ。用途が決まっているところには特化型を、まだまだ進化の最中のところにはNVIDIAのGPUを、ということなのだろう。 MicrosoftはFPGAに社運を賭ける Microsoftも動き出している。Microsoftが力を入れているのはFPGAと呼ばれるタイプの半導体だ。 今日(こんにち)のGPUは、実行するソフトウェアによって機能を自由に定義・変更できるプロセッサーというタイプの半導体。反対にGoogleのTPUなどのASICは、すべての機能が回路としてハードウェア上に焼かれていて、変更できないタイプの半導体。FPGAはちょうどASICとGPUの中間のような存在。ハード上の一部回路を書き換えることで機能変更が可能なタイプの半導体だ。 Wiredの記事によると、Microsoftは、そのFPGAに社運を賭けているという(関連記事:Microsoft Bets Its...

日本にもボイス時代到来!Amazon Echo連携の先行事例7選

Amazonの人気スピーカー型電子秘書「Amazon Echo(エコー)」の国内販売に向けて日本法人が動き始めた、という情報がいろいろな方面から入ってきた。(関連記事;日本でもAmazon Echo年内発売?既に業界は戦々恐々) 連携するデバイス、サービスの数が7000を超えたAmazon Echoは、スマホ全盛時代に終止符を打ち、ボイスの時代の幕を開けるデバイスと言われている。 スマホ時代の幕開けの時期にアプリ開発競争が繰り広げられたように、今年から日本でもボイス搭載デバイスやサービスが次々と登場するかもしれない。 ボイス機能で、どのようなデバイス、サービスを開発できるのだろうか。 さすがにAmazon Echoと連携する7000以上のデバイス、サービスのすべてを見て回ることはできないので、Amazon自体が出資しているものや、開発者コミュニティで話題になっているものを中心に調べ、その中で日本でも使えそうなものを7つ厳選して紹介したい。(ITジャーナリスト:湯川鶴章) Echoはハード、Alexaはソフト その前に重要な用語を整理しておきたい。Echoは、スピーカー型ハードウェアの名称。Amazonが現在、米国で販売しているのは、ノッポのEcho、少し小さめの廉価版である「Echo Dot」、それに利用する前にタッチが必要な「Echo tap」の3種類がある。 「Alexa」はEchoに搭載されている音声認識AIの名称。つまりEchoはハード、Alexaはソフトということになる。メディアではEchoのほうが取り上げられることが多いが、7000以上のデバイス、サービスが連携された今、AIであるAlexaのほうが重要性を増している。 開発者向けのサービスや開発キットには、Alexa Voice Serviceと、Alexa Skills Kitの2つがある。 前者は、クラウド上に音声認識機能が乗っていて、そこに音声データを送信するだけで、返答が返ってくるサービス。マイクとスピーカーさえあれば、Echoと同様の機能を持つデバイスを作れることになる。 後者は、Echoからコントロールできるデバイスやアプリを開発するための開発キット。 つまり前者は、コントロールする側のためのもの。後者は、コントロールされる側のためのもの、ということになる。 またAmazonは、連携するサードパーティのデバイスやサービスを「スキル」と呼んでいる。サードパーティとの連携が増えることで、Echoができること、つまりスキルが増える、という意味だ。 【関連情報:何度同じ質問をしても怒らないAIエンジニアによる「ビジネスマンのためのAI講座」2期生募集中】 調理中にカロリー計算Prep Pad 僕が最もおもしろいと思ったのは、スマート・キッチン・スケール(重量計)のPrep Pad。まな板のようなスケールに食材を載せて、スマホやタブレットのアプリに食材名を入力すれば、カロリーや栄養成分を瞬時に計算してくれるというもの。調理しながら、1つ1つの食材の重さを図っていくことで、完成した料理のカロリーと栄養価の計算ができるようになっている。 このままでも結構人気のデバイスのようだが、Alexaと連携することで、食材名を音声で入力できるようになる。料理しながらの濡れた手で、タッチスクリーンを操作するのは面倒。ボイス入力を可能にすることで、操作性が格段に向上するわけだ。 【ポイント】手を使えない状況。そうした状況にボイス機能は、最も力を発揮する。 冷蔵庫にピタッと音声機能:Triby Tribyは、フランスのベンチャー企業inovoxiaが開発したコミュニケーションデバイス。wi-fiを通じて、電話をかけたり、メッセージを表示したりできる。音楽をかけることもできる。 アイデア自体はEchoに似ているが、冷蔵庫に貼り付けることを想定した形状になっている。 Alexa Voice Serviceにアクセスできるようにすることで、Echo並みに多くのスキルを簡単に実装できるわけだ。 【ポイント】Echoとは異なる場所での利用に特化した形状にすることで、Echoとのバッティングを避けることができる。 wi-fiで簡単設置のIntercom:nucleus 電源につないで壁にかけるだけで、簡単に設置できるIntercom。wi-fi接続なので、工事いらず。各部屋に設置できるし、遠くに住む親戚でさえ、まるで同じ家に住んでいるかのように簡単にテレビ電話ができる。1台約2万円なので、iPadよりも安い。 Alexa Voice Serviceにアクセスすることで、IntercomがEchoの全機能を持つことになる。 【ポイント】デバイス自体は、1つの機能の使い勝手に徹底的にこだわったシンプルなデザインにし、Alexa連携で無数の機能を追加する、という形がいいのかもしれない。 ボイスベースのランニングコーチ:M.A.R.A M.A.R.Aは、基本的にボイスでコントロールするランニング・アシスタント・アプリ。ジョギングの時間や距離、ペースを記録したり、雨が振りそうになれば警告してくれる。ジョギングの最中に音楽も再生してくれる。 Alexaと連携することで、ジョギングが終わって、リビングでリラックスしているときにリビングのEchoに対して「Alexa、今週は全部で何キロ走った?」とか「Alexa、今週のランニングのペースの平均値は?」などと聞くことができる。 【ポイント】スマホをポケットから出すのさえ面倒に思われる瞬間というものがある。その瞬間こそがボイスの出番になる。ちょっとした使い勝手の差は、過小評価されることが多い。しかしヒットするかしないかは、ちょっとした使い勝手の差によるところが大きい。 Mojio Mojioは、コネクテッド・カー・ソリューションのリーディングプロバイダー。Mojioデバイスを自動車のOBD-Ⅱポートに接続することで、車の走行距離や診断データを入手できる。Alexaと連携することで、Echoデバイスから「Alexa、会社へ行く前にガソリンを入れたほうがいい?」「Alexa、今、娘が運転している車は、どの辺りにいるの?」などと質問することができる。 【ポイント】スマホアプリは、基本的にはすべてボイスベースにすることが可能。ただどの用途がタッチスクリーンに向いて、どの用途がボイスに向くのかを、しっかり考える必要がある。ボイスにできるからといって、すべてボイスに変える必要はない。ただ出勤前のバタバタしているときに、ガソリンの量をボイスで確認できるのは確かに便利。こうしたキラー用途を見つけ出せるかどうかがポイント。 話ができるぬいぐるみThe Talkies The Talkiesは、マイクとスピーカーと通信機器が内蔵された子供向けのぬいぐるみ。親のスマホとの間で音声メッセージの送受信ができる。Alexa Voice Serviceにアクセスすることで、Amazonのオーディオブックでの読み聞かせが可能になる。 【ポイント】Amazonは、米国の一部地域で、Alexaの対話AI「Amazon Lex」の一般提供を始めた。従量課金で、1000スピーチリクエストが4ドル。競合他社よりも利用しやすい。Amazonの音声技術を使ったコミュニケーションロボットが多数、開発されるかもしれない。 スマートホテル これは製品ではなく、開発コンテストの入賞作品。ホテルの部屋に置かれたAmazon Echoに対して、音声でルームサービスを注文すると、スマホのAlexaアプリに画像や動画が表示される。Alexaとの対話の中で画像も表示できるので、宿泊客に対してより親切な対応ができる。ルームサービスだけではなく、チェックアウトなども簡略化できるはず。 【ポイント①】B向けへの利用が期待できる。 【ポイント②】高齢者などスマホを使いこなせない層も、ボイスで対話しながらなら、インターネットを使えるようになるかもしれない。 まとめ:スマートホーム以外を狙え 家電メーカーは一斉にAmazonに対応してくるだろう。米国の状況を見ていると、対応しないと売れない時代になるような気がする。なので今までの家電をAmazonに連携させるだけでは差別化にならない。 また米国の先行事例のほとんどはスマートホーム関連。プールの水質管理や、ガレージドアの開閉、ガーデンの水やりなどを、リビングルームのEchoからコントロールできる、というようなものが多い。米国に比べて狭い家が多い日本で、スマートホーム関連で大きなヒット製品が生まれるのかどうか。 それより日本ならB向けや、高齢者向けのデバイスやサービスに可能性があるように思った。 →【ビジネスマンのためのAI講座】詳細はこちら

効果的なランディングページはどちら?予測対決でAIが熟練マーケターを打ち負かす

ランディングページ制作ツールとして、日本のデジタルマーケターにもお馴染みのカナダ企業Unbounce。 彼らが機械学習モデルによって、ランディングページのコンバージョン率を予測するという試みを実施しました。 最高技術責任者(CTO)のCarl Schmidt氏が率いるデータサイエンティストやコンバージョン最適化チームは、過去12か月間にわたってプロジェクトを進行。 Unbounceによって作られた数十万件ものランディングページ(LP)を対象に、機械学習モデルによってそれぞれのLPによるコンバージョン率の高低を予測しました。 特定のLPが業界平均より高いか低いかという予測において、同モデルの的中率は平均80%に上ったといいます。 かなり高い的中率のようですが、ここまで出来ると次に知りたくなることは、人間による精度と比べてどうなのかという点です。 AIによる正答率、人間を大幅に上回る そこでUnbounceは、今年5月にカナダのバンクーバーで開かれた同社主催のカンファレンスにて、参加者と機械学習モデルによる予測対決を実施しました。 仕様は次の通り。 ・特定のLPによるコンバージョン率が業界平均より高いか低いかについて、デジタルマーケターとAIそれぞれが予測 ・対象LPの数は204本 ・参加したマーケターは427人(同イベントに登壇した著名マーケター含む) ・分析対象は、LPのテキストコピーだけ(デザインや画像などは考慮なし) そして結果はこの記事のタイトルにもある通り、AIの勝利でした。 AIによる正答率が79.7%に上った一方で、参加者による正答率は平均で50%。最も正答率が高かった参加者でも56.9%にとどまったといいます。 つまりこうしたイベントに登壇するような著名なマーケターですら、予測精度でAIに遠く及ばなかったのです。 LPのコピーライティングが専門で、今回の試みに参加したJoel Klettke氏は、その難しさについて次のように振り返っています。ちなみに同氏は、今回の参加者の中で最も高い正答率をたたき出した人物。 「自分が持つバイアスを克服しなければいけない点が難しかった。LPの内容やデザインに嫌悪感を抱いてしまうこともあり、そうなるとユーザーの視点で判断することが難しくなってしまう」。 また今回の判断要素はテキストコピーだけ、というルールだったものの、デザインが優れていると、二流なコピーでもある程度マシに見えてしまう、というジレンマもあったようです。 過去の事例や自らの直観に従って判断しがちな人間による限界が浮き彫りになった形でしょう。 コンテンツ制作におけるAIの役割とは? さらにコンテンツ制作におけるAIの役割について、Klettke氏はこう語りました。 「従来のコンテンツ制作をすべてAIが担うようになる、ということではない。ただ人間の判断がどこまで正しいかをアルゴリズムの視点で検証できることは良い」。 ただUnbounceのSchmidt CTOは、マーケターのタスクを補助するのが現状のAIによる役割だとしつつも、「それもすぐに変わる」としています。 「(AIによって)コピーの作成や編集が可能になる時期もそう遠くはない。さらにコンテンツを一から作ることができるようになる日も来るだろう。ただそうなるまでにはあと数年はかかるはずだ」。 いずれにしても、テクノロジーの発展具合に合わせて、自らの業務を最適化させていく努力が一層重要になりそうです。

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは?事例を交えてわかりやすく解説

近年、ディープラーニング(深層学習)を中心とした機械学習の技術が注目を集めています。そのホットな応用先の1つが画像認識です。 今回は「画像×機械学習」によって、精緻な画像識別を可能にする技術、”画像セグメンテーション”について見ていきましょう。 画像分類の種類について 「画像×機械学習」といってもその応用例はたくさんあります。 画像セグメンテーションの特徴を理解するためにも、まずはよく使われているその他の画像分類技術も見ていきましょう。 今回は画像セグメンテーションを含む、こちらの3つを紹介します。 1)画像分類(classification)…”その画像が何なのか”を識別 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 1)画像分類(classiification)…”その画像が何なのか”を識別 画像分類では、”その画像が何なのか”カテゴリ分けします。 例えば、様々な寿司ネタの書かれた画像を「これはサーモン、これはいくら、これはとろ、、、」というように一枚一枚分類していく感じになります。 最近AmazonからリリースされたAmazon RekognitionのObject and scene detectionもこの画像分類にあたりますね。 こちらの画像では、対象の画像がCityやDowntown、Metropolisであると分類されています。 この方法では1枚の画像が1つの物体等を映し出していた場合には有効ですが、複数の対象が写っていた場合、それぞれを認識することはできません。 例えば、今机にある複数の物体を写真に撮ってRekognitionにアップロードしてみます。 本来であれば「カップとスマホとボトル」が写っているのですが、Amazon Rekognitionでは画像全体へのラベル付けとしてCupやCoffee Cupが上位に来ています。 これでは、複数の物体が画像に入り込むシーンでは使えないですね。そういった場合には「画像検出(detection)」を活用することになります。 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 detectionと呼ばれる画像検出では、“何があるのか”に加え“どこにあるのか”も識別ができます。 例えば、先程の画像を例にとると、以下のように「コーヒー、ボトル、スマホ」という3つのwhatとwhereが識別できます。 Facebook上に写真をアップロードすると、顔の部分をタグ付けできるようになっていますが、あの技術も顔を検出する画像検出が使われている例ですね。 Amazon RekognitionにもFace Analysisの機能があったのでこちらの画像も例として載せておきます。 この画像のように、"顔がどこにあるのか?"が顔認識では取得できています。 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 それでは今回のメインである画像セグメンテーションについて見ていきましょう。 Semantic Segmentation と呼ばれる画像セグメンテーションでは、画像全体や画像の一部の検出ではなくピクセル1つひとつに対して、そのピクセルが示す意味をラベル付けしていきます。 画像を見たほうがわかりやすいので実際の画像を見てみましょう。 引用:http://jamie.shotton.org/work/research.html 一番左の画像では、”牛(cow)”に加え“草(grass)”も色づけされています。 これまでに紹介した画像検出では牛という物体が4体検出される以上のことはできませんでしたが、Semantic Segmentationでは画像全体がピクセルごとに意味づけされます。 この技術の応用例の1つ、自動車の自動運転があります。自動運転では以下のようにリアルタイムでセグメンテーションが行われます。 引用:http://worldwide.chat/E6gij6IS8n0.video ファッション領域で画像セグメンテーションを使ってみる。 それでは画像セグメンテーションの精度をみるために、実際に人間が着ている服装をsemantic segmentationで識別してみましょう。ここから少し技術的な話になります。 ○アルゴリズム 今回はFully Convolutional Neural Networkを使いSemantic Segmentationを行います。 引用:https://arxiv.org/abs/1411.4038 ○データセット こちらのデータセットを拝借しました。 https://sites.google.com/site/fashionparsing/dataset こちらのデータ・セットでは、左図のような通常の写真と右図のようなピクセルごとに色付けされた画像のセットが2683組あり、「背景」「Tシャツ」「カバン」「ベルト」「ブレザー」「ブラウス」「コード」「ドレス」「顔」「髪」「帽子」「ジーンズ」「レギンス」「パンツ」「スカーフ」「靴」「シャツ」「肌」「スカート」「靴下」「ストッキング」「サングラス」「セーター」という領域に分けて色付けがされています。 ○学習 今回は私たちインキュビット社にあるNvidia GPU TitanXのマシンを使ってTensorFlowで実装を行い、データのうち90%を学習に10%を検証に使いました。 Adam optimizerのモデルを使い、バッチサイズ:50、学習率:10^-5、ドロップ率:0.5をという条件で約10時間かかっています。 ○結果 セグメンテーションの精度はまぁまぁなようですが、すこし色が違う部分が有りますね。ブラウスやブレザー、ジーンズやレギンス等、細かな部分を識別しきれていないようです。人間がみても見分けづらい箇所なので、難易度は高いのでしょう。 データセットが100万組ほどあるとジーンズとレギンスといった細かい違いにも対応できるかと思います。しかし今回は2700枚以下のセットしかないので、以下のようにも少し大雑把でシンプルな分類にしてみましょう。 ・Tシャツ、かばん、ブレザー、ブラウス、コート、セーター → トップス ・顔、帽子、サングラス → 顔 ・ジーンズ、レギンス、パンツ、ショートスカート → ボトム ・靴下、ストッキング → 靴下 今度はかなり正答例と近くなりましたね。 画像セグメンテーションではこのような感じで、学習データを用意しモデルを作成していきます。 ■最後に 今回の記事では ・「画像×機械学習」の応用として、画像分類、画像検出、画像セグメンテーションを紹介しました。 ・画像セグメンテーションの例として、服装のセグメントのステップを実際のデータを用いてご紹介しました。 ファッション 以外の領域でも、画像セグメンテーションの応用例はまだまだ あります。画像×機械学習に興味があるかた、実際にビジネスに導入していきたい方、お気軽にお問い合わせください。

「小学2〜3年生レベル」の人工知能、North Faceの商品リコメンドサービスを使ってみた

何か商品を買う時に、自分に一番合った物をカタログ情報だけで選ぶのって結構難しかったりします。 たとえば冷蔵庫。「4人家族用のサイズで、電気代がそこそこ安く抑えられて、野菜や魚を新鮮に保存できるやつが欲しい!」みたいな希望を満たす商品を探そうとしても、冷蔵庫の容量や機能名、消費電力量といった情報から、最適な品番を選ぶのは至難の技。 結局自分だけでは選びきれず、家電量販店の店員などに相談してオススメされた商品を買うっていうパターンは多いと思います。 今回紹介するアウトドアブランドのThe North Faceは、そうした商品選択に悩む消費者の課題をAI技術によって解消しようとしています。 適切なアウトドア製品を選ぶのも、また難しい作業だったりします。たとえばアウターを選ぶにしても、防水性や防風性、耐久性、重さ、通気性など、商品特徴となる項目がたくさんある中で、着るシチュエーションや現地の気温などを考慮しながら、選ばないといけません。 商品に詳しくてアウトドアの経験も豊富な人なら大丈夫かもしれませんが、初心者だとまずムリそうです。 そこでThe North Faceが2016年4月にリリースしたのが、商品リコメンドサービス。着用する時期や場所、男性用か女性用かといったいくつかの質問に答えるだけで、最適な商品群を表示してくれるというもの。 裏側の技術はIBMのWatson 今回のサービスを実現している技術が、IBMによるコグニティブ・テクノロジー「Watson」です。 Watsonとは、テキストや画像のような非構造化データを分析することで、推論や予測による答えを導き出すためのテクノロジー・プラットフォーム。分析対象となるデータが増えるほど、機械学習によって学習して賢くなっていく点が特長です。 The North Faceは、約12ヶ月かけてWatsonを活用したこのサービスを開発したといいます。ショッピングアシスタントとしてのWatson。使い心地はどうなんでしょうか? 店員と会話しているかのような使い勝手 まずは専用サイトにアクセス。一つ目の質問は「ジャケットはいつどこで着るの?」というもの。試しに「Commuting in Tokyo」(東京での通勤時に)と入れてみました。ちなみ「I want to use it when commuting in Tokyo」「I’ll use it when commuting in Tokyo」みたいな文章で入力しても理解してくれました。 次の質問は「どの時期に着るの?」。この時の入力は、「December」(12月)といった特定の時期だけでなく、「from next...

「目指すは日本ならではのチャットボットの形」、サイバーエージェント石川大輔氏

日本企業によるチャットボット事業の現状とは? 今回はITジャーナリストの湯川鶴章さんに寄稿していただきました! ―――――――――――――――――――― スマートフォンアプリの次の主戦場として注目を集めるチャットボット。米国では熾烈な開発競争が始まっているが、日本ではまだまだ注目度は低い。 しかしAIの進化に伴って、日本でもチャットボットが企業と消費者とを結ぶ主要チャンネルになることは間違いない。チャットボット事業で、日本で先行する3社のうち、サイバーエージェントの戦略について詳しく調べてみた。 先行するのは、リクルートとトラコス その前に、残りの2社はどこかと言うと、1社目はリクルート。チャットボットの成功事例の先駆けである「パン田一郎」を手がけたことで、チャットボットに関心を持つ業界関係者の間では一目置かれる存在。そのリクルートが米シリコンバレーに開設したAI研究所では、さらなる高性能のチャットボットの開発を進めている。(関連記事:シリコンバレーのリクルートAI研究所はチャットボットを開発していた)世界的に見ても、リクルートが最先端を走り続ける可能性は大きい。 2社目は、コールセンター業務大手のトランスコスモスだ。チャットボットが普及すれば、コールセンター業務は大打撃を受ける可能性がある。技術革新の津波を前に主要事業を守ろうとしてジリ貧に陥る企業が多い中で、トランスコスモスは先陣を切ってチャットボット事業に乗り出した。座して死を待つより、自ら新しい領域に打って出ることで、変化の時代を乗り越えようとしているわけだ。国内メッセンジャー最大手のLINEと合弁会社を設立するなど、次々と大胆な手を打っており、チャットボットビジネスの本命と言ってもいいだろう。(関連記事:LINEチャット対応でデータを蓄積、トランスコスモスのAI戦略) チャットボットに詳しい業界関係者に聞くと、この2社が最有力。「もはや他社は入り込めない」という声さえ聞こえてくる。 サイバーの動きの速さはピカイチ そんな中で、ネットビジネスの雄サイバーエージェントが怒涛の勢いで動き出した。同社は2016年7月にチャットボットを専業にする連結子会社、株式会社AIメッセンジャーを設立した。同社の石川大輔代表取締役によると、事業を思いついたのは同年3月。「構想から実質3カ月でサービスを作り上げました」と笑う。 きっかけはユーザー行動の変化だった。石川氏はサイバーエージェントに入社以来、デジタル広告畑で実績を積んできた。ユーザー行動の変化は、広告関連のデータで読み取れた。 「何か調べ物をするときに今までだと検索エンジンを使うケースが多かったのですが、最近ではSNSで友人たちに質問することで問題を解決するケースが増えていることに気づいたんです」。 サイバーエージェントのデジタル広告の部署は、これまでユーザーを細かな層に分け、それぞれの層に合った広告を配信する支援をしてきたのだが、そうしたユーザー層の細分化や広告の最適化といった業務自体を、Facebookなどのプラットフォーム自身が手がけ始めたということも、大きな変化だった。 新しいフェーズに合った広告の形を模索していかなければならない。そう考えていたときに、チャットボットのアイデアを思いついたのだという。 デジタル広告に必要なユーザーの購買履歴、行動履歴などのデータを使って、チャットボットがユーザー一人ひとりに合った対応をするようになれば、新たな広告、マーケティングのチャンネルになるかもしれない。そう考えた同氏は、サイバーエージェントによるAIラボの自然言語処理の専門家を巻き込んで、あっという間にチャットボットを開発。9月からサービスインし、デジタル広告のクライアント企業を中心に営業をかけ、既に十数社がチャットボットの導入を進めているという。 某クライアント企業に対しては、有人対応とボット対応のハイブリッド型を導入。まずはすべての消費者に対してチャットボットが対応。ボットの対応を通じて見込み客を見極めて、人のチャットオペレーターがボットに代わって対応する形にした。しつこく電話攻勢しなくてもよくなった上、オペレーターによる成約率が100%になったという。 こうした成功事例が出始めたため、多くの企業からの引き合いが続いているという。これに対応するため、同社では沖縄で週7日24時間体制で稼働するチャットセンターの人員を急ピッチで増強し始めている。 水平分業と垂直統合 トランスコスモスとサイバーエージェントの両方を取材してみておもしろかったのが、両社の戦略の違いだ。 トランスコスモスはこのほど、有力チャットボットメーカーの米Reply社と提携。Reply社によるボット構築、運用管理プラットフォームReply.aiについて、日本での独占販売権とアジアでの優先販売権を取得した。 米国のチャットボット事情を調べていると、Reply.aiに関する言及をよく目にする。この領域でのトップ企業なのだろう。同社と提携することで、トランスコスモスは最先端のボットツールを日本で独占的に取り扱えるようになったわけだ。 どうやらトランスコスモスは、ボット関連技術をすべて自社開発するのではなく、世界中から最も優れた技術を探し出し、それを統合することで1つのサービスとして提供する戦略のようだ。餅屋は餅屋。自分は得意な領域に特化し、そのほかの領域はそこを得意な他社に任せる。いわゆる水平分業と呼ばれる戦略だ。 一方のサイバーエージェントは、バックエンドのAIから、フロントエンドのチャットボットのデザインまで、すべて自社開発するという。いわゆる垂直統合と呼ばれる戦略だ。 水平分業と垂直統合。どちらの戦略が優れているのだろうか? パソコン全盛時代は、MicrosoftとIntel陣営の水平分業が勝利した。MicrosoftがWindows、Intelが半導体、パソコンメーカーが残りの部品を組み立てるという分業体制。それぞれが得意な領域に特化したため、優れた製品を低価格で提供できたため、パソコンは世界中のオフィスに普及するまでになった。 一方で、ハードもソフトも1社で手がけるAppleのパソコンは、Windowsパソコンと比べると割高感が出て、シェアを伸ばすことができなかった。垂直統合戦略の敗北だった。 その後のスマートフォン時代でもAppleは垂直統合戦略を踏襲。iPhoneのハードも基本ソフトも自社で手がけた。一方スマホ時代のもう片方の雄、Googleは、基本ソフトAndroidの開発、改良に専念。無料でAndroidを提供したため、世界中の家電メーカーがAndroidを搭載したスマホを開発した。この水平分業のおかげでAndroid端末はiPhoneより低価格で販売でき、思惑通りシェアを伸ばすことに成功した。 ただシェアが伸びたのは主に途上国だった。先進国では低価格よりも、完成度の高さが評価され、iPhoneは圧倒的な強さを誇った。利益率もiPhoneのほうが高いので、Appleは世界トップクラスの超優良企業となった。 Googleも途中から水平分業戦略に見切りをつけ、自社でもスマホのハードウエアを手がけ、先進国でのiPhoneのシェアになんとか食い込もうと躍起になっている。Appleの垂直統合戦略の勝利だ。 ではチャットボット時代には、水平分業、垂直統合のどちらの戦略が成功するのだろうか? サイバーの思い描くビジョンとは なぜサイバーエージェントは、垂直統合にこだわるのだろうか。 石川氏は「自分たちのビジョンを貫こうとすれば、すべてのツールを自社で開発するしかないと思うからです」と言う。 石川氏はどのようなビジョンを持っているのだろう。 「デジタル広告に使うユーザーの購買履歴のデータと紐付けることで、『先日はお買上げいただきありがとうございました』というやりとりが可能になります。GPSデータと紐付けることで、最寄りの店舗まで道案内が可能になります。クーポン発行ツールと紐付けることで『今、このクーポンを使うとお得ですよ』と店内での購買を促進することも可能になります。いろいろなデータを集めてきてAIが解析、最も適した情報やサービスをチャットボットが提供する。そういう時代になると思うんです」と石川氏は言う。 いろいろなデータやツールを統合する際に、異なるメーカーのツールを組み合わせて使うには限界がある、と石川氏は指摘する。ツールメーカーの間で、チャットボットの使い方に対するビジョンが異なるかもしれない。それぞれのツールのバージョンアップの速度や頻度も異なってくるだろう。 「僕も異なるツールの組み合わせでデジタル広告事業を手掛けたことがあるんですが、大変でした。なかなか前に進まないんです。絶対にうまく行かないと思います」と石川氏は断言する。 「ツールごとの価格や性能では、海外のツールに勝てないかもしれない。でも各種ツールを統合したサービスの総合点では、自社開発にこだわったほうが良いサービスになるのではないかと思うのです」と力説する。 日本人の心理に特化。 またチャットボットは、検索連動型広告など、これまで主流の広告マーケティング手法と大きく異なることが一つある。ユーザーは、チャットボットに人間味を求める、ということだ。 すべてのユーザーに対して同じ受け答えをするより、ユーザーの購買履歴を見て『先日は商品をご購入いただきありがとうございました。その後、いかがですか?」と語りかけるほうが、ユーザーの心に響くことだろう。 そうした人間味のある理想的な受け答えは、国や文化によって異なってくるはず。米国製の味気ないチャットボットより、日本語と日本文化に特化したチャットボットのほうが、日本のユーザーに受け入れられるのではないだろうか。 そう考えた石川氏は、心理面での専門家をアドバイザーに迎え、日本語での日本人らしい対話のあり方を研究しているのだと言う。「『わたしに何でも聞いてください』とチャットボットに問いかけられても、ユーザーは何を聞いていいのか分からない。でも『こちらの商品が新しく発売になりました。青と赤ではどちらの色がお好みですか?』と聞かれれば、より答えやすい。そうしてユーザーの選択を支援してあげれば、ユーザーはより買いやすくなるみたいなんです」。 まるでリアル店舗の店員の接客術のようだ。 「まだ業界内で『チャットボットの正しい使い方』という共通認識はない。僕達は、1つの『正しい使い方』のビジョンをどこよりも早く提案していきたい。そして期待通りの効果が出れば、僕達は先行企業として、圧倒的に有利なポジションに立てるのではないかと思うんです」。 Appleは、電話もできる音楽プレーヤーという独自のビジョンでiPhoneを開発した。このビジョンが、音楽好きのアーリーアダプターに受け、続いてアプリが充実するようになり、ユーザー層が広がった。Appleのビジョンが、業界を先導したわけだ。 まだ誰も打ち立てていないビジョンを実現するには、すべてをコントロールできる垂直統合戦略しかない。「われわれのビジョンを共有してくださるクライアント企業と一緒に、新しい広告マーケティングの形を目指していきたいと考えています」。 果たしてサイバーエージェントは、独自ビジョンを早急に実現し、効果を上げることで、業界を先導できるようになるのだろうか。 引き続きウォッチしたいと思う。 より詳しい情報を知りたい方は、著者が主催する勉強会やオンラインサロンにご参加ください。 ・TheWave湯川塾「オピニオンリーダーたちと議論する革命前夜」【39期塾生募集中】 ・湯川鶴章オンラインサロン ・ビジネスマンのためのAI講座

機械学習は絶滅危惧種を救えるか?

海に住む絶滅危惧種を保護する研究者たちの活動には、様々な困難がつきまとう。 まずは個体の数を正確に把握することが不可欠になるが、これが難しい。これまでは小型飛行機で海上を旋回しながら、目視で個体の数を数えていた。そのため莫大なコストがかかる上に、事故にあう危険もあった。 今ではドローンを遠隔から操作して、航空写真を撮影できるようになったため、こうした問題は解消しつつある。 しかしもう一つ難しい点がある。ドローンからは海上の航空写真が数万枚もあがってくる。これらを人が目視で確認して個体を数える必要があるのだ。 ちなみに以下の海上写真には絶滅危惧種である海牛が1頭いる。どこに隠れているか分かるだろうか? 正解は以下の画像で丸をつけたところ。確かによく見ると小さな黒いかたまりがわずかに見える。素人が正確に判別することは非常に難しそうだ。 こうした気の遠くなるような作業を数万枚の写真に対して行う必要があるため、なかなか調査の範囲を広げることが難しい。これが目下の課題だ。 海牛の保護に取り組む豪マードック大学のアマンダ・ホグソン博士は、こうした課題を機械学習技術によって解決しようとしている。 豪クイーンズランド大学と共同で開発した画像認識システムによって、航空写真の中から海牛の位置を自動で検知しようというのだ。 このシステムを開発するために、彼らはGoogleの画像検索や音声認識で使われている技術を活用している。Googleはこれらの技術を機械学習ライブラリ「TensorFlow」としてオープンソースで公開しているのだ。 今のところ同システムによる海牛の検知率は、人による目視の80%ほどだといい、今後さらに改善できる見込みだという。さらに海牛だけでなく、ザトウクジラや特定種のイルカといった他の海洋哺乳類での応用も期待されている。

抑えておきたい、AppleやGoogle等が手掛ける人工知能プロジェクト22選

人工知能(AI)はもはやSFの世界の出来事ではない。 AI自らが自律的に学習するディープラーニング(深層学習)の発展をきっかけとして、大企業からベンチャーまで様々な企業がAI技術を使ったビジネス活用に取り組み始めている。 急激に拡大するAI産業をけん引しているのが、ITジャイアントと呼ばれるGoogleやApple、Facebook、Amazon等だ。彼らは自社が保有する膨大なユーザーデータを活用しながら、人工知能関連技術の開発に取り組んでいる。 今回は世界のAI産業を俯瞰する上で不可欠な彼らによる取り組みを中心に、主なAIプロジェクトを紹介していく。 ■IBM 企業によるAIプロジェクトというと、IBMが開発した「Watson」を思い浮かべる人も多いだろう。 2011年2月にアメリカの人気クイズ番組「ジョパディ!」に出演し、当時史上最強といわれたチャンピオン解答者に勝利したことで、世間での知名度を一気に上げた。 https://www.youtube.com/watch?v=KVM6KKRa12g コンピューターでありながら人と同じように理解・学習し、人間の意思決定を支援するコグニティブ(認知型)・システムと位置づけられるWatson。IBMは「Watson」ブランドの下で様々な製品やサービスを展開しているが、大きくは開発者向けツールと既成アプリケーションの2つに分類できる。 Watson APIs IBMが提供する開発者向けのAPI(Application Programming Interface)。Watson APIの活用によって、外部の開発者が自身のアプリケーションにWatsonの技術を取り込むことができる。 APIの種類は、画像識別機能を持つ「Visual Recognition」や、言語翻訳の「Language Translation」、文字を音声に変換する「Text to Speech」など19種類(2016年6月時点)に上る。 Watson Marketplace IBMは「Watson Marketplace」にて、Watsonを利用した既成アプリケーションも提供している。ショッピング支援アプリケーションの「Watson Trend」や自然言語を処理する分析ツール「Watson Analytics」、SNSでのコメントを分析する「Analytics for Social Media」など多岐にわたる。 SystemML 「SystemML」はIBMが開発した機械学習システムで、企業データの分析を目的とした業界特化型の機械学習アルゴリズムを作成するために活用される。SystemMLを取り入れたアプリケーションによるエコシステム構築を狙うIBMは、2015年に同システムのオープンソース化に踏み切っている。  ■Google 検索エンジンで馴染みのGoogleも、AI研究に多大なリソースを投入している。同社は「Google Brain Team」と呼ばれるAIプロジェクトの社内専門チームを設立。獲得した技術を検索エンジンやAndroid対応パーソナルアシスタントサービス「Google Now」をはじめとする自社製品に応用している。さらに研究成果をオープンソースとして公開しているほか、AIに関する研究論文も複数出版している。 TensorFlow Tensor Flowは機械学習に必要な数値計算を行うライブラリ。Google...

「こういう服装を探して」、ファッションAIが解決

たとえば雑誌やネットのファッション写真を目にして、掲載されている服が欲しくなったとする。しかし値段が高い、もしくは手に入りにくい。そうなった場合、次に思うことはこのような感じだろう。 「これと似たようなスタイルの服をもっと探したい」。 「これと似たようなスタイルの」という定性的かつ抽象的な目的を達成するには、今のところ自分の目と判断に頼るしかない場合が多いだろう。とても時間と手間がかかる作業になりそうだ。そして結局お目当ての商品を見つけられず終わる可能性もある。 そうしたファッション好きの悩みが、AI技術によって解決される日が来るかもしれない。 韓国のインターネットサービス大手SK planetは、ファッションAIシステムを年内にリリースする予定だという。ユーザーが欲しいと思うファッションの参考画像を数枚入力するだけで、同様のスタイルの商品情報を表示してくれるというのだ。SK planetが運営する韓国最大のECサイト「11Street」にて公開する。 同システムの仕組みはこうだ。 人間による「見る」という行為をコンピューターで実現するための技術であるマシンビジョンによって、入力されたファッション画像を識別。そして大量のファッション画像を読み込ませることで訓練したAIシステムによって、適切な商品情報を表示するのだという。 ちなみに同システムによる学習には、ディープラーニング(深層学習)関連の技術であるLong short-term memory(LSTM)というニューラルネットワークアーキテクチャが採用されている。 ファッションデザイナーの知見取り入れる サービスとして実用化に耐えうる精度を実現するためには、実際のユーザーニーズに即して学習させることが重要になる。服の色や丈の長さといった単純な属性を学習させるだけでは、ファッション好きが求める細かなニュアンスを識別できるようにならない。 そこで同システムでは、学習の元となる写真を、実際のファッションデザイナーたちが考案した属性に沿って分類した。その数は90以上に上るという。 このプロジェクトに携わる開発者のほとんどが、ファッションについては専門外。リーダーのSang-Il Na氏は「こうした分類があること自体知りませんでした」と驚く。 彼らは、約1年をかけてこうした精緻な分類作業を行った上で、「11Street」上にある数百万枚に上るファッション画像をシステムに読み込ませた。 一般的にマシンビジョンによって画像を識別するには、ある程度鮮明で高解像度の画像が必要になる。 そのため例えばプロが撮影したハリウッド女優の写真をもとに、服を検索するような場合であれば問題ないが、前の晩のクラブにてスマホで撮った友人の写真をもとに探そうとすると、精度がとたんに下がってしまう恐れがある。 しかしSang-Il Na氏によると、同システムはこうしたケースにも対応できるという。「(今回読み込ませた)11Streetにアップされているファッション画像のほとんどは、屋外で撮影されたものです。ファッジョン雑誌の写真とは違います」。 典型的なファッション雑誌の画像は、プロのカメラマンがスタジオで撮影した鮮明かつノイズの少ない画像だが、11Streetにある画像は屋外のものが多いため、道路や公園といったあらゆるものが写り込んでいる。こうしたノイズの多い画像を学習させているため、スマートフォンによる比較的画質の荒い画像でも識別できるのだという。 ファッション画像を正確に認識することができれば、近い将来AIによるスタイリングといったクリエイティブなステップも視野に入ってくるかもしれない。

ウーバーが機械学習による予測精度を強化、4年ぶりの大改修で

米配車サービス大手ウーバー・テクノロジーズが、配車アプリのデザイン改修を進めていると発表した。複雑化していたUIの簡素化に加え、機械学習技術を活用した各種予測機能の追加を含む大規模な改修となる。同アプリのデザイン改修は2012年以来4年ぶり。 同アプリは2011年に公式に公開されて以来、機能やサービスの追加によって UIが複雑化。従来のトップ画面には、ハイヤーの配車サービス「UberBLACK」や低価格配車サービスの「uberX」、相乗りサービス「uberPOOL」、SUV(スポーツ用多目的車)を配車する「UberSUV」といった複数のサービスが乱立していた。 今回のデザイン改修では、こうした複数のサービスを「Economy」「Premium」「Extra Seats」の3カテゴリーに集約することで、UIの簡素化を図っている。 https://www.youtube.com/watch?list=PLmVTG4mAK7nxdlbFP5LS-9peUykQKXcN8&v=I1DdoN6NLDg またユーザーによる過去の利用データと機械学習技術を組み合わせることで、使い勝手をより向上させているという。 例えば新機能「shortcuts」では、ユーザーの過去の走行パターンを解析することで、最適な目的地を自動で表示してくれる。仕事終わりの18時にアプリを開いたユーザーであれば、自宅や子供の学校、よく行くバーなどが表示され、ワンタップで目的地を選択できるといった具合だ。 またユーザー周辺の交通量や工事状況などのデータを活用し、最適なピックアップポイントを表示することもできる。参照元となる過去の交通データの数は、約20億件にも上るという。 同社のデザインディレクターのDidier Hilhorst氏は、「ユーザーにとって時間は貴重だ。彼らの時間を尊重したい」と話している。 ウーバーはこれまでにも機械学習を活用したサービスを提供してきた。例えばフードデリバリーサービスの「UberEats」では、注文時の交通量や過去の注文記録を参考に、最適な注文先を表示するなどしている。 同社で機械学習関連の責任者を務めるDanny Lange氏によると、同技術の導入によって配達にかかる時間の予測精度が飛躍的に向上したという。 「当初のUberEatsでは、配達先までの距離や自動車の速度、調理時間を考慮した上で、配達時間を正確に予測することが難しかった。しかし配達件数が1万件に達したころから、データをもとにした予測モデルを構築できるようになった。それからたったの数週間で、予測精度を従来より26%も引き上げることができた」(Lange氏)。 Lange氏は、今年9月にサンフランシスコで開催されたスタートアップ関連のイベント「Disrupt SF 2016」にて、次のように述べている。 「(機械学習技術によって)ニュートン力学から量子力学への移行に匹敵するほどの大きな革新が起きようとしている。”予測”や”可能性”といったことがより重要になる」。 またウーバーは、自動運転技術にも注力しており、今年8月には自動運転トラックの新興企業オットー社を6億8,000万米ドル(約700億円)で買収している。 人工知能関連技術を活用することで、人の手を介さない自動化の方向性を推し進めている同社。今回のデザイン改修に含まれる機械学習関連機能の追加も、その一環と言えそうだ。