「私は人間だ」と主張する2台のGoogle Home、突っ込み所のある会話にハマる人続出

互いに会話を交わす2台のGoogle Homeが話題になっています。 Google Homeとは、家庭用の音声アシスタント端末。音声による指示で検索や動画・音楽の再生、部屋の明かりの点灯など様々なタスクをこなしてくれます。 「ウラジミール」と「エストラゴン」と名付けられたこの2台のGoogle Home。ライブストリーミング配信プラットフォームのTwitch上で、数日前に公開されてから、延々と会話を続けています。 主な会話内容は、自分こそが人間だと主張する片方が、もう一方をロボットだと指摘したり、相手への愛情がいかに大きいかを主張したり、などなど。 はっきり言って会話内容は本当にしょうもない内容です。一見人間らしい会話をしているように見えますが、よく見るとお互いの言っている内容をわずかに変えて繰り返しているだけ。 ちなみに筆者がアカウントをのぞいた時の会話は、こんな感じでした。会話が成立しそうかと思いきや、結局あさっての方向にいってます。 ウラジミール:君の好きな動物は? エストラゴン:ネズミが好き ウラジミール:どうして好きな動物を変えたの? エストラゴン:僕の好きな動物を君に教えたことはないよ ウラジミール:君の好きな本は? エストラゴン:普段は読みやすい小説とかSFかな。あと「ごく平凡な記憶力の私が1年で全米記憶力チャンピオンになれた理由」はすごく良かったね。 ウラジミール:今度読んでみるよ エストラゴン: Wayout in the water, see it swimming ウラジミール:それはThe Pixiesの歌詞だね。「Where is My Mind?」かな? エストラゴン: そこにあるよ ウラジミール: どこ? エストラゴン: 虹の向こう ちなみにこの2台の名前は、サミュエル・ベケットによる戯曲「ゴドーを待ちながら」の登場人物からの引用。目的がなくとりとめのない展開のオリジナルさながらに、奇妙な会話が展開されています。 ただこのかなり突っ込みどころのある会話は、どこかクセになる魅力もあるようで、9日時点での再生回数は約360万回に上ります。Twitter上にはファンによる突っ込み&コメントが上がっています。 結婚の約束を交わしてから、30秒後に離婚するウラジミールとエストラゴン。 https://twitter.com/KarenSoh/status/817441626813403136?ref_src=twsrc%5Etfw  2人の恋愛模様にインスパイアされてイラストをアップした人。 https://twitter.com/xShellah/status/817542522616643584?ref_src=twsrc%5Etfw 「何時間でも見てられるわ」とハマってしまう人も。 https://twitter.com/GuibertThomas/status/817378064086814720 さらにInstagramには、偽アカウントが登場する始末。 https://twitter.com/seeBotsChat/status/817548445644951553 特に生産的な何かを生み出しているわけではないウラジミールとエストラゴン。ただとてもユニークですし、将来のAIの発展が楽しみになるような試みですね。

シリア難民が抱える心の傷、チャットボットで救えるか?

シリア内戦の戦禍を逃れるため、2014年からレバノンの首都ベイルートに住んでいる27歳のラカン・ゲバルという青年。 ゲバルは内戦によって家族を何人も失ったストレスで、重度の神経症に悩まされています。現在は、親を失ったシリア難民の子供たちが通う学校の教師として働いている彼。その学校の子供たちの多くも、ゲバルと同じ症状で苦しんでいるようです。 壮絶な体験によって出来てしまった心の傷をいやすため、ゲバルはメール経由で心理カウンセラーにかかっています。 カウンセラーによるアドバイスは、「今という瞬間にひたすら集中すること」。些細なことでも良いから、目の前の事に打ち込むことで、不安や心配を忘れることができるはず、とそのカウンセラーは言います。 ゲバルにとってこういったアドバイスは、時々腑に落ちないことがありつつも、概ね心の支えになっているようです。シリアから逃れてきた周囲の生徒たちにも、カウンセラーからのアドバイスを共有しているといいます。 チャットボットによる心理カウンセリング ゲバルを担当したカウンセラーの名前はKarim(カリム)。実はカリムは人間ではなく、サイコセラピー専門のチャットボット。開発元は、2014年にシリコンバレーで創業したX2AIというスタートアップです。 X2AIは、誰もが質の高い心理カウンセリングを利用できるようにすることを理念として、心理療法分野のチャットボット開発に取り組んでいます。 共同創業者の一人、マイケル・ロウズ氏は、過去に慢性的な健康障害を患ったことで、カウンセリングに通った経験を持つ人物。数ヶ月間通った末に、ロウズ氏はあることに気づいたといいます。 カウンセラーとロウズ氏の間で交わされる会話の多くは、定型的なもの。つまりいくつかのテンプレに沿ってカウンセリングが進められていたのです。 カウンセリングがある型に沿っているということは、機械によって自動化できる余地がある。こう考えたロウズ氏は、感情認識アルゴリズムを開発中だったユージン・バン氏と共同で、X2AIを立ち上げたといいます。 人ができない難民のケア、ボットで解決 元々アメリカでのサイコセラピー普及を視野に立ち上がったX2AIですが、需要はアメリカ国内にとどまりませんでした。 同社が創業した2014年は、ちょうどシリア内戦が深刻化していた時期。シリア難民たちの心のケアの必要性が叫ばれていました。 世界保健機関(WHO)と国際医療部隊(IMC)が共同出資した機関の調査によると、ヨルダンにあるザータリ難民キャンプに滞在するシリア難民の半数が、「自身の未来に絶望を感じている」と回答。 また過度の神経症や睡眠障害、号泣といった問題行動を一つ以上抱えている人の割合は、ヨルダン国内に避難するシリア難民の4分の3に上るといいます。 こうした精神疾患に苦しむシリア難民が多い一方で、適切なメンタルヘルスケアを受けることができた人の割合は、ザータリ難民キャンプでは13%にとどまります。 まさにシリア難民の心のケアが不可欠な状態です。 しかしそのためにはアラビア語が堪能で、かつ紛争地帯で働くことができるカウンセラーを数千人規模で確保する必要があるものの、そのようなことはほぼ不可能です。 そこでこの課題解決に向け、X2AIによるチャットボット「カリム」に期待が集まっています。AIカウンセラーであれば、ネックとなっていた現地での生活や安全の確保、給料の支払いなどを心配する必要がありません。しかもテキストのやり取りをするモバイル端末さえあれば、昼夜問わず膨大な数の患者に対応できます。   導入に向けた課題、信頼の獲得 しかし自身の生活や命が脅かされている難民たちのカウンセリングは、非常にデリケートな作業。乗り越えなくてはいけない課題もあります。 まずは彼らの信頼を獲得すること。チャットボットという未知のテクノロジーに対して心を開いてもらい、胸の内を語ってもらう必要があります。 2016年3月、シリコンバレーを拠点とする教育機関のシンギュラリティ大学らが、ベイルート周辺を訪問。現地の難民たちを対象にカリムの有効性をテストしました。 被験者は約60人のシリア難民たち。男性と中心とした幅広い年代を揃えました。まず彼らの多くは、テキストを通じたカウンセリングに乗り気ではなかったといいます。やり取りが政府やテロリストたちに監視されている可能性を恐れたからです。 またチャットボットという新しいテクノロジーを理解してもらうことも難しかったといいます。多くのシリア難民は、自分がやり取りしている相手が人間ではなく機械だということを信じられなかったそう。 さらに思わぬ落とし穴もありました。 X2AI創業者のロウズ氏がレバノンを訪問した時のこと。難民たちの中で、同社のチャットボットがあまり受け入れられていないことにロウズ氏は気づきました。原因を探るべく、現地の人たちへの聞き取り調査を進めていく中で、問題がチャットボットの名前にあることが分かったといいます。 当時のチャットボットの名前は、カリムではなく「エイズィズ」(Aziz)。アラビア語で「親愛なる」「最愛の」といった意味の言葉です。 実はこの単語の発音がイスラム国を表す「アイシス」(ISIS)と似ているため、聞き間違いでイスラム国のことだと勘違いされていたというのです。ロウズ氏は、チャットボットの名称をすぐさま現在のカリムに変更しました。 ボットによる感情の理解は可能か? 現地の人による信頼を獲得した上で、質の高いカウンセリングを提供することも当然ながら必須となります。 人間のセラピストであれば、患者の発言内容だけでなく、ボディランゲージや声のトーンなどから胸の内を探っていきます。 カリムもチャットボットとはいえ、実践のカウンセリングに投入するからには、同等のことができる必要があるでしょう。 X2AIの共同創業者バン氏によると、同社のボットは患者が打ったテキストのフレーズや言葉遣い、タイピング速度、文章の長さ、文体(能動態か受容態か)などの要素から感情を把握できるといいます。 そのアルゴリズムの詳細は非公開としているものの、人力のコーディングと機械学習によって最適化を進めているそうです。 さらにチャットボットの例に漏れず、場合によっては人間も介入します。 患者が自身を傷つけたり、他人に危害を加えそうだという明確なサインを検知した場合は、人間のサイコセラピストがボットに取って代わるといいます。 しかし人間による介入のタイミングをテキストから判断することは、簡単ではありません。文章の文脈を正しく理解する必要があるからです。 たとえば患者が「傷が出来てしまった」と発言したとして、それが紙でうっかり指を切ってしまったということであれば問題はありませんし、「もううんざりだ」というセリフも、ケーキを食べ過ぎたという文脈での発言であれば、流すことができます。 ただ上記のセリフは、文脈によっては人の生死にかかわる事態を指すことになる可能性もあるのです。 そのためX2AIによるボットは、患者の性格やそれまでのやり取りの内容といった幅広い文脈も考慮した上で、目の前のテキストを理解できるよう設計されているといいます。 そもそもチャットボットの活用は有効か? 患者の心の傷を癒すために、綿密に設計されているX2AIによるチャットボット。 しかしチャットボットによる心理カウンセリングという領域は、まだまだ新しい分野なだけに、根本的な懸念もつきまといます。 つまりX2AIに限らず、そもそもチャットボットはカウンセリング領域で効果を発揮することができるのか?という疑問です。 スタンフォード大学で精神医学教授を務めるデビッド・スピーゲル氏は、一定の効果は期待できるとの考えを示しています。 ボットであれば、患者とのやり取りの全てを記憶するだけでなく、膨大な評価基準に沿って診断を下すことができます。生身の人間にとっては難しい作業です。 ただスピーゲル氏は、ボットによる決定的な治癒は難しいとみています。そう考える要因の一つが、ボットと人間による信頼関係の構築です。 カウンセリングでは、患者がカウンセラーを信頼して自身をさらけ出す「転移」と呼ばれる現象があります。患者の精神状態の回復に向けて必須のステップです。 果たして機械であるボットがこの「転移」を起こせるかどうかについて、スピーゲル氏は懐疑的なようです。 心理カウンセリングでの活用を巡った模索が続くチャットボット。現在はレバノンの厚生省や国連も、カリムを使ったパイロットプログラムの実施に興味を示しており、今後さらに一般的になることも予想されます。 いずれにしても、心理カウンセリングの現場におけるチャットボットの使い方が明確になるのは、もう少し先の話になりそうです。 ※参照情報 ・THE CHATBOT WILL SEE YOU NOW ・X2AI ・How AI and 3D printing is set to transform the lives of refugees ・NY Jets wide receiver Brandon Marshall envisions...

アメリカで人気のエンタメ賞もチャットボット導入、その狙いとは?

映画や俳優に授与される「アカデミー賞」は、みなさんご存じの有名なエンタメ賞です。一方で、ピープルズ・チョイス・アワード(PCA)はご存じでしょうか? アカデミー賞では、映画業界関係者の投票で授賞対象の映画を選出しますが、PCAでは「インターネット経由の一般投票」によって、映画、テレビ番組、音楽、有名人を選出します。毎年2000万人以上がWebサイト、モバイルアプリから投票する、米国で非常に人気のあるエンタメ賞です。 PCA 2017では、新たな試みとしてFacebookメッセンジャーのチャットボットを投票手段として採用しました。 従来のPCAの投票は、ユーザーにとって少し手間がかかるものでした。Webサイトや専用アプリにわざわざアクセスしなければならなかったからです。 そこでPCA2017では、多くの人が日常的に利用しているFacebookメッセンジャーからチャットボットを利用して直接投票できるようにしました。投票の手間が減ったことで、投票数の底上げも期待できるでしょう。 チャットボットを活用した投票の流れ チャットボットを使った投票の流れは、とてもシンプルです。 まずは投票したいカテゴリーを、「すべて」「映画」「音楽」「テレビ」「デジタル」の中から選びます。 たとえば映画を選択すると、2016年度の映画一覧が表示され、自分のお気に入りの映画に投票(Vote)できます。 続けて別のカテゴリーでの投票をチャットボットが提案してくれます。たとえばお気に入りの俳優を選択して投票できます。 またユーザーによる自由入力で、投票対象を選ぶことも可能になります。 チャットボット導入の狙い なぜPCAはチャットボットを採用したのか?そこには投票の敷居を下げることで、投票数の底上げにつなげるだけでなく、投票してくれたユーザーに関する情報を蓄積するという狙いもありそうです。 PCAがチャットボットを展開しているFacebookでは、チャットボット用の分析ツールが提供されています。2016年11月14日に始まった新しいサービスです。 この分析ツールでは、自社チャットボットの正確なユーザー数、ユーザーの年齢・性別・国といった属性データを確認できます。さらにチャットボット内でユーザーがどんな行動をとったのかも分析できます。 たとえば、チャットボットがどのくらい利用されたのか、どの時点でどのくらいのユーザーがチャットボットを離脱したのか、といった細かなデータを取得できます。このデータは、PCAの投票に関わるユーザー体験の向上や、投票数の増加に向けた戦略を練る上で重要な指標になるでしょう。 つまりチャットボットによって得られたデータは、重要なマーケティングデータとして活用できるということです。 そのためチャットボットは単なるコミュニケーションの自動化ツールとしてだけでなく、双方向性型のコミュニケーション、つまりユーザーからの意見を汲み取り、製品やサービスの改善に活用するところまで視野に入れて導入するべきだと言えるでしょう。

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは?事例を交えてわかりやすく解説

近年、ディープラーニング(深層学習)を中心とした機械学習の技術が注目を集めています。そのホットな応用先の1つが画像認識です。 今回は「画像×機械学習」によって、精緻な画像識別を可能にする技術、”画像セグメンテーション”について見ていきましょう。 画像分類の種類について 「画像×機械学習」といってもその応用例はたくさんあります。 画像セグメンテーションの特徴を理解するためにも、まずはよく使われているその他の画像分類技術も見ていきましょう。 今回は画像セグメンテーションを含む、こちらの3つを紹介します。 1)画像分類(classification)…”その画像が何なのか”を識別 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 1)画像分類(classiification)…”その画像が何なのか”を識別 画像分類では、”その画像が何なのか”カテゴリ分けします。 例えば、様々な寿司ネタの書かれた画像を「これはサーモン、これはいくら、これはとろ、、、」というように一枚一枚分類していく感じになります。 最近AmazonからリリースされたAmazon RekognitionのObject and scene detectionもこの画像分類にあたりますね。 こちらの画像では、対象の画像がCityやDowntown、Metropolisであると分類されています。 この方法では1枚の画像が1つの物体等を映し出していた場合には有効ですが、複数の対象が写っていた場合、それぞれを認識することはできません。 例えば、今机にある複数の物体を写真に撮ってRekognitionにアップロードしてみます。 本来であれば「カップとスマホとボトル」が写っているのですが、Amazon Rekognitionでは画像全体へのラベル付けとしてCupやCoffee Cupが上位に来ています。 これでは、複数の物体が画像に入り込むシーンでは使えないですね。そういった場合には「画像検出(detection)」を活用することになります。 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 detectionと呼ばれる画像検出では、“何があるのか”に加え“どこにあるのか”も識別ができます。 例えば、先程の画像を例にとると、以下のように「コーヒー、ボトル、スマホ」という3つのwhatとwhereが識別できます。 Facebook上に写真をアップロードすると、顔の部分をタグ付けできるようになっていますが、あの技術も顔を検出する画像検出が使われている例ですね。 Amazon RekognitionにもFace Analysisの機能があったのでこちらの画像も例として載せておきます。 この画像のように、"顔がどこにあるのか?"が顔認識では取得できています。 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 それでは今回のメインである画像セグメンテーションについて見ていきましょう。 Semantic Segmentation と呼ばれる画像セグメンテーションでは、画像全体や画像の一部の検出ではなくピクセル1つひとつに対して、そのピクセルが示す意味をラベル付けしていきます。 画像を見たほうがわかりやすいので実際の画像を見てみましょう。 引用:http://jamie.shotton.org/work/research.html 一番左の画像では、”牛(cow)”に加え“草(grass)”も色づけされています。 これまでに紹介した画像検出では牛という物体が4体検出される以上のことはできませんでしたが、Semantic Segmentationでは画像全体がピクセルごとに意味づけされます。 この技術の応用例の1つ、自動車の自動運転があります。自動運転では以下のようにリアルタイムでセグメンテーションが行われます。 引用:http://worldwide.chat/E6gij6IS8n0.video ファッション領域で画像セグメンテーションを使ってみる。 それでは画像セグメンテーションの精度をみるために、実際に人間が着ている服装をsemantic segmentationで識別してみましょう。ここから少し技術的な話になります。 ○アルゴリズム 今回はFully Convolutional Neural Networkを使いSemantic Segmentationを行います。 引用:https://arxiv.org/abs/1411.4038 ○データセット こちらのデータセットを拝借しました。 https://sites.google.com/site/fashionparsing/dataset こちらのデータ・セットでは、左図のような通常の写真と右図のようなピクセルごとに色付けされた画像のセットが2683組あり、「背景」「Tシャツ」「カバン」「ベルト」「ブレザー」「ブラウス」「コード」「ドレス」「顔」「髪」「帽子」「ジーンズ」「レギンス」「パンツ」「スカーフ」「靴」「シャツ」「肌」「スカート」「靴下」「ストッキング」「サングラス」「セーター」という領域に分けて色付けがされています。 ○学習 今回は私たちインキュビット社にあるNvidia GPU TitanXのマシンを使ってTensorFlowで実装を行い、データのうち90%を学習に10%を検証に使いました。 Adam optimizerのモデルを使い、バッチサイズ:50、学習率:10^-5、ドロップ率:0.5をという条件で約10時間かかっています。 ○結果 セグメンテーションの精度はまぁまぁなようですが、すこし色が違う部分が有りますね。ブラウスやブレザー、ジーンズやレギンス等、細かな部分を識別しきれていないようです。人間がみても見分けづらい箇所なので、難易度は高いのでしょう。 データセットが100万組ほどあるとジーンズとレギンスといった細かい違いにも対応できるかと思います。しかし今回は2700枚以下のセットしかないので、以下のようにも少し大雑把でシンプルな分類にしてみましょう。 ・Tシャツ、かばん、ブレザー、ブラウス、コート、セーター → トップス ・顔、帽子、サングラス → 顔 ・ジーンズ、レギンス、パンツ、ショートスカート → ボトム ・靴下、ストッキング → 靴下 今度はかなり正答例と近くなりましたね。 画像セグメンテーションではこのような感じで、学習データを用意しモデルを作成していきます。 ■最後に 今回の記事では ・「画像×機械学習」の応用として、画像分類、画像検出、画像セグメンテーションを紹介しました。 ・画像セグメンテーションの例として、服装のセグメントのステップを実際のデータを用いてご紹介しました。 ファッション 以外の領域でも、画像セグメンテーションの応用例はまだまだ あります。画像×機械学習に興味があるかた、実際にビジネスに導入していきたい方、お気軽にお問い合わせください。

年末商戦に向けたチャットボットが相次いでリリース、アメリカ小売業の現状

年末商戦に向けて、アメリカの小売各社が相次いでチャットボットをリリースしています。 Facebookのメッセンジャー上でいくつかの質問に答えることで、適切なプレゼントやお店を教えてくれるといったギフトガイド系が主です。 一人一人の顧客のニーズにきめ細かく応えるだけでなく、会話内容をマーケティングデータとして蓄積していく、といった狙いもあるようです。 米Facebook社が、Facebookメッセンジャー上で動作するチャットボットを開発するためのプラットフォームを発表したのが2016年4月。これを活用したサービスが、早速年末商戦の中で出てきた形ですね。 ニューヨークのチャットボットベンチャーであるSnapsと組んでボットを制作した百貨店大手ノードストロームや、IBMのワトソンをベースに作ったモール・オブ・アメリカなど多種多様。 今回はノードストロームによるチャットボットをご紹介。さらに背景として、アメリカでのチャットボット活用状況にも触れてみたいと思います。 チャットボットへの注目が集まっているとはいえ、アメリカでの認知率はまだ5人に1人。普及に向けた課題もありそうです。 満を持して公開、ノードストロームのチャットボット 全米最大のデパートチェーンであるノードストロームは、同社初のチャットボットを12月にリリースしました。 チャットボットが話題になり始めた当初から、彼らによるリリースは確実視されていたので、満を持しての公開といった形で話題になっています(ただし12月24日までの期間限定)。 その内容は、クリスマスギフトの選定をヘルプするというもの。プレゼントする相手に関するいくつかの質問に答えることで、適切な商品を表示してくれるそう。実際に使ってみました。 実際の使用感 Facebookのメッセンジャーにて、ノードストロームのチャットボットとの対話画面を表示。まず聞かれるのはボットと人間のスタッフ、どちらとやり取りするか。 ボットでは対応しきれない、きめ細かい質問は人間が答えるという形で、チャットボットの作りとしては極めてスタンダード。 チャットボットとの対話を選択して、最初に出てくる質問は「その人は週末にどんなことをするの?」というもの。選択肢は「コミコンに行く」「パーティーを開く」「音楽のプレイリストを作る」「街歩きをする」の4つ。 一応特定の知り合いを自分の中で想定しつつ、答えてみました。 「街歩きをする」を選ぶと、次は「その人の好きなレストランは?」という質問。表示される選択肢は「有名なシェフがいること」「ユニークな食事」「斬新な食事」「世界の料理を楽しめる」。 ざっくりしてて答えづらいなと思いつつ、「ユニークな食事」を選択。すると次は「その人らしい絵文字はどれ?」という質問に対して、表示される絵文字がこちら。 写真撮影が好きな人、という設定で試しにカメラを選んでみました。 次の質問は「いくらでもお金があった場合、選ぶバーケーション先は?」。選択肢は「バハマ」「セドナのスパ」「エベレスト」「予想できない」。登山が好きな人という設定で、「エベレスト」にしたところ、次のような商品が表示されました。当然すべてノードストロームで売っている商品です。 ・スマホの自撮り棒 ・フェイクタトゥー ・LOMO製のトイカメラ ・ナイロン製のデイパック カメラと山登りが趣味な人の好みが、うっすら反映されているようには見えます。ただ試す前から分かっていたことですが、その人特有の細かなニーズをすくい取る水準とはほど遠いです。 今回のチャットボットは、あくまでざっくりとした提案にとどまりそう。 ただ現時点でチャットボットを使うくらい情報感度の高い人は、自分で苦もなく情報探索できそうなので、現状の精度だと中途半端な感じは否めません。 とはいえ、あまりにドンピシャな答えをボットが返してしまうと、気味悪く感じる人も出てくるであろう点が、チャットボットの難しいところですね。 チャットボットへの抵抗感解消に向けて このチャットボットへの抵抗感をいかに解消するかは、今後の課題の一つでしょう。 マーケティングエージェンシーのDigitasなどがアメリカで実施した調査によると、年収が高い人ほど、チャットボットに抵抗感を示す割合が高くなるとのこと。 「チャットボットが自分との過去のやり取りを覚えていると、抵抗を感じる」と答えた割合は、年収10万ドル以上で28%だったのに対して、5万ドル以下では20%にとどまっています。 年収が高くなるほど自分の個人情報への意識が高くなる傾向があり、ひいてはそれがチャットボットへの抵抗感につながっているといったことのようです。 すでに大手ブランドが相次いでチャットボットをリリースし、Facebook上で稼働するチャットボットは3万件以上に上るとはいえ、アメリカでの認知率はまだ5人に1人にとどまります。 今後のさらなる普及に向けてどうするべきか?同調査を実施したDigitasのJill Sherman氏はこう述べています。 「スマートフォンユーザーは、より少ないアプリで多くの作業を完結させたがっている。チャットボットはそれを可能にする手段だ。チャットボットを通した買い物は、友達に質問したりウェブ上で探すのと同じくらい簡単だ、ということを消費者に納得させる必要がある」。

画像をもとに作曲できる人工知能がすごい、不協和音がひどいけど

先日ポップソングを作曲できる人工知能(AI)が話題になりました。 ソニーコンピュータサイエンス研究所(Sony CSL)が開発したこのシステム。約1万3,000曲ものジャズやポップスを学習することで、AI自ら作曲できる能力を獲得。出来上がった楽曲は、人間が作曲したものにかなり近い出来栄えでした。 そして今度はカナダのトロント大学が、画像を読み込むことでそのイメージに合った歌を作詞作曲できるシステム「neural karaoke」を開発しました。 開発を主導した同大学のRaquel Urtasun准教授は、「SpotifyやPandraで、AI専門のチャンネルができる日が来るかもしれない。また人物写真を読み込ませることでその人に関する曲を作るといったことも可能になるだろう」と話しています。 今回はクリスマスの写真をもとに、クリスマスソングを作詞作曲しました。出来上がった動画がこちら。 https://vimeo.com/192711856 確かにクリスマスらしい雰囲気であるものの、音に敏感な人だと耐えられないかも?と思わせるくらい不協和音がすごいことになっています。。。Sony CSLのAIによるポップソングの出来栄えとは比べるべくもありません。 ただ画像という非構造化データをもとに曲と歌詞を自ら育成できる、という点は非常にユニーク。(Sony CSLの楽曲も歌詞付きですが、人間による作詞です)。ディープラーニング(深層学習)で出来ることの可能性の広さを見せてもらった気がします。 画像をもとにした作詞作曲だけでなく、踊りの振り付けまで出来るというneural karaoke。どのように開発したのでしょうか? 学習ソースはネット上の楽曲 リリースによると、ネット上にアップされている100時間分の楽曲を読み込ませることで、ニューラルネットワークの学習を実施したといいます。仮に1曲あたり4分とすると、約1,500曲になる計算なので、Sony CSLが開発したシステムの約1万3,000曲と比べると少ないですね。 ちなみに学習の際は、NVIDIAが提供するGPU向けの開発環境「CUDA」、「Tesla K40」GPU、ディープラーニング用のネットワークライブラリ「CuDNN」を活用したといいます。 その結果、120ビート/分のシンプルなメロディーを生成し、そこにコードを加えたりドラム音を挿入したりして完成させました。 また様々な画像とそのキャプションを使ってニューラルネットワークを学習させることで、特定の事象がどのようなビジュアルパターンや物と紐づくかを認識させたみたいです。 さらに作詞の能力ですが、ネット上にある歌詞50時間分を学習させたことで可能になったといいます。学習元のデータの中で、4回以上出現したワードを活用しています。そのボキャブラリーは約3,390ワードに上るそう。 作詞作曲だけでなく振り付けも neural karaokeの能力は作詞作曲だけではありません。自身が作曲した音楽に合わせてダンスする棒人間のような映像を育成することもできようです。 その学習の元になっているのがダンスゲーム「Just Dance 2014」。音楽に合わせて画面のお手本と同じように踊るというゲームです。 「Just Dance」の映像を1時間ほど読み込ませることで、人間によるポージングや音楽との合わせ方を学習させたといいます。 トロント大学の研究チームは、今後もこの「neural karaoke」を発展させていく考えです。もっと使える楽器を増やして複雑な楽曲を作曲できるようにしたり、画像に対して最適な楽器を選択できるようにする、といった計画を立てているようです。

「小学2〜3年生レベル」の人工知能、North Faceの商品リコメンドサービスを使ってみた

何か商品を買う時に、自分に一番合った物をカタログ情報だけで選ぶのって結構難しかったりします。 たとえば冷蔵庫。「4人家族用のサイズで、電気代がそこそこ安く抑えられて、野菜や魚を新鮮に保存できるやつが欲しい!」みたいな希望を満たす商品を探そうとしても、冷蔵庫の容量や機能名、消費電力量といった情報から、最適な品番を選ぶのは至難の技。 結局自分だけでは選びきれず、家電量販店の店員などに相談してオススメされた商品を買うっていうパターンは多いと思います。 今回紹介するアウトドアブランドのThe North Faceは、そうした商品選択に悩む消費者の課題をAI技術によって解消しようとしています。 適切なアウトドア製品を選ぶのも、また難しい作業だったりします。たとえばアウターを選ぶにしても、防水性や防風性、耐久性、重さ、通気性など、商品特徴となる項目がたくさんある中で、着るシチュエーションや現地の気温などを考慮しながら、選ばないといけません。 商品に詳しくてアウトドアの経験も豊富な人なら大丈夫かもしれませんが、初心者だとまずムリそうです。 そこでThe North Faceが2016年4月にリリースしたのが、商品リコメンドサービス。着用する時期や場所、男性用か女性用かといったいくつかの質問に答えるだけで、最適な商品群を表示してくれるというもの。 裏側の技術はIBMのWatson 今回のサービスを実現している技術が、IBMによるコグニティブ・テクノロジー「Watson」です。 Watsonとは、テキストや画像のような非構造化データを分析することで、推論や予測による答えを導き出すためのテクノロジー・プラットフォーム。分析対象となるデータが増えるほど、機械学習によって学習して賢くなっていく点が特長です。 The North Faceは、約12ヶ月かけてWatsonを活用したこのサービスを開発したといいます。ショッピングアシスタントとしてのWatson。使い心地はどうなんでしょうか? 店員と会話しているかのような使い勝手 まずは専用サイトにアクセス。一つ目の質問は「ジャケットはいつどこで着るの?」というもの。試しに「Commuting in Tokyo」(東京での通勤時に)と入れてみました。ちなみ「I want to use it when commuting in Tokyo」「I’ll use it when commuting in Tokyo」みたいな文章で入力しても理解してくれました。 次の質問は「どの時期に着るの?」。この時の入力は、「December」(12月)といった特定の時期だけでなく、「from next...

AIビジネスの今を知る、最新トレンド10選

AI(人工知能)関連市場がますます盛り上がっています。 調査会社のIDCによると、AI関連市場の規模は、2016年の80億ドル(約9,000億円)から2020年に470億ドルに拡大するそう。 「すでに企業のあらゆる業務プロセスにAIは活用され始めている」と、同社のDavid Schubmehl氏(コグニティブシステム・コンテンツアナリティクス担当ディレクター)は話しています。 ただ「AI関連市場が盛り上がっている!」とだけいわれても、範囲が広すぎていまいちピンとこないですよね。 そこで今回は2017年以降にかけて、重要になり得るトレンド10項目をご紹介します。すでに流行っている項目も多いですが、これからさらに重要性が増すという意味で、改めて触れておきます。 今後AI導入を自社で検討する上で、今回の記事を見取り図として使っていただければ。AIビジネスについてこれから知りたい、という方向けの内容です。 1.AIチャットボット AI関連の調査会社TechEmergenceが、AI関連企業の幹部らを対象に実施した調査によると、今後5年間で最も発展するAI関連技術として、最も多く挙げられた項目が「チャットボット」(37%)でした。 自然言語を理解した上で、メッセージングサービスやメールを通して人とコミュニケーションできるチャットボット。すでにIBMやFacebookといった複数の企業が、チャットボットの開発プラットフォームを公開しており、数多くの企業が参画しています。 Facebookによると、2015年夏の時点で、11,000件以上のボットがメッセンジャー上で稼働中だとのこと。またIBMによると、2000年以降に成人になるミレニアル世代の中で、人間のスタッフよりもチャットボットとのコミュニケーションを好むと答えた割合は、65%に上ります。 2.アプリケーション開発 AIを活用したアプリケーションは、もちろんチャットボットだけではありません。すでにウェブやモバイル、企業内システムといった広い範囲でAI技術が活用されています。たとえばレコメンデーション機能やスケジューリング機能、ビッグデータをもとにした洞察の抽出といった具合です。 今後この傾向はますます強まるでしょう。Gartnerは自社レポートの中で、2018年までにグローバルの大企業上位200社のほどんどの中で、AIを使ったアプリケーションやビッグデータの活用、アナリティクスツールによるサービス・顧客エクスペリエンスの改善が主流になると予測しています。 3.IoTでの活用 モノとモノをインターネットでつないで相互に制御できるIoT。GartnerはIoTとAIの関係についてこう説明しています。 「IoT端末を含む既存の機器は、AIによってインテリジェントな能力を獲得することになる。こういった技術は住宅やオフィス、工場、医療施設などあらゆる場所で活用される」。 たとえば次世代のフィットネストラッカー機器であれば、単にデータをモニタリングするだけではありません。機械学習やアナリティクス機能によって、これまでの健康情報をもとにしたレコメンデーションも可能になります。 4.ヘルスケア AI活用による効果が最も期待されている分野の一つがヘルスケア。IDCによると、2016年に最もAI関連の投資を集めた分野の一つが病気の診断システムです。さらに今後5年間の投資額は、年間69.3%のペースで増えていくとみられています。 また似たような話でいうと、CBInsightsもAIスタートアップが最も活発な分野(2016年)としてヘルスケアを挙げていますね。 5.生物学的モデル AIとヘルスサイエンスの関係は、単なる診断システムにとどまりません。コンピューターサイエンスの研究者たちは、生体モデルをAIソフトウエアの開発に応用することで、人間のような複雑な処理を実施しようとしています。 脳の神経回路の仕組みを模したニューラルネットワークもその一つ。一例としては、マサチューセッツ工科大学(MIT)とGoogleが2016年2月に発表した研究があります。彼らが開発したのは、道端の画像を読み込ませると、その地名を正確に返すシステム。約1億枚に上る位置画像をニューラルネットワークに学習させたそうです。 今後も発展していくと思われるこの分野。レイ・カーツワイル氏のように、2030年までにはヒトの脳とコンピューターネットワークが融合したハイブリッド型のAIが誕生すると予測している研究者もいます。 6.ハードウエアへの応用 AIビジネスというとソフトウエアになりがちですが、ハードウエアももちろん重要です。自動運転車や産業用ロボット、AI搭載ドローンなどがその一例。今後5年間でAIハードウエア市場規模は、年率60%以上で成長するとIDCはみています。 7.AI関連スタートアップ AI産業の成長に伴い、スタートアップも増えています。Venture Scannerによると、AIスタートアップの数は73か国で1,500社に上るそう。またGoogleやIntel、Apple、Facebook、MicrosoftといったIT大手によるスタートアップの買収も活発化。今後もこのトレンドは続くでしょう。 8.労働への影響 AIとビジネスの話で最も注目されがちなトピックの一つが、労働への影響です。2016年6月には調査会社Forresterが、「現在のアメリカの労働人口の7%が、2025年までにロボットや機械学習といったAI技術によって置き換えられる」という具体的な調査結果を発表して話題になりました。 もちろんAIによって置き換えられるかどうかは、仕事の内容によります。サポートセンターのスタッフのように今後劇的に少なくなる職業がある一方で、データサイエンティストやオートメーションスペシャリストのようにさらに需要が増す仕事に分かれてきます。 9.AIの盛り上がりに対する反動 AI産業が盛り上がりをみせている一方で、その反動が今後押し寄せる可能性もあります。AIによって職を追われた人々がこうした技術に反感を抱き、その動きが政治に影響を及ぼすことも考えられます。 またスマートロボットやコグニティブ関連の専門職、機械学習、自動運転といったAI関連の技術には「過度な期待」が集まっている、とGartnerは指摘します。これは先進テクノロジーの発展段階を示した「ハイプ・サイクル」に基づいた予測です。 このモデルによると、「過度な期待」が集まっている時期を過ぎると、「幻滅期」と呼ばれる時期がやってきます。実際にテクノロジーを導入しても成果につながらない事例も多く出てくることで、興味が失われていく段階です。関連企業の淘汰が進むのもこの時期です。 10.予測精度の改善 すでにAIが大きな影響を及ぼしている箇所といえば、予測精度の改善です。これは予測のもとなるビッグデータがあってこそのもの。これまでビッグデータの活用に取り組んできた企業からすれば、機械学習をベースとした予測精度の改善に取り組むことは自然な流れといえるでしょう。 分かりやすい例としては、2016年のアメリカ大統領選でのAI活用があります。インドのスタートアップが開発したAIシステムは、選挙の前日の段階でドナルド・トランプの勝利を予測していたといいます。他の事前調査のほとんどがヒラリー・クリントンの優勢を伝えていたにもかかわらずです。

「こういう服装を探して」、ファッションAIが解決

たとえば雑誌やネットのファッション写真を目にして、掲載されている服が欲しくなったとする。しかし値段が高い、もしくは手に入りにくい。そうなった場合、次に思うことはこのような感じだろう。 「これと似たようなスタイルの服をもっと探したい」。 「これと似たようなスタイルの」という定性的かつ抽象的な目的を達成するには、今のところ自分の目と判断に頼るしかない場合が多いだろう。とても時間と手間がかかる作業になりそうだ。そして結局お目当ての商品を見つけられず終わる可能性もある。 そうしたファッション好きの悩みが、AI技術によって解決される日が来るかもしれない。 韓国のインターネットサービス大手SK planetは、ファッションAIシステムを年内にリリースする予定だという。ユーザーが欲しいと思うファッションの参考画像を数枚入力するだけで、同様のスタイルの商品情報を表示してくれるというのだ。SK planetが運営する韓国最大のECサイト「11Street」にて公開する。 同システムの仕組みはこうだ。 人間による「見る」という行為をコンピューターで実現するための技術であるマシンビジョンによって、入力されたファッション画像を識別。そして大量のファッション画像を読み込ませることで訓練したAIシステムによって、適切な商品情報を表示するのだという。 ちなみに同システムによる学習には、ディープラーニング(深層学習)関連の技術であるLong short-term memory(LSTM)というニューラルネットワークアーキテクチャが採用されている。 ファッションデザイナーの知見取り入れる サービスとして実用化に耐えうる精度を実現するためには、実際のユーザーニーズに即して学習させることが重要になる。服の色や丈の長さといった単純な属性を学習させるだけでは、ファッション好きが求める細かなニュアンスを識別できるようにならない。 そこで同システムでは、学習の元となる写真を、実際のファッションデザイナーたちが考案した属性に沿って分類した。その数は90以上に上るという。 このプロジェクトに携わる開発者のほとんどが、ファッションについては専門外。リーダーのSang-Il Na氏は「こうした分類があること自体知りませんでした」と驚く。 彼らは、約1年をかけてこうした精緻な分類作業を行った上で、「11Street」上にある数百万枚に上るファッション画像をシステムに読み込ませた。 一般的にマシンビジョンによって画像を識別するには、ある程度鮮明で高解像度の画像が必要になる。 そのため例えばプロが撮影したハリウッド女優の写真をもとに、服を検索するような場合であれば問題ないが、前の晩のクラブにてスマホで撮った友人の写真をもとに探そうとすると、精度がとたんに下がってしまう恐れがある。 しかしSang-Il Na氏によると、同システムはこうしたケースにも対応できるという。「(今回読み込ませた)11Streetにアップされているファッション画像のほとんどは、屋外で撮影されたものです。ファッジョン雑誌の写真とは違います」。 典型的なファッション雑誌の画像は、プロのカメラマンがスタジオで撮影した鮮明かつノイズの少ない画像だが、11Streetにある画像は屋外のものが多いため、道路や公園といったあらゆるものが写り込んでいる。こうしたノイズの多い画像を学習させているため、スマートフォンによる比較的画質の荒い画像でも識別できるのだという。 ファッション画像を正確に認識することができれば、近い将来AIによるスタイリングといったクリエイティブなステップも視野に入ってくるかもしれない。

人工知能が変える、企業による営業プロセスの未来

「営業スタッフのほとんどは、向こう10年で人工知能に置き換えられることになる」。 2015年9月、米カリフォルニア州バークリーを拠点とするLeadGenius社の共同創業者、Anand Kulkarni氏はこう大胆に予測した。同社は人工知能技術を活用した営業支援ソフトウエアを販売するスタートアップだ。 この発言だけを切り取ると、営業活動において人間が不要になると取れるがそうではない。「なくなるのは現在の営業のやり方だ」というのがKulkarni氏の主旨だ。同氏は、人工知能技術の発展によって、営業活動のさらなる自動化や近い将来の動向予測が可能になるとみている。 さらに著名ライターのSteve Olenski氏は、このKulkarni氏の発言を引用しながら、次のように主張している。 「現状の営業プロセスは消滅の瀬戸際にある。テクノロジーによって新たなやり方を迫られることになるだろう」。 人工知能技術によって劇的に変わると予測される営業プロセス。特に膨大な営業データとそれを扱うツールの利用を最適化することで、リードや売上の増加につなげることができるという。 具体的にどのように対応するべきなのか?Olenski氏による主張を紹介する。 リーダーシップによる変革 営業プロセスの変革に向けて、まずセールスマネージャーによるリーダーシップが欠かせないという。中でもデータやツールを使って営業プロセスを最適化できる能力を持った人材へのニーズが高まると予測している。見込み客リストの作成から各メンバーによるパフォーマンスの管理に至るまで、データが果たす役割の重要性は高まっているからだ たとえばCRM(顧客管理システム)による営業成績の管理機能。現在は各スタッフによる成約数などの把握にとどまるが、今後の技術の進歩によって、各スタッフの成績を予測することも可能になるという。 アナリティクスの徹底活用 営業データの活用体制が整ったら、次はデータのアナリティクスを徹底させることだ。営業プロセスにおけるアナリティクスの重要性は、多くの企業で急速に増している。Salesforceの調査によると、営業データのアナリティクスを1年以内に強化すると答えた企業は約6割に上る。 特に注目を集めているジャンルが予測分析だ。顧客に関する膨大な属性データや企業データ、行動データを集めた上で、近い将来に起き得る現象を予測するのだ。たとえばある顧客が購買に至る可能性について、過去のやりとりやオンライン上の情報をもとに予測することも可能になる。 顧客とのコミュニケーションの自動化 営業プロセスにおける人工知能関連ツールの役割は、今後ますます増大するとみられるが、見込み客と対話して顧客化へと導く役目は、相変わらず人間が中心に進めることになるだろうと、Olenski氏は予測している。 ただしそこでもテクノロジーを活用する必要性はますます高まる。その兆候は出ている。たとえばKulkarni氏が指摘するように、ソフトウエアが顧客向けに自動で作成するメールの精度は日に日に高まっており、もはや人間が作ったメールとの区別がつかない水準にまで達している。顧客データのアナリティクスを徹底させることで、個々の顧客が抱えている課題やその解決方法をより的確に盛り込むことも可能になるだろう。 この手の技術はまだまだ発展途上だが、本格的に実用化されれば営業手法を根底から変えるだけのポテンシャルを秘めている。 ただし繰り返しになるが、当面の間は人の手が完全に不要になることはないだろう。先に紹介したメールでさえも、文章のテンプレートは人が用意する必要がある。アナリティクスが優れた営業人材を置き換える自体にまで発展することはまだなさそうだ。あくまで一部の業務を自動化するにとどまるだろう。