研究・技術を知る

研究・技術を知る

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは?事例を交えてわかりやすく解説

近年、ディープラーニング(深層学習)を中心とした機械学習の技術が注目を集めています。そのホットな応用先の1つが画像認識です。 今回は「画像×機械学習」によって、精緻な画像識別を可能にする技術、”画像セグメンテーション”について見ていきましょう。 画像分類の種類について 「画像×機械学習」といってもその応用例はたくさんあります。 画像セグメンテーションの特徴を理解するためにも、まずはよく使われているその他の画像分類技術も見ていきましょう。 今回は画像セグメンテーションを含む、こちらの3つを紹介します。 1)画像分類(classification)…”その画像が何なのか”を識別 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 1)画像分類(classiification)…”その画像が何なのか”を識別 画像分類では、”その画像が何なのか”カテゴリ分けします。 例えば、様々な寿司ネタの書かれた画像を「これはサーモン、これはいくら、これはとろ、、、」というように一枚一枚分類していく感じになります。 最近AmazonからリリースされたAmazon RekognitionのObject and scene detectionもこの画像分類にあたりますね。 こちらの画像では、対象の画像がCityやDowntown、Metropolisであると分類されています。 この方法では1枚の画像が1つの物体等を映し出していた場合には有効ですが、複数の対象が写っていた場合、それぞれを認識することはできません。 例えば、今机にある複数の物体を写真に撮ってRekognitionにアップロードしてみます。 本来であれば「カップとスマホとボトル」が写っているのですが、Amazon Rekognitionでは画像全体へのラベル付けとしてCupやCoffee Cupが上位に来ています。 これでは、複数の物体が画像に入り込むシーンでは使えないですね。そういった場合には「画像検出(detection)」を活用することになります。 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 detectionと呼ばれる画像検出では、“何があるのか”に加え“どこにあるのか”も識別ができます。 例えば、先程の画像を例にとると、以下のように「コーヒー、ボトル、スマホ」という3つのwhatとwhereが識別できます。 Facebook上に写真をアップロードすると、顔の部分をタグ付けできるようになっていますが、あの技術も顔を検出する画像検出が使われている例ですね。 Amazon RekognitionにもFace Analysisの機能があったのでこちらの画像も例として載せておきます。 この画像のように、"顔がどこにあるのか?"が顔認識では取得できています。 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 それでは今回のメインである画像セグメンテーションについて見ていきましょう。 Semantic Segmentation と呼ばれる画像セグメンテーションでは、画像全体や画像の一部の検出ではなくピクセル1つひとつに対して、そのピクセルが示す意味をラベル付けしていきます。 画像を見たほうがわかりやすいので実際の画像を見てみましょう。 引用:http://jamie.shotton.org/work/research.html 一番左の画像では、”牛(cow)”に加え“草(grass)”も色づけされています。 これまでに紹介した画像検出では牛という物体が4体検出される以上のことはできませんでしたが、Semantic Segmentationでは画像全体がピクセルごとに意味づけされます。 この技術の応用例の1つ、自動車の自動運転があります。自動運転では以下のようにリアルタイムでセグメンテーションが行われます。 引用:http://worldwide.chat/E6gij6IS8n0.video ファッション領域で画像セグメンテーションを使ってみる。 それでは画像セグメンテーションの精度をみるために、実際に人間が着ている服装をsemantic segmentationで識別してみましょう。ここから少し技術的な話になります。 ○アルゴリズム 今回はFully Convolutional Neural Networkを使いSemantic Segmentationを行います。 引用:https://arxiv.org/abs/1411.4038 ○データセット こちらのデータセットを拝借しました。 https://sites.google.com/site/fashionparsing/dataset こちらのデータ・セットでは、左図のような通常の写真と右図のようなピクセルごとに色付けされた画像のセットが2683組あり、「背景」「Tシャツ」「カバン」「ベルト」「ブレザー」「ブラウス」「コード」「ドレス」「顔」「髪」「帽子」「ジーンズ」「レギンス」「パンツ」「スカーフ」「靴」「シャツ」「肌」「スカート」「靴下」「ストッキング」「サングラス」「セーター」という領域に分けて色付けがされています。 ○学習 今回は私たちインキュビット社にあるNvidia GPU TitanXのマシンを使ってTensorFlowで実装を行い、データのうち90%を学習に10%を検証に使いました。 Adam optimizerのモデルを使い、バッチサイズ:50、学習率:10^-5、ドロップ率:0.5をという条件で約10時間かかっています。 ○結果 セグメンテーションの精度はまぁまぁなようですが、すこし色が違う部分が有りますね。ブラウスやブレザー、ジーンズやレギンス等、細かな部分を識別しきれていないようです。人間がみても見分けづらい箇所なので、難易度は高いのでしょう。 データセットが100万組ほどあるとジーンズとレギンスといった細かい違いにも対応できるかと思います。しかし今回は2700枚以下のセットしかないので、以下のようにも少し大雑把でシンプルな分類にしてみましょう。 ・Tシャツ、かばん、ブレザー、ブラウス、コート、セーター → トップス ・顔、帽子、サングラス → 顔 ・ジーンズ、レギンス、パンツ、ショートスカート → ボトム ・靴下、ストッキング → 靴下 今度はかなり正答例と近くなりましたね。 画像セグメンテーションではこのような感じで、学習データを用意しモデルを作成していきます。 ■最後に 今回の記事では ・「画像×機械学習」の応用として、画像分類、画像検出、画像セグメンテーションを紹介しました。 ・画像セグメンテーションの例として、服装のセグメントのステップを実際のデータを用いてご紹介しました。 ファッション 以外の領域でも、画像セグメンテーションの応用例はまだまだ あります。画像×機械学習に興味があるかた、実際にビジネスに導入していきたい方、お気軽にお問い合わせください。

Googleが新たな機械学習手法をテスト中、クラウドではなくスマホ上で学習実施

ユーザーのプライバシーを保護しつつ、いかにAIによってビッグデータを分析するか? Googleはこの課題の解決に向け、新たな機械学習モデルをテスト中だと発表しました。 従来はモバイル端末を使うユーザーによる行動データ、たとえば検索時に表示される予測キーワードの中からどれをクリックしたか等々、は同社のデータセンターに集約されていました。 そうしてクラウド上に一元化されたユーザーデータが、機械学習モデルによる分析の対象になっていたのです。 しかし行動データを一つの場所に集めておくということは、その分だけ個人が特定される可能性が増してしまいます。 仮にクラウド上のデータだけでは特定できなかったとしても、外部にある別のデータと照合することで、個人が判別できてしまう恐れも。実際にNetflixが以前そんなことになっていましたね。 Googleの新手法、学習データはクラウドに残さず 今回Googleが発表した手法は、機械学習を使った行動データの分析を、ユーザーのモバイル端末上で実施しようというもの。そして結果をGoogleのクラウド上に送信するわけですが、それは分析されたデータ丸ごとではなく、親モデルの改善に必要な分だけを抽出して送信するそうです。 つまり個別のユーザーによる行動データがクラウド上に丸々存在する、という事態を避けることができるようになるわけです。 この「Federated Learning」と呼ばれる一連の流れを図にしたものがこちら。 まず個々のユーザーがAndroid端末を使うことによって、行動データが発生。端末にダウンロードされている機械学習モデルがそれに最適化されます。 (A.)それぞれのユーザーによる行動データのうち、クラウド上にある親モデルの改善に必要な分だけが抽出・集約されます。 (B.)多くのユーザーから集約されたデータを「平均化」(averaged)する、という手順を繰り返した後に、 (C.)クラウド上の親モデルに適用します。 こうして多くのユーザーによる行動データを使って改善された親モデル。その結果は、すぐに個々の端末での利用に反映されるそうです。これまでのように、Googleがアップデート版をリリースするタイミングを待つ必要がなくなるわけです。 Federated Learningの適用先 GoogleはこのFederated Learningのテストとして、Android向けのキーボードアプリ「Gboard」で検証を進めているとのこと。 検索時に表示される予測キーワードのうち、どのキーワードがクリックされたのか?どんな文脈で検索されたのか?といった情報をクラウド上に集約して、親モデルによる予測精度を改善していくというもの。 実装するにあたっては、TensorFlowの簡易版を使っているとのこと。 ちなみに普通にスマホを使っている時に、こんなモデルをローカルでグルグルまわされたらたまったものではないですが、もちろんそこもちゃんと考慮されています。 Federated Learningが端末上で稼働するタイミングは、 ・端末が使われていない ・電源につながれている ・Wi-Fiにつながれている という条件を満たした時のみとのこと。 Federated Learningの課題 ただFederated Learningにも技術的な課題はあります。 従来の機械学習モデル、つまり学習データをクラウド上に集約するやり方であれば、 SGDのような最適化アルゴリズムを大規模データ上で一気に走らせることができます。 しかし各端末上で機械学習モデルを走らせるFederated Learningでは、処理があちこちに分散される上に、レイテンシが大きく処理能力も低くなる。さらにモデルを走らせることができるタイミングも限られてしまいます。 そこで解決策として、端末とクラウドとのやり取りの数を少なくするためのアルゴリズムを開発しているほか、アップロードされるデータを圧縮する技術も適用するとのことです。 Federated Learningによって、Googleの各種サービスの使い勝手がどう変わるのか楽しみですね。 ただGoogleによると、これまでの機械学習モデルを全て捨てて、Federated Learningを全面採用することはないとのこと。Gmailのように、学習元となるデータが最初からクラウドにあがっているサービスもあるためです。 ちなみにAppleも、Federated Learningと近い「Differential Privacy」という手法を2016年の開発者向けカンファレンス「WWDC」で発表しています。 プライバシーを保護しつつ、ビッグデータを分析する手法の開発については、各社ともに力を入れているようです。

Spotifyって機械学習をどう活用してるの?⇒元社員がQuoraで回答

Q&AサイトのQuoraに、先月こんな質問があがっていました。 「Spotifyはどのようにして機械学習で成果を出してきたのでしょうか?機械学習を当初から重要視していたのか、もしくは途中からキャッチアップしたのでしょうか?」 この質問に対して、2008年~2015年まで同社にて機械学習チームを率いていたErik Bernhardssonという人物が回答を寄せています。 機械学習も活用した楽曲リコメンドに力を入れるSpotify。その中の人だった彼が、若干の内部事情も含めて同社による取り組み状況を明かしていました。 興味深い内容だったので、少し補足しながら彼の回答を紹介していきたいと思います! Spotifyにおける機械学習の重要性 Bernhardsson氏によるコメントを紹介する前に、Spotifyにおける機械学習の重要性について触れておきたいと思います。 言わずもがなですが、Spotifyはスウェーデンを本拠地とする音楽ストリーミング配信サービスの最大手。同社は、各ユーザーに最適な楽曲をリコメンドする機能を実現する仕組みの一部として、機械学習を取り入れていいます。 2011年に1500万曲だったSpotifyによる配信楽曲数は、いまや4,000万曲以上にまで膨れ上がっています。この膨大な楽曲群の中から、一人のユーザーが自力で好みの曲を探しきることは不可能です。 そこで重要になってくるのが楽曲のリコメンド機能。同機能を通じて、自分では思いもよらなかった新しい曲と出会えることも、この手のサービスの魅力です。 Spotifyはリコメンド機能として、毎週月曜にお薦めの楽曲群を配信してくれる「Discovery Weekly」を2015年にローンチ。同社でプロダクト・ディレクターを務めるMatthew Ogle氏は、「Discover Weekly」について、次のように豪語しています。 「仮に世界中にリスナーが20人しかいないようなニッチで変わったミュージシャンがいたとする。我々ならその20人とミュージシャンをつなげることができる」。 実際にユーザーの好みを把握するDiscovery Weeklyの精度に驚愕する人も出てきています。「精度が高すぎてもはや怖い」との声も。 https://twitter.com/Dave_Horwitz/status/659084401691615232?ref_src=twsrc%5Etfw 毎週の配信を手ぐすね引いて待っているユーザーも多いのでしょう。システムの不具合によってDiscovery Weeklyの配信が遅れた時には、「生きる意味を見失わないようにすることで精いっぱいだ」と嘆くユーザーが出る始末。 https://twitter.com/crush/status/645971114473193472 こうした背景がありつつの、「Spotifyってどうやって機械学習で成果を出してきたの?」という先の質問が出てきたのでしょう。 当初は協調フィルタリング中心 QuoraでのBernhardsson氏によるコメントによると、Spotifyのリコメンド機能の開発は、2012年まではサイドプロジェクトとして彼一人で担当していたとのこと。 初期は「協調フィルタリング」と呼ばれる手法に注力するようにしたことで、一定の成果が出るようになったと語っています。協調フィルタリングとは、ユーザーによる過去の行動履歴から類推した好みをもとに、おすすめを提示する方法です。 しかし単純な協調フィルタリングの欠点は、ユーザーによるレビューや購買といった行動にあらわれた物事しか評価できない点。それではユーザーの好みを正確に評価しきれません。 例えばあるジャンルの音楽を全く聴いていないユーザーがいたとしても、嫌いだからではなく単に知らないからかもしれません。 また普段はロックばかり聴いているユーザーが、ある日子供向けの音楽ばかり流したとしても、それは自分の子どものために流しただけという場合もあります。こうした文脈を考慮しないで、子ども向けの曲ばかりリコメンドしてしまっては、「なんだ、分かってないな」となってしまいます。 そこで協調フィルタリングをベースとしつつも、行動履歴としてあらわれない要因を統計的に把握する手法を開発したことで、さらに精度が改善されたといいます。 また2014年に、ビッグデータを駆使した音楽リコメンデーションエンジン「The Echo Nest」を買収したことも大きな契機だったそう。 The Echo Nestは、楽曲のテンポやコード、ピッチなどの音楽的要素や、楽曲に関するネット上の情報を解析できます。これによって協調フィルタリングでは難しかったセマンティック分析、つまり楽曲そのものを分析した上でのリコメンドができることになります。 ただBernhardsson氏によると、こうした技術がSpotifyのリコメンド機能に活かされることはなかったそう(理由は書かれていませんが)。それよりもThe Echo Nestにいた優秀な人材が流入してきたことのメリットのほうが、はるかに大きかったとのこと。 ディープラーニングの活用 さらに2014年にインターンとして入社してきたSander Dieleman氏による取り組みをきっかけに、Spotifyによるディープラーニング(深層学習)の活用が本格化したといいます。Dieleman氏は、現在Google傘下のDeepMind社でリサーチサイエンティストを務める人物です。 Bernhardsson氏によると、現在のDiscovery Weeklyの仕組みは、協調フィルタリングをベースにしつつ、ディープラーニングで補強した形ではないかとしています(Bernhardsson氏はDiscovery Weeklyローンチ前に退社しているので、あくまで推測)。 協調フィルタリングとディープラーニングのかけ合わせによるリコメンドとは、どういうことなのでしょうか? Quoraの回答には詳細がなかったので、Dieleman氏による過去のブログ記事をみてみます。 Dieleman氏によると、協調フィルタリングの欠点は、リコメンド対象がメジャーで人気の楽曲に偏りがちになってしまうこと。過去の購買パターンをもとに分析するため、データ量の多い人気曲が目立ってしまうのです。 「これではリコメンド内容が退屈で予測しやすいものになってしまう」というのがDieleman氏の懸念でした。 ユーザーが過去にまだ出会ったことのない新しい曲、もしくは非常にニッチな曲もリコメンドできる必要があります。 そのために彼が考えたのが、協調フィルタリングとディープラーニングを組み合わせた手法。ものすごくざっくり説明すると、この手法はリコメンドする曲を選ぶために、 ・協調フィルタリングなどによってユーザーの好みの楽曲リストを作成 ・その上で共通点の多い楽曲リストを持つ他のユーザーを抽出 ・抽出された他のユーザーによる楽曲リストの中から、ユーザーの好みと「似ている」曲を選んでリコメンドする というやり方。この「似ている」曲を判別するために、曲の音声シグナルを解析した上で、ニューラルネットワークによる学習を行っているそう。 自分と共通点の多い他のユーザーのプレイリストの中から、まだ自分のプレイリストにない「似ている」曲をリコメンドしてくれるので、未知の曲でありつつ好みの曲である可能性が高いというわけです。

次のAIは常識を理解できるようになる、アメリカの軍事研究機関が予測

人工知能(AI)のテクノロジーは、現在の「第2の波」から「第3の波」へと移りつつある。 アメリカで軍事目的の新技術を開発・研究する機関、アメリカ国防高等研究計画局(DARPA)がこんな予測を明らかにしました。 まず「第1の波」とは、人間がAIに知識を細かく教え込む段階。また次の第2の波は、学習データを使って統計的に示唆を出すという、現在主流のAI手法です。 しかし第2の波のシステムによって分かることは、単に膨大な学習データを統計的に処理した結果であり、物事を理解しているわけではありません。 だからデータの質によっては、人間ではありえないような間違った判断を下してしまう場合もあります。 一方で今後主流になるという第3の波では、同じく学習データを処理する中で、その根底にある常識やルールを「理解」することが可能になるといいます。そのため、ほんの少しのデータだけでも学習が可能になる領域も出てくるそう。 今回の元ネタは、DARPAが公開したこちらの動画。話し手は、同機関のJohn Launchbury氏という人物。 https://www.youtube.com/watch?v=-O01G3tSYpU 15分ほどの動画ですが、面白かったのでゴリゴリ翻訳してみました。ちょっと全部訳すと長いので、第2の波の課題とは何か?第3の波によってどう解決できるのか?といった部分に絞って翻訳(5:00~)。 そもそも第2の波の仕組みとは? 第2の波のシステムでできることはとても限られています。一つの物事を抽象化した上で知見を引き出し、別の物事に応用するということはできません。 データの分類から始まり、その後の帰結を予測することはできるかもしれません。しかし物事の文脈を理解する能力はないのです。また物事を判断する能力も欠けています。 第2の波のシステムは何ができて、何ができないのか?この点については、もう少し深堀りする価値があるでしょう。そのためには、ちょっとした数学的な説明が役に立ちます。 多様体仮説(manifold hypothesis)と呼ばれる考え方があります。 多様体とは、幾何学における構造体です。多様体は、様々なデータがグルーピングされて一つの集合体となっている状態を指します。 私たちが自然界で起きる現象を分析しようとする時、データはこうした集合体の形をとっています。一つ例をご紹介しましょう。 ここに回転している球体があります。これは自然界から収集したデータを3次元で表したものです。 異なる様々なデータが一つに集まっています。あるものは糸状の形をしており、あるものはけば立ったスポンジのような形をしています。また中心のほうには、赤いオレンジの皮のような形をした2次元の物体が、表面上に張り付いています。 こうしたそれぞれの多様体、つまりそれぞれの集合体は異なる現象をあらわしています。AIシステムが物事を理解するには、これらを識別して分離する必要があるのです。 第1の波のシステムでは、この分離作業は難しいでしょう。たとえば「左上にある何々の形をした集合体」といった指示では正確に識別できません。 そのため第2の波では、異なる方法で分離させる必要があります。何をするかというと、空間そのものをいじることで、データの集合体を伸ばしたり圧縮したりするのです。 こちらが一例です。話を単純にするために、2次元であらわしました。青と赤の曲線があります。 それぞれの曲線は、異なる多様体をあらわしています。空間そのものをいじり、これらを圧縮したり伸ばしたりすることで、2つの多様体をきれいに分離させることができるのです。 これが、第2の波でできることです。 第2の波、実態は強力な統計処理 皆さんも聞いたことがあるかもしれないニューラルネットワークは、まさにこの伸縮と圧縮をするよう設計されています。 ニューラルネットワークによる働きは、とても神秘的で複雑にみえるかもしれません。しかし一つ秘密を明かすと、それはあくまで単なる強力なスプレッドシートに過ぎないということです。 ここに幾重にも重なっているレイヤーがあります。それぞれのレイヤーにて、データの計算を実施します。 最初のレイヤーから計算を始め、20番目のレイヤーまで順々に計算を実施するとしましょう。最後のレイヤーでの計算が終わると、異なる多様体の分離が完了するイメージです。 それぞれのレイヤーでの計算によって、データがある空間を伸ばしたりつぶしたりしながら、分離を進めていくのです。もちろん実際の作業は、さらに複雑です。高いスキルや膨大な手間がかかります。 こうした計算の末に、明らかに間違っている回答が出ることもあります。その場合は、正しい回答を導き出すために、データを少しずつ調整していきます。そうした作業を様々なデータ群に対して5万回から10万回も実施します。 そうして回を重ねるにつれ、パラメーターの精度が少しずつ良くなっていき、多様体の分離作業、つまりたとえば息子の顔から私の顔を分けるといった作業をより正確に実施できるようになるのです。 第1と第2の波、すでにDARPAも実用化 このように、この技術は仕組みがシンプルですが非常に強力です。DARPAでもよく活用されています。 たとえばネットワーク上でのサイバー攻撃の状況を把握するために、ネットワークの流れをリアルタイムかつ広範囲で監視するのに使います。 またWi-FiやBluetooth、GPSといったものの電波干渉を解消するためにも使っています。電話が数多くある空間の中で、いかに個々の端末の性能を最大限にしつつ、干渉を避けるかという用途です。 さらに第1と第2の波によるテクノロジーの両方を活用したプラットフォームを開発しました。防衛ミッションの常識をくつがえすほどのインパクトを持っています。 たとえば新型の船。人間による操縦がなくても、目的地へ向けて数カ月の間自動で航行できます。他の船舶による動きを把握することも可能です。 このようにAIテクノロジーは、非常に強力であり、防衛の世界でも大きな変化を起こしています。 第2の波の課題 ただ第2の波には課題もあります。完璧な技術ではないのです。 たとえばここに1枚の写真があります。キャプションには「野球のバットを握っている若い男の子」とあります。実際の人間であれば、このような言い回しはしないでしょう。 第2の波のシステムは、膨大な試行錯誤の末にこうした変なアウトプットを出したりするのです。確かに統計的な素晴らしい処理をしているのかもしれませんが、単体での信頼性は低いといえるでしょう。 もう一つ例があります。左側にパンダの写真があります。そして画像認識システムも正しく「パンダ」だと認識できている状態です。 ここでエンジニアが画像から特定のデータパターンを抽出して、スプレッドシート上で歪みを加えます。 その結果、出来た画像が右側です。人間の目には全く変わらないようにみえます。しかし画像認識システムは、「99%の確率でパンダではなく、テナガザルだ」と判定してしまいました。 また時間がたつにつれ分かってきた課題もあります。マイクロソフトが開発した学習型人工知能ボット「Tay」が一例でしょう。リリースから24時間で緊急停止する事態に陥ってしまいました。 当初の目的はTwitter上でユーザーたちと会話をすることでした。しかしTayは教えられたことを学習する能力が高かったばっかりに、故意に差別的な言葉を教え込むユーザーがあらわれました。 その結果、Tayは差別発言を連発するようになってしまったのです。こちらの画像は、私が見つけたツイートの中でも比較的マシなものです(「ヒトラーは間違っていない!」)。 このように学習し続けるシステムがある場合、元になるデータには非常に気をつける必要があることが浮き彫りになりました。 場合によっては悪意ある使われ方をすることもあるのです。これが第2の波の課題です。 次の第3の波でできることとは? こうしたAIの課題は、現状のようにスプレッドシートで実施するようなシンプルな計算手法を見直す必要があることを意味しています。ここで第3の波のテクノロジーが求められてくるわけです。 この第3の波は、文脈理解が中心になってくるでしょう。 そもそもこの世界では、現実世界を解釈するための説明モデルをシステムそのものが時間をかけて作り上げてきました。 いくつか例をご紹介したいと思います。 まずは膨大な計算を主とする第2の波が、画像を分類するとしましょう。猫の画像を与えれば、システムはそれが猫だと判別するでしょう。 もしこのシステムが話せるとしたら、「なぜ猫だと思うんだい?」という問いにこう答えるはずです。 「計算をした結果、猫である確率が最も高いと判定されました」と。 これでは十分な答えとはいえません。願わくば、「耳があって、前足があって、表面に毛がはえていて、他にも色々な特徴があるからですよ」くらいの回答は欲しいところです。 そのためには物事を理解したり、決断の要因を認識したりする能力をシステムに持たせる必要があります。ただ話はこれだけにとどまりません。 膨大な学習データが必要ない場合も 第2の波の特徴の一つとして、物事を学習するために膨大な量のデータを要するという点があります。 たとえば手書き文字を認識できるようにさせるためには5万個、場合によっては10万個もの例が必要になるでしょう。 もし私が自分の子供に文字を覚えさせるために、10万個も教えないといけないとしたらうんざりです。しかし実際には1個か2個で十分でしょう。人間による学習方法はそもそも異なるからです。 われわれは、同じように1個か2個の例だけで学習できるシステムの可能性を模索し始めています。手書き文字の認識がその一つです。それは次のようなやり方で可能になると考えています。 まず文字を書いている手の動きを認識できるモデルを作ります。次に「この手の動きの場合は”0”、こういう場合は”1”、またこんな場合は”2”だよ」という紐づけを実施します。 そして仮に、この文字を認識しろという課題が出たとしましょう。 その場合、様々なモデルを参照します。つまりすでに学習した「4」というモデルと、お題の文字がどれだけ似ているのか?「9」というモデルとはどれだけ似ているのか?という具合です。 その結果、どちらが正しいのかを決めることができるのです。 AIの第3の波は物事の背後にあるルールの理解が中心になると、われわれは考えています。このモデルは、ルールや常識を学び取った上で、現実世界を認識することができます。 物事を判断した上で、自ら決定を下すことも可能になるでしょう。さらにデータから得たことを抽象化することもできるようになるはずです。ただしこうしたシステムを作り上げるには、まだやらなくてはならないことが数多くあります。 ここで最後のまとめです。 DARPAとしては、AIを3つの波に分けて考えています。第1の波では、人間がシステムに知識を教え込む段階。まだまだ非常に重要な手法です。 第2の波は膨大なデータによって統計的に学習するやり方。現在のメインストリームの手法です。 しかしこれら2つのシステムには問題もあります。両方の良さを合わせる必要があります。またルールや常識の学習が可能になる第3の波がやってくるはずです。

2030年にはこうなっている、チャットボット先端開発事例

「2030年には、ありとあらゆる分野でこれくらいのレベルのチャットボットが使える時代になっているのではないか」。 AI・人工知能EXPOに登壇した、国立研究開発法人 情報通信研究機構(NICT)の鳥澤健太郎氏は、そう言いながら次のような音声でのやり取りを紹介しました。 チャットボット「A銀行の定期預金が満期をむかえますね。B国の投資信託が人気のようですが、どうですか?」 ユーザー「でもB国の政権が不安定だから危ないんじゃない?」 チャットボット「そういう意見もありますが、一方で本日の新聞には面白いことが書かれていますよ。後で送ります」 いかがでしょう?事前に決められた対話ルールに沿うだけの現状のチャットボットと比べると、かなりインテリジェントな印象です。 「政治が不安定だと、普通は投資信託の価値が下がる」という事象を一般的な知識として持つことができている一方で、その内容と矛盾する「本日の新聞」の内容が「面白い」と判断することもできています。 また以下のやりとりのように、保有する知識をベースに、仮説や推論を行うこともできるようになると鳥澤氏はみています。 チャットボット「C社様向けの開発の件、Dアルゴリズムで効率化できそうです。関係する論文を送っておきます」 ユーザー「了解。開発チーム全員に送っておいて」 ユーザーが携わっている「C社様向けの開発」と「Dアルゴリズム」の内容をそれぞれ理解した上で、独立して存在している2つが関連しそうだという仮説を導きだすことができています。 「膨大なテキスト、つまりビッグデータを解析した上で多くの知識を持っていないと、このようなことはできない」と鳥澤氏は語ります。 次世代のボット開発に向けた取り組み こうしたインテリジェントなチャットボットの実現に向けて、鳥澤氏らが開発したのが「WISDOMちゃん」という音声型チャットボット。 裏側のシステムには、すでに一般公開されているWisdom Xという大規模Web情報分析システムを採用しています。Web上にあがっている約40億ページ分の情報を知識として持ち、ユーザーの様々な質問に答えることができるといいます。 WISDOMちゃんはまだ着想してから約10カ月。当日公開されたデモでのやり取りは、とてもスムーズなものでした。 まだまだ研究開発の途上で、「頓珍漢な返事をすることもある」といいますが、より人間らしいやり取りの実現に向けて、従来のチャットボットとは異なる仕組みが導入されています。 より有益な会話の実現に向けた仕組みとは? 現状のチャットボットは対話のデータから学習することで、いわばそれを「マネすること」だと鳥澤氏はいいます。 「一時はみんながこの仕組みで挑戦したが、しばらく経つと悲鳴が聞こえてきた。何を言っても相槌しか打たない。これだけでは面白いことはできない」(鳥澤氏)。 つまりこういうことです。 ユーザーとのやり取りの中には、たとえば「iPS細胞ってすごいね」といった意図が分かりにくい問いかけも多数。従来のボットでは、こうしたあいまいな問いかけの意図をうまく理解できず、単なる相槌や頓珍漢や返事に終始しがちでした。 そこで鳥澤氏らは、あいまいなユーザー入力が来た場合、まずそれをシステムが理解できる「質問」に翻訳することで、より自然な応答を返す仕組みを作りました。 たとえば以下がその一例です。 ・ユーザー:「iPS細胞ってすごいね」 ・Wisdom X:システム内部で「iPS細胞で何ができる?」という「質問」に変換 ・Wisdom X:iPS細胞によって可能なことのリストの中から、面白そうな応答をピックアップして出力 「たとえばある端末や家電製品ってすごいよね、という発言があったとして、それに対して具体的に何ができるという返事が続くというのは、実際の対話でも割と自然な流れなのではないか」(鳥澤氏)。 多様な会話、「質問」の数を増やすことで実現 上記で育成した「質問」は、「iPS細胞で何ができるの?」というものでしたが、生成できる「質問」の種類が多ければ多いほど、様々な対話に対応できることになるというわけです。 たとえばユーザーからの問いかけとして、「日経新聞に『南鳥島沖に球状レアメタル』という記事が出ているね」というものがあったとします。 受験生向けの対話システムであれば、 ・「質問」として「南鳥島はどこにある」を生成 ・応答として「南鳥島は日本最東端にあります。覚えておきましょう」を返信 またビジネスマン向けの何らかのシステムであれば、 ・「質問」として「レアメタルは何に使う?」「誰が(レアメタルを使う)ハイブリッド車を製造する?」を生成 ・応答として「自動車会社に影響があるかもしれません」を返信 ただ育成した複数の「質問」の中から、適切な「質問」を選ぶという機能を実装するには、まだ至っていないとのこと。 今後の課題 こうした仕組みのチャットボットが目指す未来像は、ユーザーの目的を理解した上で、有益な雑談を行うというものですが、課題もあるといいます。 まず前提条件として、ユーザー自身やその目的に関する知識を大量に持たせる必要があるということ(適切なビッグデータの必要性)。 またそうしてユーザー特有の情報や状況に応じて返答をするということは、一種の疑似的な人格を持つ必要があるといいます。 たとえば一例として挙げられたのがドラえもん。「のび太を真人間にする」という目的を持ち、のび太に関する知識を山ほど持っていることで、例のドラえもんの「人格」が成立しているといいます。 そしてそのような疑似的な人格を、ビジネスや介護など様々な目的に応じて適切にプログラムすることは可能なのか?という点も懸念とのこと(特定の業務における適切な人格を決めるなど、人間が相手でも難しいのに。。。)。 さらに大量の学習データの構築や、基礎的なテキスト解析の精度を向上させることも必須になってくるといいます。 ユーザーに寄り添うインテリジェントなチャットボットというのは、大きな可能性がありつつも、まだまだ課題も多そうです。

人気記事

AI時代、NVIDIAが当面は無敵と思える理由

最近の株式市場もAIブーム。その中で最も注目されている銘柄が米半導体メーカーNVIDIA(エヌビディア)。同社の株価もすごいことになっているが、最近では同社と提携する企業の株価も高騰する傾向にある(関連記事:AI相場“中核”、NVIDIA関連の「神通力」)。 果たしてNVIDIAは、このままAI時代の覇者として逃げ切ることになるのだろうか。日本法人のDeep Learning部長の井崎武士さんにお話を聞いた。(ITジャーナリスト・湯川鶴章) 2000個のCPUの計算を12個のGPUで実現 そもそもNVIDIAって、いつAI企業になったのだろう。ゲーム用半導体のメーカーと認識していたのは僕だけじゃないはず。 世界中のAIの研究者がNVIDIAのGPU(Graphics Processing Unit)に注目したのは2012年といわれる。Googleが2000個のCPU(Central Processing Unit)を使ってニューラルネットワークを構築し、YouTubeのサムネイル画像の中から猫の画像を認識させることに成功したが、それと同じ実験をスタンフォード大学のAndrew Ng(アンドリュー・エン)氏が、わずか12個のNVIDIA製GPUで再現した。大量のコンピューターを持たなくてもAIを作ることができることに気づいた世界中の研究者たちが、NVIDIAのGPUに飛びつき、AI研究が一気に加速したと言われている。 それまでのAI研究って、冬の時代だったと言われている。長年に渡ってどうしても超えられない山があったわけだが、急に冬の時代から抜け出せたのには3つの要因があるといわれている。1つには、Deep Learningという新しい手法が登場したこと。2つ目は、大量のデータがネット上に溢れ出したこと。そして最後の要因は、NVIDIA製GPU。NVIDIAのGPUのおかげで、AI研究・開発の低コスト化が進んだからだと言われている。 新しい手法と、それに必要な大量のデータ。そして、低コスト半導体で研究の裾野が一気に広がったことで、新たな技術、手法が次々と登場している。そしてその勢いは、今日でもまだ一向に減速しそうにない。 そういう意味で、NVIDIA製GPUの果たした功績は大きい。取材先の研究者に聞いても、半導体ハードウェアはNVIDIA一択だというような話が多い。NVIDIAはAI時代のハードウェアの覇権を握ったのだろうか? とはいうものの一方で、競合他社によるAIチップ開発のニュースが次々と出始めている。こうした動きを、NVIDIAはどう見ているのだろうか。 NVIDIAに待ったをかけるインテル 例えば、Intelは「Xeon Phi(ジーオン・ファイ)」の新バージョンをディープラーニングに最適だとして発表するなど、この半年ほどで猛烈な追撃を始めている。日本のAIベンチャーに話を聞いても、インテルからの営業が精力的になってきているという。 Intelと言えばパソコン全盛時代に、Microsoftとともに時代の覇権を握った半導体メーカー。技術力は半端ないはず。 Intelは、Xeon Phiの発表文の中で「128のノードのインフラを使って学習させたところGPUの50倍速かった」と、NVIDIAのGPUより優れていると書いている。NVIDIAは、早くも追いつかれてしまったのだろうか。 これに対してNVIDIA日本法人の井崎武士氏は「正式に説明文を出したのですが、インテルさんの発表の中で使われていたのはNVIDIAの2世代前のGPU。最新GPUではNVIDIAのほうが断然速いんです。インテルさんのハードウェア開発能力を持ってしても、まだわれわれには追いついていない状態なんです」と胸を張る。 とは言っても巨人Intelが本気を出し始めたわけだ。NVIDIAがいつまでも安泰というわけにはいかないだろう。 「そうかもしれませんが、ただ勝負は半導体というハードウェアだけの話ではないと思うんです。われわれはハードウェアとしてはGPUを持っていますが、そのGPUの性能を最大限利用できる開発環境としてCUDA(クーダ)というものを独自に用意しています。それが他社とは異なるところです」。 とは言ってもGPUの上に乗る言語として、OpenCLなどオープンソースの言語がある。 「業界標準フレームワークのOpenCLで実装するアプローチも当然あります。それは特に一般に流通するソフトウェアの互換性を保つためには有効に働きます。一方、研究で利用されるときには動く環境が決まっていることが多いため、より性能を出しやすい、そして使いやすい(開発サポートが手厚い)ものが選ばれます。われわれはOpenCLを一応はサポートしているのですが、それとは別に最大限性能を引き出してもらうためにCUDAを用意しています」。 CUDAはそんなに使いやすいのだろうか。 「ただCUDAという開発環境で誰でもDeep Learningを簡単に作れるかというと、CUDAを使いこなすのにもそれなりの能力が必要になってきます。なのでCUDAの上にDeep Learning用のライブラリ、GPUとのコミュニケーション用のライブラリなど、各種ライブラリを用意しています」 「それでも開発は簡単ではありません。なので、オープンソースのフレームワークが幾つか登場しています。例えばUCバークレーの『Caffe』、Facebookの『Torch』、日本のPreferred Networksが作った『Chainer』などがそうです。そうした主だったフレームワークの開発者とNVIDIAは緊密な関係にあり、われわれは積極的にフレームワーク開発のお手伝いをしています。どのフレームワークでもCPUと同じようにコードを書いて、『GPUを使う』という設定にするだけで、GPUを簡単に使うことができるようになっています」。 「こうしたところまで競合他社が環境を整えられているかというと、まだどこもできていません。われわれはこの数年、こういった開発環境の整備に注力してきました。ですので今から他社が参入してきても、すぐに追いつけるわけではありません。たとえハードウェアでNVIDIAと同様もしくは超える製品を作れたとしても、そうした開発環境まですぐに用意できるわけではないのです。なので当面は他社がそれほど脅威になるとは思っていません」と言う。 Googleも半導体を独自開発 インテルだけではない。GoogleやMicrosoftなども、NVIDIAに追いつき、追い越そうとしているという話が聞こえてくる。 Googleは新しくTPUと呼ばれる半導体を開発した。日経コンピュータの記事によると、TPUはディープラーニングのために開発されたASIC(Application Specific Integrated Circuit、特定用途向けIC)で、GPU(Graphic Processing Unit)やFPGA(Field Programmable Gate Array)といったディープラーニングの処理に使用する他の技術と比較して「消費電力当たりの性能は10倍」とGoogleのCEOが主張しているらしい。 これに対し井崎氏はこう解説する。「Googleさんが新しく開発したハードウェアTPUは、特化型の半導体なんです。Deep Learningが成熟してきて、『この問題はこのアルゴリズムで解ける』というようなフェーズに入ってくれば、特化型の半導体でもいいと思うんです。でも現状では、毎日2、3本のペースで新しい論文が出ています。新しい最適化の方法、新しいニューラルネットワークの形が、日々登場しています。そうした新しい知見に応じて、ハードウェアを常に更新していくというのは、大変なコストになります。すべてのAIを特化型半導体をベースに作るというのは、リスクが大き過ぎると思うんです」。その証拠にGoogleは、いまだにNVIDIAのGPUを購入し続けているようだ。用途が決まっているところには特化型を、まだまだ進化の最中のところにはNVIDIAのGPUを、ということなのだろう。 MicrosoftはFPGAに社運を賭ける Microsoftも動き出している。Microsoftが力を入れているのはFPGAと呼ばれるタイプの半導体だ。 今日(こんにち)のGPUは、実行するソフトウェアによって機能を自由に定義・変更できるプロセッサーというタイプの半導体。反対にGoogleのTPUなどのASICは、すべての機能が回路としてハードウェア上に焼かれていて、変更できないタイプの半導体。FPGAはちょうどASICとGPUの中間のような存在。ハード上の一部回路を書き換えることで機能変更が可能なタイプの半導体だ。 Wiredの記事によると、Microsoftは、そのFPGAに社運を賭けているという(関連記事:Microsoft Bets Its...

日本にもボイス時代到来!Amazon Echo連携の先行事例7選

Amazonの人気スピーカー型電子秘書「Amazon Echo(エコー)」の国内販売に向けて日本法人が動き始めた、という情報がいろいろな方面から入ってきた。(関連記事;日本でもAmazon Echo年内発売?既に業界は戦々恐々) 連携するデバイス、サービスの数が7000を超えたAmazon Echoは、スマホ全盛時代に終止符を打ち、ボイスの時代の幕を開けるデバイスと言われている。 スマホ時代の幕開けの時期にアプリ開発競争が繰り広げられたように、今年から日本でもボイス搭載デバイスやサービスが次々と登場するかもしれない。 ボイス機能で、どのようなデバイス、サービスを開発できるのだろうか。 さすがにAmazon Echoと連携する7000以上のデバイス、サービスのすべてを見て回ることはできないので、Amazon自体が出資しているものや、開発者コミュニティで話題になっているものを中心に調べ、その中で日本でも使えそうなものを7つ厳選して紹介したい。(ITジャーナリスト:湯川鶴章) Echoはハード、Alexaはソフト その前に重要な用語を整理しておきたい。Echoは、スピーカー型ハードウェアの名称。Amazonが現在、米国で販売しているのは、ノッポのEcho、少し小さめの廉価版である「Echo Dot」、それに利用する前にタッチが必要な「Echo tap」の3種類がある。 「Alexa」はEchoに搭載されている音声認識AIの名称。つまりEchoはハード、Alexaはソフトということになる。メディアではEchoのほうが取り上げられることが多いが、7000以上のデバイス、サービスが連携された今、AIであるAlexaのほうが重要性を増している。 開発者向けのサービスや開発キットには、Alexa Voice Serviceと、Alexa Skills Kitの2つがある。 前者は、クラウド上に音声認識機能が乗っていて、そこに音声データを送信するだけで、返答が返ってくるサービス。マイクとスピーカーさえあれば、Echoと同様の機能を持つデバイスを作れることになる。 後者は、Echoからコントロールできるデバイスやアプリを開発するための開発キット。 つまり前者は、コントロールする側のためのもの。後者は、コントロールされる側のためのもの、ということになる。 またAmazonは、連携するサードパーティのデバイスやサービスを「スキル」と呼んでいる。サードパーティとの連携が増えることで、Echoができること、つまりスキルが増える、という意味だ。 【関連情報:何度同じ質問をしても怒らないAIエンジニアによる「ビジネスマンのためのAI講座」2期生募集中】 調理中にカロリー計算Prep Pad 僕が最もおもしろいと思ったのは、スマート・キッチン・スケール(重量計)のPrep Pad。まな板のようなスケールに食材を載せて、スマホやタブレットのアプリに食材名を入力すれば、カロリーや栄養成分を瞬時に計算してくれるというもの。調理しながら、1つ1つの食材の重さを図っていくことで、完成した料理のカロリーと栄養価の計算ができるようになっている。 このままでも結構人気のデバイスのようだが、Alexaと連携することで、食材名を音声で入力できるようになる。料理しながらの濡れた手で、タッチスクリーンを操作するのは面倒。ボイス入力を可能にすることで、操作性が格段に向上するわけだ。 【ポイント】手を使えない状況。そうした状況にボイス機能は、最も力を発揮する。 冷蔵庫にピタッと音声機能:Triby Tribyは、フランスのベンチャー企業inovoxiaが開発したコミュニケーションデバイス。wi-fiを通じて、電話をかけたり、メッセージを表示したりできる。音楽をかけることもできる。 アイデア自体はEchoに似ているが、冷蔵庫に貼り付けることを想定した形状になっている。 Alexa Voice Serviceにアクセスできるようにすることで、Echo並みに多くのスキルを簡単に実装できるわけだ。 【ポイント】Echoとは異なる場所での利用に特化した形状にすることで、Echoとのバッティングを避けることができる。 wi-fiで簡単設置のIntercom:nucleus 電源につないで壁にかけるだけで、簡単に設置できるIntercom。wi-fi接続なので、工事いらず。各部屋に設置できるし、遠くに住む親戚でさえ、まるで同じ家に住んでいるかのように簡単にテレビ電話ができる。1台約2万円なので、iPadよりも安い。 Alexa Voice Serviceにアクセスすることで、IntercomがEchoの全機能を持つことになる。 【ポイント】デバイス自体は、1つの機能の使い勝手に徹底的にこだわったシンプルなデザインにし、Alexa連携で無数の機能を追加する、という形がいいのかもしれない。 ボイスベースのランニングコーチ:M.A.R.A M.A.R.Aは、基本的にボイスでコントロールするランニング・アシスタント・アプリ。ジョギングの時間や距離、ペースを記録したり、雨が振りそうになれば警告してくれる。ジョギングの最中に音楽も再生してくれる。 Alexaと連携することで、ジョギングが終わって、リビングでリラックスしているときにリビングのEchoに対して「Alexa、今週は全部で何キロ走った?」とか「Alexa、今週のランニングのペースの平均値は?」などと聞くことができる。 【ポイント】スマホをポケットから出すのさえ面倒に思われる瞬間というものがある。その瞬間こそがボイスの出番になる。ちょっとした使い勝手の差は、過小評価されることが多い。しかしヒットするかしないかは、ちょっとした使い勝手の差によるところが大きい。 Mojio Mojioは、コネクテッド・カー・ソリューションのリーディングプロバイダー。Mojioデバイスを自動車のOBD-Ⅱポートに接続することで、車の走行距離や診断データを入手できる。Alexaと連携することで、Echoデバイスから「Alexa、会社へ行く前にガソリンを入れたほうがいい?」「Alexa、今、娘が運転している車は、どの辺りにいるの?」などと質問することができる。 【ポイント】スマホアプリは、基本的にはすべてボイスベースにすることが可能。ただどの用途がタッチスクリーンに向いて、どの用途がボイスに向くのかを、しっかり考える必要がある。ボイスにできるからといって、すべてボイスに変える必要はない。ただ出勤前のバタバタしているときに、ガソリンの量をボイスで確認できるのは確かに便利。こうしたキラー用途を見つけ出せるかどうかがポイント。 話ができるぬいぐるみThe Talkies The Talkiesは、マイクとスピーカーと通信機器が内蔵された子供向けのぬいぐるみ。親のスマホとの間で音声メッセージの送受信ができる。Alexa Voice Serviceにアクセスすることで、Amazonのオーディオブックでの読み聞かせが可能になる。 【ポイント】Amazonは、米国の一部地域で、Alexaの対話AI「Amazon Lex」の一般提供を始めた。従量課金で、1000スピーチリクエストが4ドル。競合他社よりも利用しやすい。Amazonの音声技術を使ったコミュニケーションロボットが多数、開発されるかもしれない。 スマートホテル これは製品ではなく、開発コンテストの入賞作品。ホテルの部屋に置かれたAmazon Echoに対して、音声でルームサービスを注文すると、スマホのAlexaアプリに画像や動画が表示される。Alexaとの対話の中で画像も表示できるので、宿泊客に対してより親切な対応ができる。ルームサービスだけではなく、チェックアウトなども簡略化できるはず。 【ポイント①】B向けへの利用が期待できる。 【ポイント②】高齢者などスマホを使いこなせない層も、ボイスで対話しながらなら、インターネットを使えるようになるかもしれない。 まとめ:スマートホーム以外を狙え 家電メーカーは一斉にAmazonに対応してくるだろう。米国の状況を見ていると、対応しないと売れない時代になるような気がする。なので今までの家電をAmazonに連携させるだけでは差別化にならない。 また米国の先行事例のほとんどはスマートホーム関連。プールの水質管理や、ガレージドアの開閉、ガーデンの水やりなどを、リビングルームのEchoからコントロールできる、というようなものが多い。米国に比べて狭い家が多い日本で、スマートホーム関連で大きなヒット製品が生まれるのかどうか。 それより日本ならB向けや、高齢者向けのデバイスやサービスに可能性があるように思った。 →【ビジネスマンのためのAI講座】詳細はこちら

効果的なランディングページはどちら?予測対決でAIが熟練マーケターを打ち負かす

ランディングページ制作ツールとして、日本のデジタルマーケターにもお馴染みのカナダ企業Unbounce。 彼らが機械学習モデルによって、ランディングページのコンバージョン率を予測するという試みを実施しました。 最高技術責任者(CTO)のCarl Schmidt氏が率いるデータサイエンティストやコンバージョン最適化チームは、過去12か月間にわたってプロジェクトを進行。 Unbounceによって作られた数十万件ものランディングページ(LP)を対象に、機械学習モデルによってそれぞれのLPによるコンバージョン率の高低を予測しました。 特定のLPが業界平均より高いか低いかという予測において、同モデルの的中率は平均80%に上ったといいます。 かなり高い的中率のようですが、ここまで出来ると次に知りたくなることは、人間による精度と比べてどうなのかという点です。 AIによる正答率、人間を大幅に上回る そこでUnbounceは、今年5月にカナダのバンクーバーで開かれた同社主催のカンファレンスにて、参加者と機械学習モデルによる予測対決を実施しました。 仕様は次の通り。 ・特定のLPによるコンバージョン率が業界平均より高いか低いかについて、デジタルマーケターとAIそれぞれが予測 ・対象LPの数は204本 ・参加したマーケターは427人(同イベントに登壇した著名マーケター含む) ・分析対象は、LPのテキストコピーだけ(デザインや画像などは考慮なし) そして結果はこの記事のタイトルにもある通り、AIの勝利でした。 AIによる正答率が79.7%に上った一方で、参加者による正答率は平均で50%。最も正答率が高かった参加者でも56.9%にとどまったといいます。 つまりこうしたイベントに登壇するような著名なマーケターですら、予測精度でAIに遠く及ばなかったのです。 LPのコピーライティングが専門で、今回の試みに参加したJoel Klettke氏は、その難しさについて次のように振り返っています。ちなみに同氏は、今回の参加者の中で最も高い正答率をたたき出した人物。 「自分が持つバイアスを克服しなければいけない点が難しかった。LPの内容やデザインに嫌悪感を抱いてしまうこともあり、そうなるとユーザーの視点で判断することが難しくなってしまう」。 また今回の判断要素はテキストコピーだけ、というルールだったものの、デザインが優れていると、二流なコピーでもある程度マシに見えてしまう、というジレンマもあったようです。 過去の事例や自らの直観に従って判断しがちな人間による限界が浮き彫りになった形でしょう。 コンテンツ制作におけるAIの役割とは? さらにコンテンツ制作におけるAIの役割について、Klettke氏はこう語りました。 「従来のコンテンツ制作をすべてAIが担うようになる、ということではない。ただ人間の判断がどこまで正しいかをアルゴリズムの視点で検証できることは良い」。 ただUnbounceのSchmidt CTOは、マーケターのタスクを補助するのが現状のAIによる役割だとしつつも、「それもすぐに変わる」としています。 「(AIによって)コピーの作成や編集が可能になる時期もそう遠くはない。さらにコンテンツを一から作ることができるようになる日も来るだろう。ただそうなるまでにはあと数年はかかるはずだ」。 いずれにしても、テクノロジーの発展具合に合わせて、自らの業務を最適化させていく努力が一層重要になりそうです。

「小学2〜3年生レベル」の人工知能、North Faceの商品リコメンドサービスを使ってみた

何か商品を買う時に、自分に一番合った物をカタログ情報だけで選ぶのって結構難しかったりします。 たとえば冷蔵庫。「4人家族用のサイズで、電気代がそこそこ安く抑えられて、野菜や魚を新鮮に保存できるやつが欲しい!」みたいな希望を満たす商品を探そうとしても、冷蔵庫の容量や機能名、消費電力量といった情報から、最適な品番を選ぶのは至難の技。 結局自分だけでは選びきれず、家電量販店の店員などに相談してオススメされた商品を買うっていうパターンは多いと思います。 今回紹介するアウトドアブランドのThe North Faceは、そうした商品選択に悩む消費者の課題をAI技術によって解消しようとしています。 適切なアウトドア製品を選ぶのも、また難しい作業だったりします。たとえばアウターを選ぶにしても、防水性や防風性、耐久性、重さ、通気性など、商品特徴となる項目がたくさんある中で、着るシチュエーションや現地の気温などを考慮しながら、選ばないといけません。 商品に詳しくてアウトドアの経験も豊富な人なら大丈夫かもしれませんが、初心者だとまずムリそうです。 そこでThe North Faceが2016年4月にリリースしたのが、商品リコメンドサービス。着用する時期や場所、男性用か女性用かといったいくつかの質問に答えるだけで、最適な商品群を表示してくれるというもの。 裏側の技術はIBMのWatson 今回のサービスを実現している技術が、IBMによるコグニティブ・テクノロジー「Watson」です。 Watsonとは、テキストや画像のような非構造化データを分析することで、推論や予測による答えを導き出すためのテクノロジー・プラットフォーム。分析対象となるデータが増えるほど、機械学習によって学習して賢くなっていく点が特長です。 The North Faceは、約12ヶ月かけてWatsonを活用したこのサービスを開発したといいます。ショッピングアシスタントとしてのWatson。使い心地はどうなんでしょうか? 店員と会話しているかのような使い勝手 まずは専用サイトにアクセス。一つ目の質問は「ジャケットはいつどこで着るの?」というもの。試しに「Commuting in Tokyo」(東京での通勤時に)と入れてみました。ちなみ「I want to use it when commuting in Tokyo」「I’ll use it when commuting in Tokyo」みたいな文章で入力しても理解してくれました。 次の質問は「どの時期に着るの?」。この時の入力は、「December」(12月)といった特定の時期だけでなく、「from next...

「目指すは日本ならではのチャットボットの形」、サイバーエージェント石川大輔氏

日本企業によるチャットボット事業の現状とは? 今回はITジャーナリストの湯川鶴章さんに寄稿していただきました! ―――――――――――――――――――― スマートフォンアプリの次の主戦場として注目を集めるチャットボット。米国では熾烈な開発競争が始まっているが、日本ではまだまだ注目度は低い。 しかしAIの進化に伴って、日本でもチャットボットが企業と消費者とを結ぶ主要チャンネルになることは間違いない。チャットボット事業で、日本で先行する3社のうち、サイバーエージェントの戦略について詳しく調べてみた。 先行するのは、リクルートとトラコス その前に、残りの2社はどこかと言うと、1社目はリクルート。チャットボットの成功事例の先駆けである「パン田一郎」を手がけたことで、チャットボットに関心を持つ業界関係者の間では一目置かれる存在。そのリクルートが米シリコンバレーに開設したAI研究所では、さらなる高性能のチャットボットの開発を進めている。(関連記事:シリコンバレーのリクルートAI研究所はチャットボットを開発していた)世界的に見ても、リクルートが最先端を走り続ける可能性は大きい。 2社目は、コールセンター業務大手のトランスコスモスだ。チャットボットが普及すれば、コールセンター業務は大打撃を受ける可能性がある。技術革新の津波を前に主要事業を守ろうとしてジリ貧に陥る企業が多い中で、トランスコスモスは先陣を切ってチャットボット事業に乗り出した。座して死を待つより、自ら新しい領域に打って出ることで、変化の時代を乗り越えようとしているわけだ。国内メッセンジャー最大手のLINEと合弁会社を設立するなど、次々と大胆な手を打っており、チャットボットビジネスの本命と言ってもいいだろう。(関連記事:LINEチャット対応でデータを蓄積、トランスコスモスのAI戦略) チャットボットに詳しい業界関係者に聞くと、この2社が最有力。「もはや他社は入り込めない」という声さえ聞こえてくる。 サイバーの動きの速さはピカイチ そんな中で、ネットビジネスの雄サイバーエージェントが怒涛の勢いで動き出した。同社は2016年7月にチャットボットを専業にする連結子会社、株式会社AIメッセンジャーを設立した。同社の石川大輔代表取締役によると、事業を思いついたのは同年3月。「構想から実質3カ月でサービスを作り上げました」と笑う。 きっかけはユーザー行動の変化だった。石川氏はサイバーエージェントに入社以来、デジタル広告畑で実績を積んできた。ユーザー行動の変化は、広告関連のデータで読み取れた。 「何か調べ物をするときに今までだと検索エンジンを使うケースが多かったのですが、最近ではSNSで友人たちに質問することで問題を解決するケースが増えていることに気づいたんです」。 サイバーエージェントのデジタル広告の部署は、これまでユーザーを細かな層に分け、それぞれの層に合った広告を配信する支援をしてきたのだが、そうしたユーザー層の細分化や広告の最適化といった業務自体を、Facebookなどのプラットフォーム自身が手がけ始めたということも、大きな変化だった。 新しいフェーズに合った広告の形を模索していかなければならない。そう考えていたときに、チャットボットのアイデアを思いついたのだという。 デジタル広告に必要なユーザーの購買履歴、行動履歴などのデータを使って、チャットボットがユーザー一人ひとりに合った対応をするようになれば、新たな広告、マーケティングのチャンネルになるかもしれない。そう考えた同氏は、サイバーエージェントによるAIラボの自然言語処理の専門家を巻き込んで、あっという間にチャットボットを開発。9月からサービスインし、デジタル広告のクライアント企業を中心に営業をかけ、既に十数社がチャットボットの導入を進めているという。 某クライアント企業に対しては、有人対応とボット対応のハイブリッド型を導入。まずはすべての消費者に対してチャットボットが対応。ボットの対応を通じて見込み客を見極めて、人のチャットオペレーターがボットに代わって対応する形にした。しつこく電話攻勢しなくてもよくなった上、オペレーターによる成約率が100%になったという。 こうした成功事例が出始めたため、多くの企業からの引き合いが続いているという。これに対応するため、同社では沖縄で週7日24時間体制で稼働するチャットセンターの人員を急ピッチで増強し始めている。 水平分業と垂直統合 トランスコスモスとサイバーエージェントの両方を取材してみておもしろかったのが、両社の戦略の違いだ。 トランスコスモスはこのほど、有力チャットボットメーカーの米Reply社と提携。Reply社によるボット構築、運用管理プラットフォームReply.aiについて、日本での独占販売権とアジアでの優先販売権を取得した。 米国のチャットボット事情を調べていると、Reply.aiに関する言及をよく目にする。この領域でのトップ企業なのだろう。同社と提携することで、トランスコスモスは最先端のボットツールを日本で独占的に取り扱えるようになったわけだ。 どうやらトランスコスモスは、ボット関連技術をすべて自社開発するのではなく、世界中から最も優れた技術を探し出し、それを統合することで1つのサービスとして提供する戦略のようだ。餅屋は餅屋。自分は得意な領域に特化し、そのほかの領域はそこを得意な他社に任せる。いわゆる水平分業と呼ばれる戦略だ。 一方のサイバーエージェントは、バックエンドのAIから、フロントエンドのチャットボットのデザインまで、すべて自社開発するという。いわゆる垂直統合と呼ばれる戦略だ。 水平分業と垂直統合。どちらの戦略が優れているのだろうか? パソコン全盛時代は、MicrosoftとIntel陣営の水平分業が勝利した。MicrosoftがWindows、Intelが半導体、パソコンメーカーが残りの部品を組み立てるという分業体制。それぞれが得意な領域に特化したため、優れた製品を低価格で提供できたため、パソコンは世界中のオフィスに普及するまでになった。 一方で、ハードもソフトも1社で手がけるAppleのパソコンは、Windowsパソコンと比べると割高感が出て、シェアを伸ばすことができなかった。垂直統合戦略の敗北だった。 その後のスマートフォン時代でもAppleは垂直統合戦略を踏襲。iPhoneのハードも基本ソフトも自社で手がけた。一方スマホ時代のもう片方の雄、Googleは、基本ソフトAndroidの開発、改良に専念。無料でAndroidを提供したため、世界中の家電メーカーがAndroidを搭載したスマホを開発した。この水平分業のおかげでAndroid端末はiPhoneより低価格で販売でき、思惑通りシェアを伸ばすことに成功した。 ただシェアが伸びたのは主に途上国だった。先進国では低価格よりも、完成度の高さが評価され、iPhoneは圧倒的な強さを誇った。利益率もiPhoneのほうが高いので、Appleは世界トップクラスの超優良企業となった。 Googleも途中から水平分業戦略に見切りをつけ、自社でもスマホのハードウエアを手がけ、先進国でのiPhoneのシェアになんとか食い込もうと躍起になっている。Appleの垂直統合戦略の勝利だ。 ではチャットボット時代には、水平分業、垂直統合のどちらの戦略が成功するのだろうか? サイバーの思い描くビジョンとは なぜサイバーエージェントは、垂直統合にこだわるのだろうか。 石川氏は「自分たちのビジョンを貫こうとすれば、すべてのツールを自社で開発するしかないと思うからです」と言う。 石川氏はどのようなビジョンを持っているのだろう。 「デジタル広告に使うユーザーの購買履歴のデータと紐付けることで、『先日はお買上げいただきありがとうございました』というやりとりが可能になります。GPSデータと紐付けることで、最寄りの店舗まで道案内が可能になります。クーポン発行ツールと紐付けることで『今、このクーポンを使うとお得ですよ』と店内での購買を促進することも可能になります。いろいろなデータを集めてきてAIが解析、最も適した情報やサービスをチャットボットが提供する。そういう時代になると思うんです」と石川氏は言う。 いろいろなデータやツールを統合する際に、異なるメーカーのツールを組み合わせて使うには限界がある、と石川氏は指摘する。ツールメーカーの間で、チャットボットの使い方に対するビジョンが異なるかもしれない。それぞれのツールのバージョンアップの速度や頻度も異なってくるだろう。 「僕も異なるツールの組み合わせでデジタル広告事業を手掛けたことがあるんですが、大変でした。なかなか前に進まないんです。絶対にうまく行かないと思います」と石川氏は断言する。 「ツールごとの価格や性能では、海外のツールに勝てないかもしれない。でも各種ツールを統合したサービスの総合点では、自社開発にこだわったほうが良いサービスになるのではないかと思うのです」と力説する。 日本人の心理に特化。 またチャットボットは、検索連動型広告など、これまで主流の広告マーケティング手法と大きく異なることが一つある。ユーザーは、チャットボットに人間味を求める、ということだ。 すべてのユーザーに対して同じ受け答えをするより、ユーザーの購買履歴を見て『先日は商品をご購入いただきありがとうございました。その後、いかがですか?」と語りかけるほうが、ユーザーの心に響くことだろう。 そうした人間味のある理想的な受け答えは、国や文化によって異なってくるはず。米国製の味気ないチャットボットより、日本語と日本文化に特化したチャットボットのほうが、日本のユーザーに受け入れられるのではないだろうか。 そう考えた石川氏は、心理面での専門家をアドバイザーに迎え、日本語での日本人らしい対話のあり方を研究しているのだと言う。「『わたしに何でも聞いてください』とチャットボットに問いかけられても、ユーザーは何を聞いていいのか分からない。でも『こちらの商品が新しく発売になりました。青と赤ではどちらの色がお好みですか?』と聞かれれば、より答えやすい。そうしてユーザーの選択を支援してあげれば、ユーザーはより買いやすくなるみたいなんです」。 まるでリアル店舗の店員の接客術のようだ。 「まだ業界内で『チャットボットの正しい使い方』という共通認識はない。僕達は、1つの『正しい使い方』のビジョンをどこよりも早く提案していきたい。そして期待通りの効果が出れば、僕達は先行企業として、圧倒的に有利なポジションに立てるのではないかと思うんです」。 Appleは、電話もできる音楽プレーヤーという独自のビジョンでiPhoneを開発した。このビジョンが、音楽好きのアーリーアダプターに受け、続いてアプリが充実するようになり、ユーザー層が広がった。Appleのビジョンが、業界を先導したわけだ。 まだ誰も打ち立てていないビジョンを実現するには、すべてをコントロールできる垂直統合戦略しかない。「われわれのビジョンを共有してくださるクライアント企業と一緒に、新しい広告マーケティングの形を目指していきたいと考えています」。 果たしてサイバーエージェントは、独自ビジョンを早急に実現し、効果を上げることで、業界を先導できるようになるのだろうか。 引き続きウォッチしたいと思う。 より詳しい情報を知りたい方は、著者が主催する勉強会やオンラインサロンにご参加ください。 ・TheWave湯川塾「オピニオンリーダーたちと議論する革命前夜」【39期塾生募集中】 ・湯川鶴章オンラインサロン ・ビジネスマンのためのAI講座

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは?事例を交えてわかりやすく解説

近年、ディープラーニング(深層学習)を中心とした機械学習の技術が注目を集めています。そのホットな応用先の1つが画像認識です。 今回は「画像×機械学習」によって、精緻な画像識別を可能にする技術、”画像セグメンテーション”について見ていきましょう。 画像分類の種類について 「画像×機械学習」といってもその応用例はたくさんあります。 画像セグメンテーションの特徴を理解するためにも、まずはよく使われているその他の画像分類技術も見ていきましょう。 今回は画像セグメンテーションを含む、こちらの3つを紹介します。 1)画像分類(classification)…”その画像が何なのか”を識別 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 1)画像分類(classiification)…”その画像が何なのか”を識別 画像分類では、”その画像が何なのか”カテゴリ分けします。 例えば、様々な寿司ネタの書かれた画像を「これはサーモン、これはいくら、これはとろ、、、」というように一枚一枚分類していく感じになります。 最近AmazonからリリースされたAmazon RekognitionのObject and scene detectionもこの画像分類にあたりますね。 こちらの画像では、対象の画像がCityやDowntown、Metropolisであると分類されています。 この方法では1枚の画像が1つの物体等を映し出していた場合には有効ですが、複数の対象が写っていた場合、それぞれを認識することはできません。 例えば、今机にある複数の物体を写真に撮ってRekognitionにアップロードしてみます。 本来であれば「カップとスマホとボトル」が写っているのですが、Amazon Rekognitionでは画像全体へのラベル付けとしてCupやCoffee Cupが上位に来ています。 これでは、複数の物体が画像に入り込むシーンでは使えないですね。そういった場合には「画像検出(detection)」を活用することになります。 2)画像検出(detection)…”その画像のどこに何があるのか”を識別 detectionと呼ばれる画像検出では、“何があるのか”に加え“どこにあるのか”も識別ができます。 例えば、先程の画像を例にとると、以下のように「コーヒー、ボトル、スマホ」という3つのwhatとwhereが識別できます。 Facebook上に写真をアップロードすると、顔の部分をタグ付けできるようになっていますが、あの技術も顔を検出する画像検出が使われている例ですね。 Amazon RekognitionにもFace Analysisの機能があったのでこちらの画像も例として載せておきます。 この画像のように、"顔がどこにあるのか?"が顔認識では取得できています。 3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別 それでは今回のメインである画像セグメンテーションについて見ていきましょう。 Semantic Segmentation と呼ばれる画像セグメンテーションでは、画像全体や画像の一部の検出ではなくピクセル1つひとつに対して、そのピクセルが示す意味をラベル付けしていきます。 画像を見たほうがわかりやすいので実際の画像を見てみましょう。 引用:http://jamie.shotton.org/work/research.html 一番左の画像では、”牛(cow)”に加え“草(grass)”も色づけされています。 これまでに紹介した画像検出では牛という物体が4体検出される以上のことはできませんでしたが、Semantic Segmentationでは画像全体がピクセルごとに意味づけされます。 この技術の応用例の1つ、自動車の自動運転があります。自動運転では以下のようにリアルタイムでセグメンテーションが行われます。 引用:http://worldwide.chat/E6gij6IS8n0.video ファッション領域で画像セグメンテーションを使ってみる。 それでは画像セグメンテーションの精度をみるために、実際に人間が着ている服装をsemantic segmentationで識別してみましょう。ここから少し技術的な話になります。 ○アルゴリズム 今回はFully Convolutional Neural Networkを使いSemantic Segmentationを行います。 引用:https://arxiv.org/abs/1411.4038 ○データセット こちらのデータセットを拝借しました。 https://sites.google.com/site/fashionparsing/dataset こちらのデータ・セットでは、左図のような通常の写真と右図のようなピクセルごとに色付けされた画像のセットが2683組あり、「背景」「Tシャツ」「カバン」「ベルト」「ブレザー」「ブラウス」「コード」「ドレス」「顔」「髪」「帽子」「ジーンズ」「レギンス」「パンツ」「スカーフ」「靴」「シャツ」「肌」「スカート」「靴下」「ストッキング」「サングラス」「セーター」という領域に分けて色付けがされています。 ○学習 今回は私たちインキュビット社にあるNvidia GPU TitanXのマシンを使ってTensorFlowで実装を行い、データのうち90%を学習に10%を検証に使いました。 Adam optimizerのモデルを使い、バッチサイズ:50、学習率:10^-5、ドロップ率:0.5をという条件で約10時間かかっています。 ○結果 セグメンテーションの精度はまぁまぁなようですが、すこし色が違う部分が有りますね。ブラウスやブレザー、ジーンズやレギンス等、細かな部分を識別しきれていないようです。人間がみても見分けづらい箇所なので、難易度は高いのでしょう。 データセットが100万組ほどあるとジーンズとレギンスといった細かい違いにも対応できるかと思います。しかし今回は2700枚以下のセットしかないので、以下のようにも少し大雑把でシンプルな分類にしてみましょう。 ・Tシャツ、かばん、ブレザー、ブラウス、コート、セーター → トップス ・顔、帽子、サングラス → 顔 ・ジーンズ、レギンス、パンツ、ショートスカート → ボトム ・靴下、ストッキング → 靴下 今度はかなり正答例と近くなりましたね。 画像セグメンテーションではこのような感じで、学習データを用意しモデルを作成していきます。 ■最後に 今回の記事では ・「画像×機械学習」の応用として、画像分類、画像検出、画像セグメンテーションを紹介しました。 ・画像セグメンテーションの例として、服装のセグメントのステップを実際のデータを用いてご紹介しました。 ファッション 以外の領域でも、画像セグメンテーションの応用例はまだまだ あります。画像×機械学習に興味があるかた、実際にビジネスに導入していきたい方、お気軽にお問い合わせください。

機械学習は絶滅危惧種を救えるか?

海に住む絶滅危惧種を保護する研究者たちの活動には、様々な困難がつきまとう。 まずは個体の数を正確に把握することが不可欠になるが、これが難しい。これまでは小型飛行機で海上を旋回しながら、目視で個体の数を数えていた。そのため莫大なコストがかかる上に、事故にあう危険もあった。 今ではドローンを遠隔から操作して、航空写真を撮影できるようになったため、こうした問題は解消しつつある。 しかしもう一つ難しい点がある。ドローンからは海上の航空写真が数万枚もあがってくる。これらを人が目視で確認して個体を数える必要があるのだ。 ちなみに以下の海上写真には絶滅危惧種である海牛が1頭いる。どこに隠れているか分かるだろうか? 正解は以下の画像で丸をつけたところ。確かによく見ると小さな黒いかたまりがわずかに見える。素人が正確に判別することは非常に難しそうだ。 こうした気の遠くなるような作業を数万枚の写真に対して行う必要があるため、なかなか調査の範囲を広げることが難しい。これが目下の課題だ。 海牛の保護に取り組む豪マードック大学のアマンダ・ホグソン博士は、こうした課題を機械学習技術によって解決しようとしている。 豪クイーンズランド大学と共同で開発した画像認識システムによって、航空写真の中から海牛の位置を自動で検知しようというのだ。 このシステムを開発するために、彼らはGoogleの画像検索や音声認識で使われている技術を活用している。Googleはこれらの技術を機械学習ライブラリ「TensorFlow」としてオープンソースで公開しているのだ。 今のところ同システムによる海牛の検知率は、人による目視の80%ほどだといい、今後さらに改善できる見込みだという。さらに海牛だけでなく、ザトウクジラや特定種のイルカといった他の海洋哺乳類での応用も期待されている。

抑えておきたい、AppleやGoogle等が手掛ける人工知能プロジェクト22選

人工知能(AI)はもはやSFの世界の出来事ではない。 AI自らが自律的に学習するディープラーニング(深層学習)の発展をきっかけとして、大企業からベンチャーまで様々な企業がAI技術を使ったビジネス活用に取り組み始めている。 急激に拡大するAI産業をけん引しているのが、ITジャイアントと呼ばれるGoogleやApple、Facebook、Amazon等だ。彼らは自社が保有する膨大なユーザーデータを活用しながら、人工知能関連技術の開発に取り組んでいる。 今回は世界のAI産業を俯瞰する上で不可欠な彼らによる取り組みを中心に、主なAIプロジェクトを紹介していく。 ■IBM 企業によるAIプロジェクトというと、IBMが開発した「Watson」を思い浮かべる人も多いだろう。 2011年2月にアメリカの人気クイズ番組「ジョパディ!」に出演し、当時史上最強といわれたチャンピオン解答者に勝利したことで、世間での知名度を一気に上げた。 https://www.youtube.com/watch?v=KVM6KKRa12g コンピューターでありながら人と同じように理解・学習し、人間の意思決定を支援するコグニティブ(認知型)・システムと位置づけられるWatson。IBMは「Watson」ブランドの下で様々な製品やサービスを展開しているが、大きくは開発者向けツールと既成アプリケーションの2つに分類できる。 Watson APIs IBMが提供する開発者向けのAPI(Application Programming Interface)。Watson APIの活用によって、外部の開発者が自身のアプリケーションにWatsonの技術を取り込むことができる。 APIの種類は、画像識別機能を持つ「Visual Recognition」や、言語翻訳の「Language Translation」、文字を音声に変換する「Text to Speech」など19種類(2016年6月時点)に上る。 Watson Marketplace IBMは「Watson Marketplace」にて、Watsonを利用した既成アプリケーションも提供している。ショッピング支援アプリケーションの「Watson Trend」や自然言語を処理する分析ツール「Watson Analytics」、SNSでのコメントを分析する「Analytics for Social Media」など多岐にわたる。 SystemML 「SystemML」はIBMが開発した機械学習システムで、企業データの分析を目的とした業界特化型の機械学習アルゴリズムを作成するために活用される。SystemMLを取り入れたアプリケーションによるエコシステム構築を狙うIBMは、2015年に同システムのオープンソース化に踏み切っている。  ■Google 検索エンジンで馴染みのGoogleも、AI研究に多大なリソースを投入している。同社は「Google Brain Team」と呼ばれるAIプロジェクトの社内専門チームを設立。獲得した技術を検索エンジンやAndroid対応パーソナルアシスタントサービス「Google Now」をはじめとする自社製品に応用している。さらに研究成果をオープンソースとして公開しているほか、AIに関する研究論文も複数出版している。 TensorFlow Tensor Flowは機械学習に必要な数値計算を行うライブラリ。Google...

ウーバーが機械学習による予測精度を強化、4年ぶりの大改修で

米配車サービス大手ウーバー・テクノロジーズが、配車アプリのデザイン改修を進めていると発表した。複雑化していたUIの簡素化に加え、機械学習技術を活用した各種予測機能の追加を含む大規模な改修となる。同アプリのデザイン改修は2012年以来4年ぶり。 同アプリは2011年に公式に公開されて以来、機能やサービスの追加によって UIが複雑化。従来のトップ画面には、ハイヤーの配車サービス「UberBLACK」や低価格配車サービスの「uberX」、相乗りサービス「uberPOOL」、SUV(スポーツ用多目的車)を配車する「UberSUV」といった複数のサービスが乱立していた。 今回のデザイン改修では、こうした複数のサービスを「Economy」「Premium」「Extra Seats」の3カテゴリーに集約することで、UIの簡素化を図っている。 https://www.youtube.com/watch?list=PLmVTG4mAK7nxdlbFP5LS-9peUykQKXcN8&v=I1DdoN6NLDg またユーザーによる過去の利用データと機械学習技術を組み合わせることで、使い勝手をより向上させているという。 例えば新機能「shortcuts」では、ユーザーの過去の走行パターンを解析することで、最適な目的地を自動で表示してくれる。仕事終わりの18時にアプリを開いたユーザーであれば、自宅や子供の学校、よく行くバーなどが表示され、ワンタップで目的地を選択できるといった具合だ。 またユーザー周辺の交通量や工事状況などのデータを活用し、最適なピックアップポイントを表示することもできる。参照元となる過去の交通データの数は、約20億件にも上るという。 同社のデザインディレクターのDidier Hilhorst氏は、「ユーザーにとって時間は貴重だ。彼らの時間を尊重したい」と話している。 ウーバーはこれまでにも機械学習を活用したサービスを提供してきた。例えばフードデリバリーサービスの「UberEats」では、注文時の交通量や過去の注文記録を参考に、最適な注文先を表示するなどしている。 同社で機械学習関連の責任者を務めるDanny Lange氏によると、同技術の導入によって配達にかかる時間の予測精度が飛躍的に向上したという。 「当初のUberEatsでは、配達先までの距離や自動車の速度、調理時間を考慮した上で、配達時間を正確に予測することが難しかった。しかし配達件数が1万件に達したころから、データをもとにした予測モデルを構築できるようになった。それからたったの数週間で、予測精度を従来より26%も引き上げることができた」(Lange氏)。 Lange氏は、今年9月にサンフランシスコで開催されたスタートアップ関連のイベント「Disrupt SF 2016」にて、次のように述べている。 「(機械学習技術によって)ニュートン力学から量子力学への移行に匹敵するほどの大きな革新が起きようとしている。”予測”や”可能性”といったことがより重要になる」。 またウーバーは、自動運転技術にも注力しており、今年8月には自動運転トラックの新興企業オットー社を6億8,000万米ドル(約700億円)で買収している。 人工知能関連技術を活用することで、人の手を介さない自動化の方向性を推し進めている同社。今回のデザイン改修に含まれる機械学習関連機能の追加も、その一環と言えそうだ。

AIビジネスの今を知る、最新トレンド10選

AI(人工知能)関連市場がますます盛り上がっています。 調査会社のIDCによると、AI関連市場の規模は、2016年の80億ドル(約9,000億円)から2020年に470億ドルに拡大するそう。 「すでに企業のあらゆる業務プロセスにAIは活用され始めている」と、同社のDavid Schubmehl氏(コグニティブシステム・コンテンツアナリティクス担当ディレクター)は話しています。 ただ「AI関連市場が盛り上がっている!」とだけいわれても、範囲が広すぎていまいちピンとこないですよね。 そこで今回は2017年以降にかけて、重要になり得るトレンド10項目をご紹介します。すでに流行っている項目も多いですが、これからさらに重要性が増すという意味で、改めて触れておきます。 今後AI導入を自社で検討する上で、今回の記事を見取り図として使っていただければ。AIビジネスについてこれから知りたい、という方向けの内容です。 1.AIチャットボット AI関連の調査会社TechEmergenceが、AI関連企業の幹部らを対象に実施した調査によると、今後5年間で最も発展するAI関連技術として、最も多く挙げられた項目が「チャットボット」(37%)でした。 自然言語を理解した上で、メッセージングサービスやメールを通して人とコミュニケーションできるチャットボット。すでにIBMやFacebookといった複数の企業が、チャットボットの開発プラットフォームを公開しており、数多くの企業が参画しています。 Facebookによると、2015年夏の時点で、11,000件以上のボットがメッセンジャー上で稼働中だとのこと。またIBMによると、2000年以降に成人になるミレニアル世代の中で、人間のスタッフよりもチャットボットとのコミュニケーションを好むと答えた割合は、65%に上ります。 2.アプリケーション開発 AIを活用したアプリケーションは、もちろんチャットボットだけではありません。すでにウェブやモバイル、企業内システムといった広い範囲でAI技術が活用されています。たとえばレコメンデーション機能やスケジューリング機能、ビッグデータをもとにした洞察の抽出といった具合です。 今後この傾向はますます強まるでしょう。Gartnerは自社レポートの中で、2018年までにグローバルの大企業上位200社のほどんどの中で、AIを使ったアプリケーションやビッグデータの活用、アナリティクスツールによるサービス・顧客エクスペリエンスの改善が主流になると予測しています。 3.IoTでの活用 モノとモノをインターネットでつないで相互に制御できるIoT。GartnerはIoTとAIの関係についてこう説明しています。 「IoT端末を含む既存の機器は、AIによってインテリジェントな能力を獲得することになる。こういった技術は住宅やオフィス、工場、医療施設などあらゆる場所で活用される」。 たとえば次世代のフィットネストラッカー機器であれば、単にデータをモニタリングするだけではありません。機械学習やアナリティクス機能によって、これまでの健康情報をもとにしたレコメンデーションも可能になります。 4.ヘルスケア AI活用による効果が最も期待されている分野の一つがヘルスケア。IDCによると、2016年に最もAI関連の投資を集めた分野の一つが病気の診断システムです。さらに今後5年間の投資額は、年間69.3%のペースで増えていくとみられています。 また似たような話でいうと、CBInsightsもAIスタートアップが最も活発な分野(2016年)としてヘルスケアを挙げていますね。 5.生物学的モデル AIとヘルスサイエンスの関係は、単なる診断システムにとどまりません。コンピューターサイエンスの研究者たちは、生体モデルをAIソフトウエアの開発に応用することで、人間のような複雑な処理を実施しようとしています。 脳の神経回路の仕組みを模したニューラルネットワークもその一つ。一例としては、マサチューセッツ工科大学(MIT)とGoogleが2016年2月に発表した研究があります。彼らが開発したのは、道端の画像を読み込ませると、その地名を正確に返すシステム。約1億枚に上る位置画像をニューラルネットワークに学習させたそうです。 今後も発展していくと思われるこの分野。レイ・カーツワイル氏のように、2030年までにはヒトの脳とコンピューターネットワークが融合したハイブリッド型のAIが誕生すると予測している研究者もいます。 6.ハードウエアへの応用 AIビジネスというとソフトウエアになりがちですが、ハードウエアももちろん重要です。自動運転車や産業用ロボット、AI搭載ドローンなどがその一例。今後5年間でAIハードウエア市場規模は、年率60%以上で成長するとIDCはみています。 7.AI関連スタートアップ AI産業の成長に伴い、スタートアップも増えています。Venture Scannerによると、AIスタートアップの数は73か国で1,500社に上るそう。またGoogleやIntel、Apple、Facebook、MicrosoftといったIT大手によるスタートアップの買収も活発化。今後もこのトレンドは続くでしょう。 8.労働への影響 AIとビジネスの話で最も注目されがちなトピックの一つが、労働への影響です。2016年6月には調査会社Forresterが、「現在のアメリカの労働人口の7%が、2025年までにロボットや機械学習といったAI技術によって置き換えられる」という具体的な調査結果を発表して話題になりました。 もちろんAIによって置き換えられるかどうかは、仕事の内容によります。サポートセンターのスタッフのように今後劇的に少なくなる職業がある一方で、データサイエンティストやオートメーションスペシャリストのようにさらに需要が増す仕事に分かれてきます。 9.AIの盛り上がりに対する反動 AI産業が盛り上がりをみせている一方で、その反動が今後押し寄せる可能性もあります。AIによって職を追われた人々がこうした技術に反感を抱き、その動きが政治に影響を及ぼすことも考えられます。 またスマートロボットやコグニティブ関連の専門職、機械学習、自動運転といったAI関連の技術には「過度な期待」が集まっている、とGartnerは指摘します。これは先進テクノロジーの発展段階を示した「ハイプ・サイクル」に基づいた予測です。 このモデルによると、「過度な期待」が集まっている時期を過ぎると、「幻滅期」と呼ばれる時期がやってきます。実際にテクノロジーを導入しても成果につながらない事例も多く出てくることで、興味が失われていく段階です。関連企業の淘汰が進むのもこの時期です。 10.予測精度の改善 すでにAIが大きな影響を及ぼしている箇所といえば、予測精度の改善です。これは予測のもとなるビッグデータがあってこそのもの。これまでビッグデータの活用に取り組んできた企業からすれば、機械学習をベースとした予測精度の改善に取り組むことは自然な流れといえるでしょう。 分かりやすい例としては、2016年のアメリカ大統領選でのAI活用があります。インドのスタートアップが開発したAIシステムは、選挙の前日の段階でドナルド・トランプの勝利を予測していたといいます。他の事前調査のほとんどがヒラリー・クリントンの優勢を伝えていたにもかかわらずです。