画像をもとに作曲できる人工知能がすごい、不協和音がひどいけど

先日ポップソングを作曲できる人工知能(AI)が話題になりました。

ソニーコンピュータサイエンス研究所(Sony CSL)が開発したこのシステム。約1万3,000曲ものジャズやポップスを学習することで、AI自ら作曲できる能力を獲得。出来上がった楽曲は、人間が作曲したものにかなり近い出来栄えでした。

そして今度はカナダのトロント大学が、画像を読み込むことでそのイメージに合った歌を作詞作曲できるシステム「neural karaoke」を開発しました。

開発を主導した同大学のRaquel Urtasun准教授は、「SpotifyやPandraで、AI専門のチャンネルができる日が来るかもしれない。また人物写真を読み込ませることでその人に関する曲を作るといったことも可能になるだろう」と話しています。

今回はクリスマスの写真をもとに、クリスマスソングを作詞作曲しました。出来上がった動画がこちら。

確かにクリスマスらしい雰囲気であるものの、音に敏感な人だと耐えられないかも?と思わせるくらい不協和音がすごいことになっています。。。Sony CSLのAIによるポップソングの出来栄えとは比べるべくもありません。

ただ画像という非構造化データをもとに曲と歌詞を自ら育成できる、という点は非常にユニーク。(Sony CSLの楽曲も歌詞付きですが、人間による作詞です)。ディープラーニング(深層学習)で出来ることの可能性の広さを見せてもらった気がします。

画像をもとにした作詞作曲だけでなく、踊りの振り付けまで出来るというneural karaoke。どのように開発したのでしょうか?

学習ソースはネット上の楽曲

リリースによると、ネット上にアップされている100時間分の楽曲を読み込ませることで、ニューラルネットワークの学習を実施したといいます。仮に1曲あたり4分とすると、約1,500曲になる計算なので、Sony CSLが開発したシステムの約1万3,000曲と比べると少ないですね。

ちなみに学習の際は、NVIDIAが提供するGPU向けの開発環境「CUDA」、「Tesla K40」GPU、ディープラーニング用のネットワークライブラリ「CuDNN」を活用したといいます。

その結果、120ビート/分のシンプルなメロディーを生成し、そこにコードを加えたりドラム音を挿入したりして完成させました。

また様々な画像とそのキャプションを使ってニューラルネットワークを学習させることで、特定の事象がどのようなビジュアルパターンや物と紐づくかを認識させたみたいです。

さらに作詞の能力ですが、ネット上にある歌詞50時間分を学習させたことで可能になったといいます。学習元のデータの中で、4回以上出現したワードを活用しています。そのボキャブラリーは約3,390ワードに上るそう。

作詞作曲だけでなく振り付けも

neural karaokeの能力は作詞作曲だけではありません。自身が作曲した音楽に合わせてダンスする棒人間のような映像を育成することもできようです。

その学習の元になっているのがダンスゲーム「Just Dance 2014」。音楽に合わせて画面のお手本と同じように踊るというゲームです。

「Just Dance」の映像を1時間ほど読み込ませることで、人間によるポージングや音楽との合わせ方を学習させたといいます。

トロント大学の研究チームは、今後もこの「neural karaoke」を発展させていく考えです。もっと使える楽器を増やして複雑な楽曲を作曲できるようにしたり、画像に対して最適な楽器を選択できるようにする、といった計画を立てているようです。