AI自動作曲

音楽のディープフェイク?Open AIのJukebox解説

今最も進化した音楽生成AIと言っても良いでしょう。 あまりに高度な、そしてアーティストの音楽スタイルのみならず、歌声までもが生成できるため、音楽のディープフェイクと称されるOpen AIの音楽生成ニューラルネットワーク “Jukebox” https://openai.com/blog/jukebox/ 4月30日の発表から2ヶ月少々経過しましたが、昨日(7月11日)にCANPLAYでもようやく講義として取り扱う事ができました。その解説の中から一部を記事にして皆様にお伝えしたいと思います。 Jukebox概要 今回Jukeboxを発表したOpen AIは、イーロンマスクが設立時から支援を行っている事でも知られる非営利のAI(人工知能)研究機関です。 昨年2019年にMuseNetという、当時としてはもっとも高度な、音楽生成ニューラルネットワークを発表していました。(MuseNet解説の過去記事はこちら)https://canplay-music.com/2019/04/28/musenet/ そのMuseNetから約1年後の今回、新たな音楽生成ニューラルネットワークとして発表されたのがこのJukeboxです。当初、Jukeboxは、MuseNetの機能向上版なのではないか?、、、と予想していたのですが、その予想を遥かに上回る、全く次元の違う高度な音楽生成ニューラルネットワークへと進化していました。驚くべき進化です。 Jukeboxの特徴 Jukeboxの特徴です。 ・MIDIデータではなくオーディオデータを学習および生成・歌声まで生成・詩も生成・学習データは120万曲(うち約60万曲が英語の曲) 一番大きなインパクトはMIDIデータではなくオーディオデータそのものを学習&生成する事でしょう。(MIDIとは電子楽器の共通規格で、異なる電子楽器やコンピュータ間で音符データのやりとりを行う事ができます) 先にお話ししたMuseNetも含め、これまでの音楽生成AIはすべてMIDIデータ(音符)を学習し、生成を行っていました。 もし音楽のオーディオデータそのものを学習し、生成が行えるのであれば、色々な音響情報を含めた、遥かに高度な事が実現できます。しかしなぜ、これまでそれができなかったのか? オーディオデータはMIDIデータに比べあまりに取り

音楽のディープフェイク?Open AIのJukebox解説 Read Post »

OpenAIのJukeboxが公開 これは音楽のディープフェイクか?

OpenAIの新しい音楽生成ニューラルネットワークプロジェクトJukeboxです。https://openai.com/blog/jukebox/ OpenAIと言えば、ちょうど1年ほど前にMuseNetを解説しました。 MuseNetの記事はこちらイーロンマスクが支援するAI研究団体OPEN AIが新しい音楽生成プログラムMuseNetをリリース 今回はマルチトラックの音楽生成モデルとしては最高精度を誇っていたMuseNetをさらに進化、、、というよりも、全く異なるレベルの音楽生成を可能とするニューラルネットワークになっています。 Jukeboxの特徴・音符データではなく波形データを学習生成・歌声まで生成・詩も生成・学習データは120万曲(うち約60万曲が英語の曲)・ソースコードが公開されている 一番大きなインパクトは音符データではなく波形データそのものを学習&生成する事でしょう。これに合わせ、歌声の生成までもが行えます。詩についてはOpenAIの他の言語生成モデルを使用して行う様です。 以前から波形領域での生成が行われる様になると、音楽への影響度は全く異なる大きなものになる、と解説し続けてきましたが、遂にその第一歩です。今回はまだ十分に検証していないのでこの辺りの解説は行いません。いずれしっかりと情報をまとめ皆さんにシェアします。 まずは本日実装をし、最初の実践を行いましたので簡単に報告させていただきます。 生成ですが、非常に大変でした、、、かなりのPCパワーが必要で、割と高性能のGPUを使用しているのですが1曲生成に数時間必要な感じです。。数曲ご視聴ください。 2曲目の方は歌声と、詩らしいものも聞こえてきます。音楽としてはこれからですが、個人的には人間では絶対に作れないこの状態の楽曲も実は面白いと感じ意外に惹かれてしまいました。3曲目のsample04は楽曲として成立し始めていますね。4曲目はPrinceスタイルの生成曲です。ジャンルはRockを選びましたがバラード風ですね。こここまでくると正直ヤバイ領域に入ってしまったのではないかと、、、、タイトルにある通り、音楽のディープフェイクと評する方もいるみたいですが、言い得て妙です。いよいよ本格的に権利や、倫理の問題を議論しなければいけない時期に入ってきたと思います。 AI音楽生成は、これまでとは次元もレ

OpenAIのJukeboxが公開 これは音楽のディープフェイクか? Read Post »

Travis Scottの楽曲を機械学習したAIラッパー “TravisBott” のJack Park Canny Dope Man

ウェブサイト制作やApp制作などを手掛けるアメリカのテック企業space 150 https://www.space150.com/ がTravis Scottの楽曲を機械学習させ生成した楽曲 ”Jack Park Canny Dope Man” をリリースしました。 デジタル処理が施されたMVのラッパーはTravisBottと名付けられています。 メロディー(なのでしょう、、、)だけでなくリリックも学習し生成されている様です。ただしトラックについては言及されていないのでそれはAIによる生成か、人の手によるものかは不明です。またアルゴリズムも不明です。(個人的にはアルゴリズムについて言及されていないものはあまり真には受けないのですが、、、、) リリックについては、以前投稿したこちらもご参照ください。(コードもあります) Rapを学習し自動リリック生成するAIのプログラムでKanye Westを学習させたらこんなリリックできましたhttps://canplay-music.com/2018/12/29/ai-lyrics/ Space150のディレクターであるNed Lampertはこのプロジェクトについて、Adweek(メディア)にリリック生成について面白いコメントをしていました。 「トラヴィスのAIは最初の頃、食べ物についてのリリックを生成し続けていた」例えば「I don’t want to fuck your party food」などだ との事です。 以前からお話している通り、ブレークビーツ、サンプリング、と他の楽曲をある種データとして”貪欲”に(とポジティブに表現しておきます)活用するのがヒップホップの歴史であり特徴です。近年のタイプビーツの例からも予想されますが、AI音楽のポップミュージック領域での活用例はヒップホップから始まる可能性も大いにあるのでは?と感じています。 ちなみにMVに出てくるコード。どんなアルゴリムか読み取ろうとしましたが、ただのsql(データベース)の操作。。。。。AIではありませんでした。。。。。 TravisBottの歌詞はこちらで確認していただけます。 https://genius.com/Travisbott-jack-park-canny-dope-man-lyrics

Travis Scottの楽曲を機械学習したAIラッパー “TravisBott” のJack Park Canny Dope Man Read Post »

AIでTrapのヒップホップビートを生成、1ドルで購入し使用できる新サービス

ヒップホップファン、もしくはラッパー、トラックメーカーであれば説明不要のTrap(ヒップホップのビートの種類の一つ)。このTrapビートをAIで生成、1ドルで購入し使用できるという新しいサービス The Trap Factoryhttps://thetrapfactory.com/がひっそりとリリースされています。UIをみてもわかるとおり、大手の運営などではなく、かなりプライベートな感じです。 生成してみましたので、その様子を動画でご覧ください。 かなり本格的なTrapビートになっていますね。 新たなタイプビートとしてAIからヒット曲が生まれるか? 皆さん、タイプビートはご存知でしょうか? Youtubeなどで誰々風(誰々タイプ)のビートを探しそれを数千円で購入、ラップを載せてリリース、というのがヒップホップ界で密かなブーム?になっています。 アメリカで昨年19週連続ビルボードチャート1位を記録したLil Nas Xの Old Town Roadはこのタイプビートを数千円で購入して使用した楽曲だそうです。 さらに2019年末から2020年初頭に、Spotifyのバイラルチャートで世界1位となったLoveLeoのBoyfrenも数千円で購入したタイプビートとの事です。 彼はレコーディングも自宅のベッドルームでMac Bookのマイクで録音したとか! 筆者は現在執筆中のAI音楽本の中で、将来AI音楽で起こりうる可能性の一つとして、このタイプビートをAIが生成して、安価で購入したラッパーがヒット曲を生み出す可能性を書いているのですが、それが実現する可能性が徐々に出てきた様に思えます。 ヒップホップは元々トラックはブレークビーツと言って、他の楽曲の一部分を拝借して成り立った音楽です。主役であるラッパーにとっては、面白ければ、そして自身の表現をしっかりできるビートである事こそが重要。そのためにはサンプリングもタイプビートもどんどん採用する貪欲さ、柔軟さがあるのだと思います。 次はAI生成のビートでしょうか? 皆様の中でラッパーの方がいらっしゃったら是非チャレンジを! または筆者にご連絡ください(笑)

AIでTrapのヒップホップビートを生成、1ドルで購入し使用できる新サービス Read Post »

Björkとマイクロソフトがタッグを組んだAI音楽生成プロジェクト Kórsafn

ビヨークがマイクロソフトのAI、Azureを使用し、AI音楽生成のプロジェクトを展開し始めました。 Kórsafnと名付けられています。 Kórsafnとはアイスランド語で、「kór」=「choral(合唱曲) 」と「safn」=「アーカイブ」を組み合わせた造語の様です。 正確には、マイクロソフトとニューヨークのシスターシティホテルのコラボレーションプロジェクトにビヨークがジョインしたといった方が良いでしょうか? 元々このシスターシティーホテルのプロジェクトは、昨年の2019年にアンビエントミュージックアーティスト、Julianna Barwickとともに始めたAI音楽生成プロジェクトでした。センサーで感知した情報を元に既存の音楽素材をAI(マイクロソフトのAzure)で組み合わせて、リアルタイムに変化する音楽を生成しホテルのロビーで流す、という実験的な試みです。その音楽素材としてビヨークが自身の合唱曲を提供するのが今回のKórsafnです。合唱曲は、音源が組み合わされ再生されるだけでなく、一部は50人からなるアイスランド(ビヨークの出身国)の有名な合唱団”ハムラリッド合唱団”によって生で歌われているらしいです。 ハムラリッド合唱団 どんな方法でAIが活用され、ビヨークの合唱曲が組み合わされ生成されているのか? シスターシティーホテルの屋上に設置されたカメラで空を撮影、雲や鳥などを物体検出し、何かしらのアルゴリズムを使用して(これは是非知りたいところですが、情報は非公開の様です)音楽素材を選択、組み合わせて生成している様です。 こちらにデモの動画がありますのでご覧になってみてください。 いかがでしょうか? シスターシティーホテルのウェブサイトにアクセスすると、現在の空の様子と、それを元にしたリアルタイム生成音楽が聴ける様なので是非アクセスしてみてください。 https://sistercitynyc.com/bjork 個人的にもAI音楽の未来は、既存曲(人ができる作曲)の自動化ではなく、新しい表現手法を実現し音楽の可能性を拡げるものであって欲しい(ゆえにそれを研究しているのです)と思っています。それを現時点で具体化し実践した好例になる事を期待しています。 なおマイクロソフトの公式ブログ(英語)のURLはこちらです。 https://www

Björkとマイクロソフトがタッグを組んだAI音楽生成プロジェクト Kórsafn Read Post »

AI(機械学習)で作曲できるキーボード! AWS DeepComposer が発表

AI(機械学習)で作曲できるキーボード! AWS DeepComposer AWS(アマゾンウェブサービス)が世界初の機械学習で音楽生成できるキーボードを年次イベントAWS re:Invent 2019で発表しました。 https://aws.amazon.com/jp/deepcomposer/ AWS DeepComposer概要 AWS DeepComposerは32鍵(2オクターブ半)のミニ鍵盤と各種コントロールのボタン、ノブを装備するキーボードです。 米国のみ99ドルで予約開始DeepComposer販売ページ(米国Amazon) 豊富なコントロール類がどの様に活用されるのかはまだわかりませんが、意味のある(生成曲内容に反映される)ものであると考えて良いでしょう。 このキーボードからAWS DeepComposer コンソール(AWS上にあるDeepComposer用の機械学習プログラム)にメロディーを入力、ロック、ジャズなどの中から希望のジャンルを選択すると自動でアレンジした演奏を加えてくれる仕組みになっている様です。 生成した曲はダイレクトにSoundCloudにアップできるというのもなかなか面白い機能です。 こちらのAWSブログ中程にベートーベンのOde to Joy(第九)を演奏およびDeepComposerで生成した2曲の実演、比較があります。 AWS DeepComposer Blog いかがですか? ドラム、オーバードライブとクリーンのギター、ベースの演奏で生成されていますが、かなりできが良いと感じます。 人はメロディーは自分で作りたいけれどアレンジは難しいのでできない、というケースは多いので、DeepComposerの音楽生成の方法はニーズに合ったリーズナブルなものかもしれません。 キーボードからすぐにメロディーを入力、数秒で生成、SoundCloudへの直接アップと一連の流れは非常に簡単ですし、”バズる”曲が生まれるかもしれません。 DeepComposerでの生成の流れ 1・AWSにログインしDeepComposerコンソールへ(バージニア北部リージョンなので注意)。 2・DeepComposerキーボードから演奏しメロディー入力。またはコンソール画面にも仮想キーボードがあるのでPCでの入力も可能な様です。 3・生成モデルの選択。Pr

AI(機械学習)で作曲できるキーボード! AWS DeepComposer が発表 Read Post »

世界のユーザーがもっともハーモニーを作った曲は第九? Googleがハーモニー生成AIウェブアプリBach Doodleのデータを公開

Googleが3月に公開したバッハの合唱曲を学習させたハーモニー生成Doodle “Bach Chorale” のデータセットが公開されました。 なんと6GBを超える量のtensorflow recordとしてデータセット! 学習データとして使用できます! https://magenta.tensorflow.org/datasets/bach-doodle ダウンロードはこちら https://magenta.tensorflow.org/datasets/bach-doodle#download Bach Doodleですが、公開時の3日間で、全世界で5000万音の楽曲データが生成されたそうです! 多数入力された楽曲は第九やスターウォーズ、スーパーマリオのテーマ、Take on meやGunsのSweet child of mine などになっています。 ちなみに各国によって入力された音楽は異なっており、日本はチューリップの他、ファミリーマートのジングルが多かったらしい(本当に?)です。 ルーマニアではルーマニアのクラシック音楽、台湾では国家の他台湾のアニソン?の歌が多かったとの事。 興味深いですね。 こちらでご確認いただけます。 かなり面白いです。 https://magenta.github.io/bach-doodle-visualization/overall.html#all

世界のユーザーがもっともハーモニーを作った曲は第九? Googleがハーモニー生成AIウェブアプリBach Doodleのデータを公開 Read Post »

AIは音楽を何回学習させたら作曲できるのか??? | AI自動作曲研究LAB第9回のご報告

AIは音楽を何回学習させたら作曲できるのか??? AI自動作曲研究LAB第9回での実験をご報告させていただいます。 学習させた曲は会員様にご提供いただいた全て8小節の単音MIDIファイル。スタンダードのジャズナンバーやアドリブ演奏のジャズピアノなど5曲だけを学習させます。 まずは生成の楽曲をまとめた動画をご覧ください。 学習500回時間にして約15分ほどでしょうか?(5曲なので抜群に早いです!)Accuracyも1.0に近く、Lossも比較的少ない状態に早くもなっています。(下図学習のデータ結果参照)しかしながら楽曲はまだまだ単なるランダムな音の配列に過ぎず。音階も外れていますし、リズムも周期性がありません。 学習5000回 かなりオリジナル曲の雰囲気が出てきています。 学習20000回 ほぼオリジナル曲の1曲のみをほぼ再現。 ここまで再現されると過学習な状態と考えても良いでしょう。というよりもそもそもデータ数が少ないので当然なのですが、、、、下図の学習データからも過学習な状態が見受けられます。Accuracyが1.0でLossもほぼなし。これ以上このまま学習をさせる意味はないでしょう。 学習20000回できらきら星をミックス 過学習の予測通り、きらきら星には対応しきれてません。 特定のデータには対応できますが未知のデータに対応できない状態です。 少ないの楽曲数の学習であれば数千回で過学習になってしまいます。色々な作曲を可能とする様な汎用性を身につけるにはやはり5曲という曲数が(当然ながら)あまりにも少ないです。 数千〜数万曲は欲しいところでしょうか? 今後も色々な面白い実験を皆様に発表して行きたいと思っています。

AIは音楽を何回学習させたら作曲できるのか??? | AI自動作曲研究LAB第9回のご報告 Read Post »

Ableton LiveでAIを活用した音楽制作! | Magenta Studio

MUDEA aiでは講義で使い方と自作方法、や実践法を何度も紹介しています。 Ableton Live用のAIを使用したプラグインMagenta Studio https://magenta.tensorflow.org/studio/ableton-live 本日本家Abletonに記事が上がっていましたのでご紹介します。 Magenta Studio:Ableton Liveのための無料AIツール 英語版の記事はこちらです。 Magenta Studio lets you use AI tools for inspiration in Ableton Live 我々としては最大の注目点はソースコードが公開されていて自分でプラグインを作成できる事ですね。 https://github.com/tensorflow/magenta-studio Magenta MAXElectronを使用し、自分でAI Live プラグインを作成できるのはかなりの魅力ではないでしょうか? 下記動画はMagenta Studio だけを使用して作成した楽曲です。Generateでループ生成、Continueでバリエーション生成、Drumifyでドラムトラック作成、Groovaeでノリを加える、という流れで作成されています。 Groovaeなどは、リリース当時(1年ほど前)はまったく使い物にならなかったのが学習を重ねたのでしょうか?本当に精度が上がっており、ひたすら使い続けている我々も進歩に驚きます! 我々はMagenta & Aleton Liveでライブコーディング的な即興演奏もリスナーの前で披露しています。いずれ本当にライブで披露したいとも思っているほどです。 下記はMagenta とLiveを使用したリアルタイムAI音楽生成パフォーマンスです。

Ableton LiveでAIを活用した音楽制作! | Magenta Studio Read Post »

AIの音楽データ学習結果を視覚化 200回学習の生成曲と20万回学習の生成曲を聴き比べてみました

自動作曲のためAIに音楽を学習させた内容をグラフ化 自動作曲に限らず、AI(機械学習やディープラーニング)で何かを行う際はまずデータを学習させます。その学習がどの様なプロセスで行われるのか?を見ることはあまりないと思うのですが、Tensorflow(googleのディープラーニングフレームワーク)を使用したプログラムであれば簡単にグラフにして表示できます。 下図をご覧ください。これは200回音楽データを学習させた時の流れをグラフ化したものです。 Tensorflowは、式と値とをどの様な流れでどう取り扱い実行するのかをひとまとめにした計算グラフの様な構造になっています。 そしてこの計算グラフを視覚的にグラフ化し表示するという便利な機能を持っています。 ですのでこのグラフが何を表しているのかというと各ノード(計算式や値)をどの順番で行なっているかという事を表しているのです。 (Tensorflowの基礎もcanplayで学べます) 音楽ファイルであるTFrecord(音楽データをTensorflowのデータに変換したもの)から各値の流れ、使用されているsum関数やsoftmax関数、出力値などが見つけられますね。 その他各計算式や値がどう定義されているかは各該当プログラムを追いかけていく事によって調べる事ができます。 これらTensorflowの一連の動作を簡単に説明すると下図の様なイメージです。 丸はノードで処理や値、矢印はエッジで入力と出力です。入力はa,bのノードにそれぞれ定数と変数が入れられます。黄色のaddでそれぞれを足し合わせます。ピンクノードにはassignという関数が使用され赤のmulという関数でcからの入力を乗算します。という様な処理の流れです。 200回の学習データと200000回の学習データを比較 今回はこの記事のために簡単な比較実験を行いました。 AIで生成した8小節のMIDIファイルを500曲、200回だけ学習させたモデルと20万回学習させたモデルとの生成曲の比較です。 本来は単に学習の流れをグラフ表示するために200回だけ学習させて終わりの予定だったのですが、流石に200回では生成曲の精度が納得いかず、20万回でやり直しました。そこでその2つの結果があるので比較したものを皆様にお聞かせしようかと思った所存です。 200回は、、、、音楽生成

AIの音楽データ学習結果を視覚化 200回学習の生成曲と20万回学習の生成曲を聴き比べてみました Read Post »