AI情報

音楽のディープフェイク？Open AIのJukebox解説

今最も進化した音楽生成AIと言っても良いでしょう。あまりに高度な、そしてアーティストの音楽スタイルのみならず、歌声までもが生成できるため、音楽のディープフェイクと称されるOpen AIの音楽生成ニューラルネットワーク “Jukebox” https://openai.com/blog/jukebox/ ４月３０日の発表から２ヶ月少々経過しましたが、昨日（７月１１日）にCANPLAYでもようやく講義として取り扱う事ができました。その解説の中から一部を記事にして皆様にお伝えしたいと思います。 Jukebox概要今回Jukeboxを発表したOpen AIは、イーロンマスクが設立時から支援を行っている事でも知られる非営利のAI（人工知能）研究機関です。昨年２０１９年にMuseNetという、当時としてはもっとも高度な、音楽生成ニューラルネットワークを発表していました。（MuseNet解説の過去記事はこちら）https://canplay-music.com/2019/04/28/musenet/ そのMuseNetから約１年後の今回、新たな音楽生成ニューラルネットワークとして発表されたのがこのJukeboxです。当初、Jukeboxは、MuseNetの機能向上版なのではないか？、、、と予想していたのですが、その予想を遥かに上回る、全く次元の違う高度な音楽生成ニューラルネットワークへと進化していました。驚くべき進化です。 Jukeboxの特徴 Jukeboxの特徴です。・MIDIデータではなくオーディオデータを学習および生成・歌声まで生成・詩も生成・学習データは１２０万曲（うち約６０万曲が英語の曲）一番大きなインパクトはMIDIデータではなくオーディオデータそのものを学習&生成する事でしょう。（MIDIとは電子楽器の共通規格で、異なる電子楽器やコンピュータ間で音符データのやりとりを行う事ができます）先にお話ししたMuseNetも含め、これまでの音楽生成AIはすべてMIDIデータ（音符）を学習し、生成を行っていました。もし音楽のオーディオデータそのものを学習し、生成が行えるのであれば、色々な音響情報を含めた、遥かに高度な事が実現できます。しかしなぜ、これまでそれができなかったのか？オーディオデータはMIDIデータに比べあまりに取り

音楽のディープフェイク？Open AIのJukebox解説 Read Post »

OpenAIのJukeboxが公開これは音楽のディープフェイクか？

OpenAIの新しい音楽生成ニューラルネットワークプロジェクトJukeboxです。https://openai.com/blog/jukebox/ OpenAIと言えば、ちょうど１年ほど前にMuseNetを解説しました。 MuseNetの記事はこちらイーロンマスクが支援するAI研究団体OPEN AIが新しい音楽生成プログラムMuseNetをリリース今回はマルチトラックの音楽生成モデルとしては最高精度を誇っていたMuseNetをさらに進化、、、というよりも、全く異なるレベルの音楽生成を可能とするニューラルネットワークになっています。 Jukeboxの特徴・音符データではなく波形データを学習生成・歌声まで生成・詩も生成・学習データは１２０万曲（うち約６０万曲が英語の曲）・ソースコードが公開されている一番大きなインパクトは音符データではなく波形データそのものを学習&生成する事でしょう。これに合わせ、歌声の生成までもが行えます。詩についてはOpenAIの他の言語生成モデルを使用して行う様です。以前から波形領域での生成が行われる様になると、音楽への影響度は全く異なる大きなものになる、と解説し続けてきましたが、遂にその第一歩です。今回はまだ十分に検証していないのでこの辺りの解説は行いません。いずれしっかりと情報をまとめ皆さんにシェアします。まずは本日実装をし、最初の実践を行いましたので簡単に報告させていただきます。生成ですが、非常に大変でした、、、かなりのPCパワーが必要で、割と高性能のGPUを使用しているのですが１曲生成に数時間必要な感じです。。数曲ご視聴ください。２曲目の方は歌声と、詩らしいものも聞こえてきます。音楽としてはこれからですが、個人的には人間では絶対に作れないこの状態の楽曲も実は面白いと感じ意外に惹かれてしまいました。３曲目のsample04は楽曲として成立し始めていますね。４曲目はPrinceスタイルの生成曲です。ジャンルはRockを選びましたがバラード風ですね。こここまでくると正直ヤバイ領域に入ってしまったのではないかと、、、、タイトルにある通り、音楽のディープフェイクと評する方もいるみたいですが、言い得て妙です。いよいよ本格的に権利や、倫理の問題を議論しなければいけない時期に入ってきたと思います。 AI音楽生成は、これまでとは次元もレ

OpenAIのJukeboxが公開これは音楽のディープフェイクか？ Read Post »

Björkとマイクロソフトがタッグを組んだAI音楽生成プロジェクト Kórsafn

ビヨークがマイクロソフトのAI、Azureを使用し、AI音楽生成のプロジェクトを展開し始めました。 Kórsafnと名付けられています。 Kórsafnとはアイスランド語で、「kór」=「choral（合唱曲）」と「safn」=「アーカイブ」を組み合わせた造語の様です。正確には、マイクロソフトとニューヨークのシスターシティホテルのコラボレーションプロジェクトにビヨークがジョインしたといった方が良いでしょうか？元々このシスターシティーホテルのプロジェクトは、昨年の２０１９年にアンビエントミュージックアーティスト、Julianna Barwickとともに始めたAI音楽生成プロジェクトでした。センサーで感知した情報を元に既存の音楽素材をAI（マイクロソフトのAzure）で組み合わせて、リアルタイムに変化する音楽を生成しホテルのロビーで流す、という実験的な試みです。その音楽素材としてビヨークが自身の合唱曲を提供するのが今回のKórsafnです。合唱曲は、音源が組み合わされ再生されるだけでなく、一部は５０人からなるアイスランド（ビヨークの出身国）の有名な合唱団”ハムラリッド合唱団”によって生で歌われているらしいです。ハムラリッド合唱団どんな方法でAIが活用され、ビヨークの合唱曲が組み合わされ生成されているのか？シスターシティーホテルの屋上に設置されたカメラで空を撮影、雲や鳥などを物体検出し、何かしらのアルゴリズムを使用して（これは是非知りたいところですが、情報は非公開の様です）音楽素材を選択、組み合わせて生成している様です。こちらにデモの動画がありますのでご覧になってみてください。いかがでしょうか？シスターシティーホテルのウェブサイトにアクセスすると、現在の空の様子と、それを元にしたリアルタイム生成音楽が聴ける様なので是非アクセスしてみてください。 https://sistercitynyc.com/bjork 個人的にもAI音楽の未来は、既存曲（人ができる作曲）の自動化ではなく、新しい表現手法を実現し音楽の可能性を拡げるものであって欲しい（ゆえにそれを研究しているのです）と思っています。それを現時点で具体化し実践した好例になる事を期待しています。なおマイクロソフトの公式ブログ（英語）のURLはこちらです。 https://www

Björkとマイクロソフトがタッグを組んだAI音楽生成プロジェクト Kórsafn Read Post »

人工遺伝子を組み合わせて、自分だけのアイドルを作ろう | A.I.dols Code baseがベータ版を公開

以前AI EXPOの記事で紹介した実在しないアイドル画像をAIで作成できるサービスGENE A.I Dols A.I.Dols Codebaseとしてベータ版がリリースされました。 https://aidols-codebase.gene-aidols.io/en 使用方法はこちらです。 β版A.I.dols Codebaseのプレイ方法 https://medium.com/gene-aidols/β版a-i-dols-codebaseのプレイ方法-97180860db85 1. MetaMaskのインストール A.I.dols CodebaseはEthereumネットワーク上でプレイできます。WEBブラウザにアドオン可能なウォレットMetaMaskを使って、ネットワークにトランザクションを送ることができます。以下のサイトからインストールして下さい。 2. テストETHの入手 β版A.I.dols Codebaseは、メインネットではなくRopstenネットワーク(テストネット)で動作しています。メインネット用のETHは通常、取引所などで入手しますが、Ropsten用のETH(テスト専用で金銭的価値は無い)はfaucetと呼ばれる配布者から貰うことができます。以下のサイトでテストETHをリクエストして下さい。 https://faucet.ropsten.be/ 3. A.I.dols Codebaseにサインインあとは以下のサイトからサインインすれば、自分だけのオリジナルアイドルを生成できます！ https://aidols-codebase.gene-aidols.io/ なおベータ版では著作権は全てGene A.I.Dolsに帰属するため、商用利用などは不可の模様です。正規リリースの際は有料サービスとして提供されるのかもしれません。生成画像を見るとGAN？とも思いますが、遺伝子や第何世代、という表示を見ると遺伝的アルゴリズムを活用しているのかと想像してみたり、、、、今後、ボディーパーツや声などの生成サービス予定もあると聞いています。まずはお試しで生成実験いかがでしょうか？

人工遺伝子を組み合わせて、自分だけのアイドルを作ろう | A.I.dols Code baseがベータ版を公開 Read Post »

AIで実在しない人物の画像を生成できる！フリー素材として利用できる！ | 写真ACがAI人物素材（ベータ版）を公開

上記の画像の女性、AIが生成した実在しない女性です。無料写真素材提供サービス”写真AC”がAI人物素材の提供（ベータ版）を開始しました。 https://www.photo-ac.com/main/genface こちらは音楽テクノロジースクールcanplayやAI自動作曲研究LABでも皆様にお知らせしているGAN（Generative Adversarial Network（敵対的生成ネットワーク））を使用して、写真ACが許可を得て収集した画像を学習し生成させています。以前はGANの画像生成でこんな記事も投稿しています。 GAN（敵対的生成ネットワーク）を使用してオリジナルのスニーカーデザインを作成https://canplay-music.com/2019/01/02/gan-sneakers/ このAIで生成された人物画像は、使用許可などを得る事なく商用利用なども可能との事です。早速登録して数枚ダウンロードしてみました。心なし、女性生成画像の方が出来が良い感じがします。実は現状「研究中のため品質に問題がありますが、」と但し書きがあります。しかし機械学習ですからこれからどんどん品質は上がっていくのでしょう。またこのサービスの面白いところは、自身で50回まで、新たな架空人物画像を生成できる機能がある事。早速生成してみました。女性、、、まあまあか、、、男性、良い感じ中性？、、、といった感じですが、なかなか面白いです。今音楽でもGANを利用した音声合成は色々試されていて、自分の歌を他人の歌声にするプログラムや、自分の歌った詩を他の詩に歌声を保ったまま帰るプログラムなどが出始めています。実は単なる自動作曲以上に可能性のある分野とも思っており、音楽でもGAN、注目しています。こういった架空の人物？とのコラボも実現するかもしれません。 AI生成アイドルのプロジェクトもありましたね。 AIで架空のリアルなアイドルを作る事のできるサービスGENE A.I.DOLShttps://canplay-music.com/2019/04/05/3rd-ai-expo/まずは皆様もAI人物生成素材をお試ししてみてはいかがでしょうか？記事投稿日：2019/5/27

AIで実在しない人物の画像を生成できる！フリー素材として利用できる！ | 写真ACがAI人物素材（ベータ版）を公開 Read Post »

MACのGPUでディープラーニングを実現するPlaidMLが0.6.0へバージョンアップ tensorflow2.0への対応予定も

以前記事にしましたMACのGPU（つまり非Nvidia）で機械学習、ディープラーニングを実現するPlaidML MACのGPU（非Nvidia）で機械学習・ディープラーニングを実現する！PlaidMLを解説https://canplay-music.com/2019/04/22/plaidml-kaisetsu/ が0.6.0へバージョンアップしました。 pipインストールhttps://pypi.org/project/plaidml/0.6.0/ また近々のtensorflow2.0への対応予定を開発者が（非公式に？）アナウンスするなどさらに使える環境として期待が高まっています。もともとkerasのバックエンドで動作する様開発されているPlaidMLですからtensorflowの動作も十分可能なはずです。実際現状のtensorflow1.13のテストプログラムもある様ですので今でもしっかり設定すれば色々なtensorflowのプログラム、例えばもちろんMagentaも、実行できるのではないかと思っております。なかなか日本では情報の少ない（そしてまだまだ改善の必要な）PlaidMLですが、Macユーザーでディープラーニングをやりたい！とお思いの方はkeras、そしてtensorflowとともに是非試してみて下さい。

MACのGPUでディープラーニングを実現するPlaidMLが0.6.0へバージョンアップ tensorflow2.0への対応予定も Read Post »

NVIDIA Control Panelが見つからない場合の解決方法 | ﾃﾞｨｰﾌﾟﾗｰﾆﾝｸﾞ用に新規にGPUを導入した方へ

GPUでディープラーニングを行っているWindowsユーザーの方向けの記事です。 Nvidia コントロールパネルがない、、、、近年ディープラーニング実践のために新規にNvidiaのGPUを導入する方も多いと思います。その際、ﾃﾞｨｰﾌﾟﾗｰﾆﾝｸﾞの実践には必要ないですがせっかく高価なGPUなのでグラフィックの方の設定も色々と行ってみたいと考えますよね。高度なマルチディスプレーの設定や、G-syncの設定など。ところがその設定を行うためのNvidia Control Panelがない、、、、見つからない、、、、という事、多いです。ネットで色々調べてみても、困っている方非常に多く、多くの質問が寄せられたり、回答している記事もたくさんあります。しかし解決策はドライバーのアップデートをすれば良いというものばかり。確かにその方法で解決する場合もありますが、それでも解決しない場合、もかなりあり、その場合はどうやってインストールすれば良いのか？全くその情報がない状況です。解決方法は簡単です！しかし、実はこれは簡単です。Microsoft Storeからダウンロードしてインストール。これだけです。 Microsoft Store Nvidia Control Panel入手ページ何故この様な基本的かつ簡単な方法が周知されていないのか不思議なのですが、困っている方、簡単に解決しますので是非この方法をご活用ください。記事投稿日：2019/5/16

NVIDIA Control Panelが見つからない場合の解決方法 | ﾃﾞｨｰﾌﾟﾗｰﾆﾝｸﾞ用に新規にGPUを導入した方へ Read Post »

Raspberry PiでのエッジAIを実現するTPUアクセラレーター “Coral USB Accelerator”

画像のCoralと書かれた小さなUSBメモリーの様なものはなんだと思われますか？これはGoogle製の外付けTPUアクセラレータ “Coral USB Accelerator”です。 Google製の機械学習用プロセッサーTPU関連の製品としてはに、以前シングルボードコンピューターの Coral Dev board をご紹介しましたがhttps://canplay-music.com/2019/03/17/coral-dev-board/ こちらは既存のRaspberry Piに接続して使用します。外付けのGPUの用に使用し、Raspberry PiなどでローカルなAIアプリ開発、機械学習などエッジAIを実現する製品です。対応OSはDebian Linux、フレームワークはTensorFlowのモバイル向けであるTensorFlow Liteとなっております。すでにいくつかCoral向けのTensorFlow Lite Python APIが用意されており、画像認識による鳥の種類の分類などのモデルが提供されています。https://coral.withgoogle.com/docs/edgetpu/api-intro/ まだまだAPIは少ないですが、今後増えて行く事が期待されます。我々としては音楽関連に期待しましょう。（まだMagentaを使用するのはできなそうですが期待します！） Dev Boardはまだまだ入手困難で、なにやらWifIの規格の問題で日本への導入はまだまだ先という話も聞こえてきます。一方こちらのUSB Acceleratorは購入可能です。 https://www.mouser.jp/ProductDetail/Coral/G950-01456-01?qs=u16ybLDytRbcxxqFKdbhgQ%3D%3D ８８００円ほどで導入できるのであれば、Raspberry Piを使用してエッジAI開発をしてみたい！という方にはあまりに魅力的な商品かもしれません。（画像通り相当に小さい様です）ところでGoogle Coralにはこんなキットも用意されています。 Google AIY Voice Kithttps://www.mouser.jp/new/google/google-voice-kit/６０００円ほどで購入可

Raspberry PiでのエッジAIを実現するTPUアクセラレーター “Coral USB Accelerator” Read Post »

第３回 AI・人工知能 EXPO を音楽関連に絞ってレビュー

本日第３回 AI EXPOに参加してきました。本来レビューするつもりはなかったのですが、いくつかAI x 音楽の観点から気が付いた事を（誰も取り上げないと思いますので）書きたいと思います。まずは、会場すごい人でした！AIの注目度がわかる人、人、人、、、と。これは相当な来場者があったのではないかと思います。そして会場入り口に来年の出展の申し込み受付があったのですが、もうほとんど埋まっている状態、、、すごいです！さて、各社の出展内容ですが、画像認識系と、チャットボット系が多くを占めている様に見受けられました。画像認識系は各社それぞれが独自性を競う、チャットボット系はコモディティ化していくのか、低価格のサービスが早くも散見される状態だったと思います。この辺りは他の専門メディアもお伝えすると思いますので我々は音楽系を。 Crimson Technology社のヒーリングミュージック生成サービスとvoidol自動ヒーリングミュージック生成のサービスとリアルタイム音声変換ソフトのVoidolを発表したCrimson Technology社（東京都世田谷区）ヒーリングミュージック生成は、以前ご紹介したEndelhttps://canplay-music.com/2019/03/23/endel-warner/などもあり、最近複数のサービスが立ち上がっています。実は我々の研究でもその結果が出ており、講義でも研究会でも発表しているのですが、ヒーリングミュージックとAI自動生成の相性はかなり良く、現状一般向けの音楽としてはもっとも製品化に向いているジャンルだと思っております。それは他社にとっても同様な様でまずは各社、ヒーリングから取り組んでいるという事なのでしょう。今回のCrimson Technology社に関しては、生成のアルゴリズムに群知能https://ja.wikipedia.org/wiki/%E7%BE%A4%E7%9F%A5%E8%83%BDを活用しているとの事。群知能で音楽生成というのは正直びっくりしたというか意外だったので非常に興味をそそられました。私が群知能について知識不足（興味不足）だった事もあるかと思いますが、これを機会に研究してみたいと思います。実は我々もヒーリングミュージックの生成AIアルゴリズムはある程度完成していて、制作自体はできて

第３回 AI・人工知能 EXPO を音楽関連に絞ってレビュー Read Post »

スマートスピーカーやシンセなどAIコンパクト音楽ハードウェアを自分で作れる？Googleが“ローカルAI”でIoT端末を構築するためのプラットフォーム「Coral」（β）を発表

GoogleがローカルAIでIoT端末を構築するためのプラットフォーム「Coral」（β）を発表しました。開発ボードなど、5種類のハードウェアも同時に発表されています。注目は「Google Edge TPU(TensorFlow Processing Unit)」を搭載したSBC(シングルボードコンピューター)「Dev board」です。AI（TensorFlow)が使用可能なTPU搭載（google製のAI用高速プロセッサー）のRaspberry Piと表現すれば良いでしょうか？音楽関連のサポートも想定されており、コンパクトなハードウェアでどんなAI音楽制作キットが実現できるか？否が応でも期待は高まります。「Coral Dev Board」SoM（システムオンモジュール）として設計されたシングルボードコンピュータ。 昨年10月に発表されたエッジデバイス向けASIC「Edge TPU」、NXPのSoC「i.MX 8M」、Wi-Fi、Bluetooth、1GBのRAM、8GBのeMMCメモリを搭載しています。OSはMendel Linuxをサポートし、言語はPython（C++にも間もなく対応）との事です。価格は149.99ドル（約1万7000円）。 Coral Dev Board スペック表 model Dev board メーカー Google 発売日 2019/03 価格 149.99ドル価格(日本円) （約17,000円） CPU NXP i.MX 8M SOC(4コア) (1.5GHz A53 x 4 + M4F x 1) GPU GC7000 Lite メモリー 1GB LPDDR4 サポートOS Debian 有線LAN 1GbE x 1 Wi-fi 802.11 ac(2×2) Bluetooth 4.1 チップ Google Edge TPU ATECC608A ストレージ 8GB eMMC microSD USB 3.0 x 1 3.0 x 1(type-C) 2.0 x 1(micro for serial) GPIO 40pin x 1 映像 HDMI(2.0a) MIPI-DSI x 1 カメラ MIPI-CSI2 x 1 オーディオジャック 3.5mm x 1 4pin speaker PDM mic x 2 その他インターフェース

スマートスピーカーやシンセなどAIコンパクト音楽ハードウェアを自分で作れる？Googleが“ローカルAI”でIoT端末を構築するためのプラットフォーム「Coral」（β）を発表 Read Post »