音声・波形合成

Travis Scottの楽曲を機械学習したAIラッパー “TravisBott” のJack Park Canny Dope Man

ウェブサイト制作やApp制作などを手掛けるアメリカのテック企業space 150 https://www.space150.com/ がTravis Scottの楽曲を機械学習させ生成した楽曲 ”Jack Park Canny Dope Man” をリリースしました。 デジタル処理が施されたMVのラッパーはTravisBottと名付けられています。 メロディー(なのでしょう、、、)だけでなくリリックも学習し生成されている様です。ただしトラックについては言及されていないのでそれはAIによる生成か、人の手によるものかは不明です。またアルゴリズムも不明です。(個人的にはアルゴリズムについて言及されていないものはあまり真には受けないのですが、、、、) リリックについては、以前投稿したこちらもご参照ください。(コードもあります) Rapを学習し自動リリック生成するAIのプログラムでKanye Westを学習させたらこんなリリックできましたhttps://canplay-music.com/2018/12/29/ai-lyrics/ Space150のディレクターであるNed Lampertはこのプロジェクトについて、Adweek(メディア)にリリック生成について面白いコメントをしていました。 「トラヴィスのAIは最初の頃、食べ物についてのリリックを生成し続けていた」例えば「I don’t want to fuck your party food」などだ との事です。 以前からお話している通り、ブレークビーツ、サンプリング、と他の楽曲をある種データとして”貪欲”に(とポジティブに表現しておきます)活用するのがヒップホップの歴史であり特徴です。近年のタイプビーツの例からも予想されますが、AI音楽のポップミュージック領域での活用例はヒップホップから始まる可能性も大いにあるのでは?と感じています。 ちなみにMVに出てくるコード。どんなアルゴリムか読み取ろうとしましたが、ただのsql(データベース)の操作。。。。。AIではありませんでした。。。。。 TravisBottの歌詞はこちらで確認していただけます。 https://genius.com/Travisbott-jack-park-canny-dope-man-lyrics

Travis Scottの楽曲を機械学習したAIラッパー “TravisBott” のJack Park Canny Dope Man Read Post »

Spotifyのレコメンデーションエンジンの機械学習アルゴリズムについて解説します

Spotifyが機械学習のエンジニアにスタート年俸10万ドル!というオファーで人材募集をしています。 その募集ページの中にありましたが(現在は表記がないかもしれませんが、、、) Right ads to the right users to the right time 正しい広告を正しいユーザーに正しい時間に届ける まさにそのために活用されるのが機械学習であり、力を入れていきたいとSpoifyは明言しています。それゆえもっとも求められる人材が機械学習エンジニアという事なのでしょう。 機械学習活用の中心領域となるであろうレコメンデーションエンジン。Spotifyのレコメンデーションエンジンの機械学習活用にについて調べていたところ、面白い記事を見つけたので日本語にして解説します。 Spotifyでは現在、レコメンデーションエンジンのために3つのアルゴリズムを組み合わせて使用している様です。 ・協調フィルタリング・自然言語処理 ・オーディオモデル解析 協調フィルタリング すでに多くのECサイトなどで活用されているのでお馴染みかもしれません。同じ消費や嗜好の傾向を持つユーザーのデータをもとに他の同傾向のユーザーへのレコメンドを行うというアルゴリズムです。非常に簡単に説明すると、「同じ好みのAが所持している商品のうち、Bが所持していないものは、Bも欲しいと思うはずなのでレコメンドする」と言う様な事が行われるのだと思っていただいて良いでしょう。 Spotifyでも同様で、相関性の高いリスナーが聞いている相関性の高い楽曲をレコメンデーションします。実際は複雑なモデルとなっているはずですが、ここでは非常に簡単な図で基本的な概念を説明してみましょう。 ○は聞いた楽曲ーはレコメンドされたけれども聞かなかった楽曲空欄はレコメンドもされていない未聴の楽曲 Aに楽曲のレコメンドをする場合、Aのリスニングデータを元に相関性のあるリスナーを探します。聞いた楽曲と聴かなかった楽曲の共通割合から相関性を求めます。図でいうと0.5以上の相関性、つまりCとDを相関性のあるリスナーとしましょう。Aが聞いていない未聴の楽曲で、CとDが聞いている楽曲のうち、C、D共に聞いているSong7は相関性1.0とする。Song7はAが気に入る可能性は高い。と言う事でAにレコメンドされる。この様な流れとなります。 自

Spotifyのレコメンデーションエンジンの機械学習アルゴリズムについて解説します Read Post »

ボーカロイドの元祖!?世界で初めてコンピュータが歌った音楽 | Max Matthewsによる1961年のデイジーベル

現在でこそボーカロイドで誰もが当たり前に知る様になったコンピュータによる歌唱。AI時代の今は有名人の歌声に自分の歌声を変換するプログラムや、自分の声のまま、発した言葉を訂正してくれるとプログラムまで登場し始めています。 この音声合成による歌声を初めて採用した楽曲が1961年、コンピュータ音楽の生みの親とも言われるMax Mathewsのデイジー・ベルです。(別名Bycycle for Two:2人乗りの自転車とも呼ばれます) いかがですか? デイジー・ベル (Daisy Bell) は、ポピュラーソングのスタンダードナンバーの1曲で、イギリスのシンガーソングライター、ハリー・ダクレ (Harry Dacre) が1892年に作詞作曲。ミュージックホール歌手のケイティー・ローレンス (Katie Lawrence) が歌ったことで有名となりました。 Max Matthewsによる世界で初めてのコンピュータ歌唱音楽はこのデイジー・ベルが採用されています。 Max Matthewsのデイジー・ベル詳細1961年、ベル研究所のコンピュータIBM7090(当時の価格で約290万ドル!)を使用し、Max Matthewsが音楽をプログラミング。コンピュータによる歌声部分以外の歌はジョン・ケリーさんとキャロル・ロックボームさんが歌っています。ちなみにお2人はプロの歌手などではなくベル研究所の職員さんの様です。 Max Matthews(canplayのMu-Tech講義資料より抜粋) アメリカ合衆国ネブラスカ州生まれの科学者、発明家、音楽家で、コンピュータミュージックのパイオニアの一人。 カリフォルニア工科大学およびマサチューセッツ工科大学にて学び、1954年に科学博士を取得の後、ベル研究所に勤め、音響生成に広く用いられた音楽プログラミング言語MUSIC-Nシリーズ(1957年-)を開発する。 その後、デジタルオーディオや音響合成の分野、楽器演奏に付随するマンマシンインタフェースの研究分野において、第一人者として活躍した。 1974年から1980年まではフランス国立音響音楽研究所(IRCAM)の科学アドヴァイザーを務め、1987年以降はスタンフォード大学にて教授を務めていた。 本講義でも取り上げるMAXの名前の由来となっている。 2001年宇宙の旅でHAL9000が歌うこのMa

ボーカロイドの元祖!?世界で初めてコンピュータが歌った音楽 | Max Matthewsによる1961年のデイジーベル Read Post »

リアルタイム音声変換ソフト、Voidol Mac版が本日より960円で発売開始!

クリムゾンテクノロジー社がリアルタイム音声変換ソフト、VoidolのMac版を本日より発売開始しました。通常価格は2,000円ですが、2019年7月まではキャンペーン価格の960円での販売との事です。 https://itunes.apple.com/jp/app/voidol/id1456342457?l=ja&mt=12 現在はMAC版のみとの事ですが、5〜6月にはWindows版の発売も予定されている様です。 ボーカロイドのボイスの様にキャラ付きのボイスバンク形式になっており標準ではくりむ蔵と音宮いろはという2種類のボイスが付属。 やはりボーカロイドと同様追加のボイスも発売されていく様ですね。 高度な変換や音楽用途で使用、、、はできないかもしれませんがvtuberなどにお気軽に使用するには非常に魅力的なソフトとなっています。 以前canplayの講義やAI自動作曲研究LABでもお伝えしましたが 音声合成手軽に 国情研、学習データ1時間のAI開発https://canplay-music.com/2019/01/08/voice-synthesize/ Deep Learningを使用して自分の声を有名人の声に変換https://canplay-music.com/2019/01/01/voice-change/ この分野は熱いですね! 我々も今後も研究し続けます!

リアルタイム音声変換ソフト、Voidol Mac版が本日より960円で発売開始! Read Post »

動画の演奏楽器をクリックするとその音だけを聞ける! | MITの研究チームが動画から特定の楽器音を抽出するプログラムを作成

MITの研究チームが動画から特定の楽器音を抽出するプログラムThe Sound Of Pixelsを作成しました。 まずは動画をご覧ください。 いかがですか。 複数楽器が演奏されている動画の中の、特定の楽器をクリックするとその楽器の音だけが抽出されるという事です。面白いですね。 動画にもありますが、複数混在している楽器音が、動画内空間のどの方向から発音されているのかを認識し、抽出できるらしいです。すごいですね! 今はまだデュエット(2つの楽器音)までしか試みされていない様ですが、今後は多数の楽器演奏の中から特定の楽器の発音の場所を特定し、抽出する事もできるかもしれません。3次元的に波形がビジュアル化されるとそれだけで面白い映像作品になりそうです。 音を視覚的に認知できる、新しい表現方法良いですね。 波形領域でのAI音楽の活用、さらに今後も注目です!

動画の演奏楽器をクリックするとその音だけを聞ける! | MITの研究チームが動画から特定の楽器音を抽出するプログラムを作成 Read Post »