腾讯推出的M2UGen是一款多模态音乐生成框架,结合音乐和多模态任务,支持从文字、图像、视频生成音乐,并具备强大的编辑功能。
【AiBase提要:】DeWave局限性
正如我们在文章《达播、店播双爆发,淘宝开始两条腿走路》中所说,淘宝多年积累的消费心智,让不少品牌相信“淘宝天猫是品牌的终点”,淘宝独有的以店铺为核心的商家经营体系,以及淘宝内容化带来的流量增量,则让淘宝店播仍然有着相当的红利可以挖掘。
除了可以从文字生成音乐外,它还支持图像、视频和音频生成音乐,并且还可以编辑已有的音乐。该项目利用了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。用户可以轻松移除或替换特定乐器,调整音乐的节奏和速度。这使得用户能够创造出符合其独特创意的音乐作品。