爱科技网

这个开源的AI工具可以快速隔离任何歌曲中的人声

对于制作人,DJ以及任何想使用隔离音频进行演奏的人来说,将歌曲拆分为单独的人声和乐器一直是头疼的问题。有很多方法可以执行此操作,但是该过程可能很耗时,并且结果通常不完美。新的开源AI工具使这项棘手的任务变得更快,更轻松。

该软件称为Spleeter,由音乐流媒体服务Deezer为研究目的而开发。昨天,该公司以开源软件包的形式发布了该代码,并将代码放在Github上,供任何人下载和使用。只需向Spleeter提供一个音频文件,它就会将Spleets分为两个,四个或五个独立的音轨,称为茎。结果并不完美,但是非常有用,Spleeter本身非常快。在专用GPU上运行时,它可以将音频文件分成四个茎,比实时速度快100倍。

技术专家Andy Baio撰写了一篇有关Spleeter的出色博客文章,其中包含许多自己的例子。Baio表示,该软件产生的孤立人声“有时会获得机器人自动调整的感觉,但相对于其他解决方案,其出血量却令人震惊地低。”

该工具似乎功能强大,但请注意:您需要一些技术知识才能使用它。除非您定期使用Python或Google的AI工具包TensorFlow(用于训练Spleeter)之类的软件,否则必须下载一些程序才能启动和运行Spleeter。而且,您将不得不使用命令行输入(尽管非常简单)而不是更易于访问的可视界面。

Deezer指出,这不是人们第一次使用机器学习来自动执行此特定任务,并且该公司已建立在许多早期研究的基础上。Deezer的首席数据和研究官Aurelien Herault在通过电子邮件对The Verge讲话时说,该公司在20,000种音乐曲目上使用各种类型的预分离人声对其软件进行了培训。通过此信息,该软件学习了如何隔离轨道本身。

总体而言,Spleeter是另一个出色的例子,说明了AI工具如何使复杂的创意工作变得更简单。机器学习目前正用于自动执行一系列耗时的任务,从删除图片上的背景到升级旧视频游戏中的纹理。从Adobe的Photoshop到Runway ML之类的新竞争者,这些工具越来越多地被并入消费软件。

Deezer说,它没有计划将Spleeter变成一个消费工具,但是其他人可以承担他们的工作,并在其上打一个简单的界面。对于希望将孤立的人声整合到混音中的DJ和制作人,或者对于希望创建自制卡拉OK伴奏音轨的人来说,显而易见的应用是它们。(根据最终产品的分发方式,此类活动可能不符合版权法。)

Deezer本身将Spleeter用于一系列研究应用程序,以帮助改善其流媒体服务。“在内部,我们将其用作预处理工具,以完成诸如音乐分类,转录和语言检测之类的复杂研究任务,” Herault说。