支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇
时间:2023-07-03 13:39:22来源:机器之心

AI 参与的语音世界真神奇,既可以将一个人的语音换成任何其他人的语音,也可以与动物之间的语音互换。

我们知道,语音转换的目标是将源语音转换为目标语音,并保持内容不变。最近的任意到任意(any-to-any)语音转换方法提高了自然度和说话者相似度,但复杂性却大大增加了。这意味着训练和推理的成本变得更高,使得改进效果难以评估和建立。


(资料图)

问题来了,高质量的语音转换需要复杂性吗?在近日南非斯坦陵布什大学的一篇论文中,几位研究者探究了这个问题。

论文地址:https://arxiv.org/pdf/2305.18975.pdfGitHub 地址:https://bshall.github.io/knn-vc/

研究亮点在于:他们引入了 K 最近邻语音转换(kNN-VC),一种简单而强大的任意到任意语音转换方法。在过程中不训练显式转换模型,而是简单地使用了 K 最近邻回归。

具体而言,研究者首先使用自监督语音表示模型来提取源话语和参照话语的特征序列,然后通过将源表示的每个帧替换为参照中的最近邻来转换成目标说话者,最后使用神经声码器对转换后的特征进行合成以获得转换后的语音。

从结果来看,尽管 KNN-VC 很简单,但与几个基线语音转换系统相比,它在主观和客观评估中都能媲美甚至提高了清晰度和说话者相似度。

我们来欣赏一下 KNN-VC 语音转换的效果。先来看人声转换,将 KNN-VC 应用于 LibriSpeech 数据集中未见过的源说话者和目标说话者。

源语音00:11

合成语音100:11

合成语音200:11

KNN-VC 还支持了跨语言语音转换,比如西班牙语到德语、德语到日语、汉语到西班牙语。

源汉语00:08

目标西班牙语00:05

合成语音300:08

更令人称奇的是,KNN-VC 还能将人声与狗吠声互换。

源狗吠00:09

源人声00:05

合成语音400:08

合成语音500:05

我们接下来看 KNN-VC 如何运行以及与其他 jixian 方法的比较结果。

方法概览及实验结果

kNN-VC 的架构图如下所示,遵循了编码器 - 转换器 - 声码器结构。首先编码器提取源语音和参照语音的自监督表示,然后转换器将每个源帧映射到参照中它们的最近邻,最后声码器根据转换后的特征生成音频波形。

其中编码器采用 WavLM,转化器采用 K 最近邻回归、声码器采用 HiFiGAN。唯一需要训练的组件是声码器。

对于 WavLM 编码器,研究者只使用预训练的 WavLM-Large 模型,并在文中不对它做任何训练。对于 kNN 转换模型,kNN 是非参数,不需要任何训练。对于 HiFiGAN 声码器,采用原始 HiFiGAN 作者的 repo 对 WavLM 特征进行声码处理,成为唯一需要训练的部分。

图片

在实验中,研究者首先将 KNN-VC 与其他基线方法进行比较,使用了最大可用目标数据(每个说话者大约 8 分钟的音频)来测试语音转换系统。

对于 KNN-VC,研究者使用所有目标数据作为匹配集。对于基线方法,他们对每个目标话语的说话者嵌入求平均。

下表 1 报告了每个模型的清晰度、自然度和说话者相似度的结果。可以看到,kNN-VC 实现了与最佳基线 FreeVC 相似的自然度和清晰度,但说话者相似度却显著提高了。这也印证了本文的论断:高质量的语音转换不需要增加复杂性。

此外,研究者想要了解有多少改进得益于在预匹配数据上训练的 HiFi-GAN,以及目标说话者数据大小对清晰度和说话者相似度的影响有多大。

下图 2 展示了两种 HiFi-GAN 变体在不同目标说话者大小时的 WER(越小越好)和 EER(越高越好)关系图。

图片

网友热评

对于这个「仅利用最近邻」的语音转换新方法 kNN-VC,有人认为,文中使用了预训练语音模型,因此用「仅」不太准确。但不可否认,kNN-VC 仍然要比其他模型简单。

结果也证明了,与非常复杂的任意到任意语音转换方法相比,kNN-VC 即便不是最好,也同样有效。

图片

还有人表示,人声与狗吠互换的例子非常有趣。

图片

标签:

生活指南
  • 全球聚焦:山东路桥:6月30日融资买入195.3万元,融资融券余额1.41亿元

    6月30日,山东路桥(000498)融资买入195 3万元,融资偿还230 68万元,

  • 即时:杨幂的身材写真图集 这估计是杨幂出道以来最美的泳装照了

    hello大家好,我是城乡经济网小晟来为大家解答以上问题,杨幂的身材写

  • 长安逸动黑色是什么漆?长安逸动白色是什么漆?

    长安逸动黑色是什么漆逸动plus黑色的是采用了金属漆,金属漆的光泽更

  • 世界热讯:房屋买卖中介费由谁出 多层二楼反水严重吗

    房屋买卖中介费由谁出房屋中介费由委托方出,双方有约定的按照约定

  • 天天头条:满洲是现在哪个城市?满洲国是中国还是日本?

    满洲是现在哪个城市?满洲是指现在的辽宁、吉林和黑龙江三省全境,再

  • 两融账户是什么类型的账户?两融账户杠杆多少倍?

    两融账户是什么类型的账户?两融账户就是可满足两融业务交易的账户

  • 山东入汛以来首场大范围降雨基本结束,平均降水量30.4毫米

    近日,受副高边缘西南暖湿气流和西风槽共同影响,山东自西向东迎入汛以

  • 办visa卡到底需要看征信吗?办visa卡需要什么资料学生?

    办visa卡到底需要看征信吗?办visa卡需不需要查看征信主要取决于用户

  • 什么是光脚阳线说明了什么?出现光脚阳线股价走势如何?

    最近小编看到很多人在搜索股市光脚阳线的相关内容,小编呢对此也是

  • 炸鸡翅正宗做法?

    步骤 方式1500克鸡翅洗净切花刀步骤 方式2将鸡翅放入碗中,加入适量葱

  • 钟南山与学生合照时意外被亲 钟南山在广州那个医院什么科?-全球今日报

    钟南山与学生合照时意外被亲6月26日上午10时,广州医科大学2023年本

  • 大雪压青松青松挺且直全诗硬笔书法 大雪压青松青松挺且直全诗

    1、大雪压青松青松挺且直的繁体字。相信通过大雪压青松青松挺且直全诗

  • 全球实时:乐享民俗,繁幼儿园高院分园开展端午节主题活动

    又是一年粽叶飘香,为了让孩子们感受端午节丰富的文化内涵,感受中国传

  • 世界快消息!考生查完分手舞足蹈跪地大喊,比分数线高130分,妈妈惊醒淡定坐起

    6月24日,辽宁辽阳。姚同学查到高考分数跪地大喊,睡觉的妈妈被吵醒后

  • 路由器哪个牌子最好信号最稳定?家用wifi路由器怎么选择好一点?_天天快讯

    路由器哪个牌子最好信号最稳定?目前最好的路由器牌子有网件(NETGEAR

  • 股票换手率20以上说明什么?股票换手率高说明什么情况?

    股票换手率20以上说明什么?股票换手率达到40%以上是否是洗盘具体要

  • 民生
    • 塔城特色商品走进沈阳活动启动

    • 环球新资讯:外汇“黄牛”再现江湖!找黄牛兑换外汇违法吗?

    • 美白祛痘喝什么茶好?怎么把脸上的痘印去掉? 每日热文

    • 陈建州再遭性骚扰指控,尺度越来越大,即便范玮琪怀孕也未曾收敛