新人工智能算法可根据你的语音生成逼真人脸

该算法基于性别、种族和年龄而不是个人特征来近似人脸

你是否曾经在脑海中构建一个你从未见过的人的形象,仅仅基于他们的声音?人工智能(AI)现在可以做到这一点,只需要参考一个简短的音频剪辑就可以生成一个人的数字面部图像。

这台名为Speech2Face的神经网络——一台以类似人类大脑的方式“思考”的电脑——由科学家从互联网上搜集了数百万个教育视频进行训练,这些视频显示了超过10万人在说话。

研究人员在一项新的研究中写道,通过这个数据集,“语音人脸”学会了声音提示与人脸某些身体特征之间的联系。然后,人工智能使用一个音频剪辑来模拟一个与声音匹配的逼真的人脸。

这项研究结果发表在5月23日的在线预印本《jounral arXiv》上,没有经过同行评审。

值得庆幸的是,人工智能还不能仅仅根据一个人的声音就知道他长什么样。研究报告的作者称,神经网络识别出语言中的某些标记,这些标记指向许多人共有的性别、年龄和种族特征。

科学家们写道:“因此,该模型只会生成长相普通的面孔。”“它不会产生特定个体的图像。”

人工智能已经证明,它可以生成异常精确的人脸,尽管它对猫的解释坦率地说有点吓人。

面部表情都是正面的,表情都是中性的,与声音背后的人并不完全匹配。但研究表明,这些照片通常能捕捉到正确的年龄范围、种族和性别。

然而,该算法的解释远非完美。Speech2Face在面对语言变异时表现出“混合表现”。例如,当人工智能听一段亚洲人讲中文的音频剪辑时,程序会生成一张亚洲面孔的图像。然而,当同一名男子在另一段音频中说英语时,人工智能会生成一名白人男子的脸。

该算法还显示出性别偏见,把低沉的声音与男性面孔联系起来,把高音声音与女性面孔联系起来。研究人员写道,由于训练数据集只代表YouTube上的教育视频,它“并不代表全世界人口的平均水平”。

据《Slate》杂志报道,当一名曾出现在YouTube视频中的人惊讶地发现他的肖像被纳入了这项研究时,人们对这一视频数据集的另一个担忧就产生了。旧金山互联网安全公司Cloudflare的密码学主管尼克•沙利文(Nick Sullivan)意外地发现,他的脸是用来训练语音人脸的例子之一(该算法相当近似地复制了这张脸)。

据Slate杂志报道,沙利文并没有同意出现在这项研究中,但人们普遍认为,研究人员可以在不获得额外许可的情况下使用该数据库中的YouTube视频。

最初发表在《生活科学》杂志上。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();