近年来,一个人工智能克隆某人的声音所需的聆听时间越来越短。
过去是几分钟,现在只有几秒钟。
病毒式生成式人工智能聊天机器人 ChatGPT 背后的Microsoft支持公司 OpenAI 最近透露,它自己的语音克隆技术只需要 15 秒的音频材料即可再现某人的声音。
在其网站上的一篇文章中,OpenAI 分享了一个名为 Voice Engine 的模型的小规模预览,该模型自 2022 年底以来一直在开发。
语音引擎的工作原理是向其提供至少 15 秒的语音材料。然后,用户能够输入文本来创建OpenAI所描述的“情感和现实”语音,该语音“与原始说话者非常相似”。
OpenAI坚称,由于合成语音可能被滥用,它正在采取“谨慎和知情的方法进行更广泛的发布”,并补充说,它希望“就合成语音的负责任部署以及社会如何适应这些新功能展开对话”。
它补充说:“根据这些对话和这些小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决定。
OpenAI 所指的滥用之一是一些犯罪分子已经在使用已经公开了一段时间的类似技术进行的骗局。它涉及克隆一个声音,然后打电话给该人的朋友或亲戚,诱骗他们通过银行转账交出现金。人们还担心这种技术可能会在即将到来的总统选举中使用,最近发生的一起备受瞩目的事件凸显了这个问题,在该事件中,一个机器人使用乔·拜登总统的声音克隆告诉人们不要在 1 月份的新罕布什尔州初选中投票。
另一个担忧是,快速改进的技术将如何影响配音演员的生计,他们担心他们会越来越多地被要求签署他们的声音权利,以便人工智能可以用来创造一个合成版本,这种合同的报酬可能远低于要求演员亲自执行工作。
考虑到该技术的更积极部署,OpenAI建议它可以用来为非读者和儿童提供阅读帮助,使用听起来自然、情绪化的声音,“代表比预设声音更广泛的说话者”,以及视频和播客的即时翻译,Spotify已经在尝试。
它也可以用来帮助那些因疾病而逐渐失去声音的患者继续使用听起来像他们自己的声音进行交流。
OpenAI 在其网站上有一些 AI 生成的音频和参考音频的例子,我们相信你会同意,它们非常出色。
支付宝扫一扫
微信扫一扫