【深度】梅丽莎自述:一家人工智能初创公司对我进行了超现实的深度伪造,效果好得让人害怕

【深度】梅丽莎自述:一家人工智能初创公司对我进行了超现实的深度伪造,效果好得让人害怕

Synthesia 的新技术令人印象深刻,但也引发了人们对这个世界的重大疑问:在这个世界上,我们越来越无法分辨什么是真实的。

我压力很大而且迟到了,因为你在永恒中穿什么? 

这听起来像是我快要死了,但事实恰恰相反。在某种程度上,我将永远活下去,这要感谢人工智能视频初创公司 Synthesia。在过去的几年里,该公司一直在生产人工智能生成的化身,但今天它推出了新一代,这是第一个利用生成人工智能最新进展的产品,它们比我见过的任何东西都更加真实和富有表现力。虽然今天的发布意味着现在几乎任何人都可以制作数字替身,但在四月初的下午,在该技术公开之前,他们已经同意制作我中的一个。 

当我终于到达该公司位于伦敦东部的时尚工作室时,迎接我的是该公司的制作主管 Tosin Oshinyemi。他将指导我完成数据收集过程,我所说的“数据收集”是指捕捉我的面部特征、举止等,就像他通常为演员和 Synthesia 的客户所做的那样。 

在这段人工智能生成的镜头中,合成的“梅丽莎”表演了哈姆雷特著名的独白。 (该杂志没有参与制作该视频。)

他向我介绍了一位等候的造型师和化妆师,我咒骂自己浪费了这么多时间准备。他们的工作是确保人们的衣服在镜头上看起来很漂亮,并且从一个镜头到下一个镜头看起来都一致。造型师告诉我我的衣服很好(唷),化妆师修饰我的脸并整理我的婴儿头发。更衣室里装饰着数百张微笑的宝丽来照片,照片上的人都是在我面前被数字克隆的。 

除了走廊里呼呼作响的小型超级计算机负责处理演播室生成的数据之外,这里感觉更像是进入新闻演播室,而不是进入深度造假工厂。 

我开玩笑说 Oshinyemi 拥有《麻省理工科技评论》可能称之为未来的职位:“深度伪造创作总监”。 

“我们喜欢‘合成媒体’这个词,而不是‘深度伪造’,”他说。 

这是一个微妙的,但有些人会认为,语义上的显着差异。两者都指人工智能生成的视频或录音,记录人们所做或所说的事情,这些事情在现实生活中不一定发生。但深度造假的名声并不好。 Synthesia 的企业事务和政策主管 Alexandru Voica 表示,自近十年前诞生以来,这个词就已经开始暗示着不道德的事情。想想未经同意而制作的色情内容,或传播虚假信息或宣传的政治运动。

“合成媒体是更良性、更有成效的版本,”他认为。 Synthesia 希望提供该版本的最佳版本。  

到目前为止,所有人工智能生成的人物视频往往都存在一些僵硬、故障或其他不自然的元素,这使得它们很容易与现实区分开来。因为它们非常接近真实的事物,但又不完全 真实,这些视频会让人们感到恼怒、不安或恶心——这种现象通常被称为“恐怖谷”。 Synthesia 声称其新技术最终将带领我们走出低谷。 

得益于生成式人工智能的快速进步,以及人类演员创建的大量训练数据已被输入到其人工智能模型中,Synthesia 已经能够生产出比前辈更人性化、更具表现力的化身。数字克隆人能够更好地将他们的反应和语调与脚本的情感相匹配——例如,在谈论快乐的事情时表现得更加乐观,在谈论不愉快的事情时表现得更加严肃或悲伤。它们还能更好地匹配面部表情——无需言语就能为我们说话的微小动作。 

但这种技术进步也标志着更大的社会和文化转变。我们在屏幕上看到的越来越多的内容都是由人工智能生成(或至少修改)的,区分真假变得越来越困难。这威胁到我们对所见一切的信任,这可能会产生非常真实、非常危险的后果。 

牛津互联网研究所教授桑德拉·瓦赫特 (Sandra Wachter) 表示:“我认为我们可能不得不告别快速查明真相​​的时代了。”她研究人工智能的法律和道德影响。 “你可以快速谷歌搜索一些东西,然后知道什么是事实,什么是虚构的想法——我认为它不再像那样了。” 

该公司的制作主管 Tosin Oshinyemi 负责指导演员和客户完成数据收集过程。

因此,虽然我对 Synthesia 制作我的数字替身感到兴奋,但我也想知道合成媒体和深度伪造之间的区别是否从根本上来说毫无意义。即使前者以创作者的意图为中心,更重要的是,以受试者的同意为中心,如果最终结果相同,真的有办法安全地制作人工智能化身吗?如果这意味着我们无法再掌握真相,我们真的想走出恐怖谷吗?

但更紧迫的是,是时候了解一下看到后真相版本的自己是什么感觉了。

几乎是真的

在我去工作室的前一个月,我拜访了 Synthesia 首席执行官 Victor Riparbelli,他的办公室位于牛津广场附近。正如 Riparbelli 所说,Synthesia 的起源故事源于他在丹麦长大时探索前卫、极客科技音乐的经历。互联网使他能够下载软件并制作自己的歌曲,而无需购买昂贵的合成器。 

他告诉我:“我坚信应该赋予人们以自己所能的方式表达自己的能力,因为我认为这会创造一个更加精英化的世界。” 

当他发现使用深度学习将表情从屏幕上的一张人脸转移到另一张人脸的 研究时,他看到了用视频做类似事情的可能性。

“这展示了深度学习网络第一次可以生成看起来和感觉真实的视频帧,”他说。 

这项研究是由慕尼黑工业大学教授 Matthias Niessner 进行的,他于 2017 年与 Riparbelli 共同创立了 Synthesia,此外伦敦大学学院教授 Lourdes Agapito 和 Steffen Tjerrild(Riparbelli 此前曾与 Steffen Tjerrild 合作过一个加密货币项目)。 

最初,该公司为娱乐行业打造口型同步和配音工具,但发现该技术的质量门槛非常高,而且需求并不大。 Synthesia 在 2020 年改变了方向,为企业客户推出了第一代 AI 化身。这一转变得到了回报。 2023 年,Synthesia 获得了独角兽地位,这意味着它的估值超过 10 亿美元,使其成为相对少数获得这一地位的欧洲人工智能公司之一。 

第一代的化身看起来很笨重,动作呈环形,变化很小。随后的迭代开始看起来更加人性化,但他们仍然很难说出复杂的单词,而且事情有点不同步。 

挑战在于人们习惯于看别人的脸。 “作为人类,我们知道真正的人类会做什么,”Synthesia 的首席技术官 Jonathan Starck 说道。从婴儿期起,“你就真的很容易适应人和面孔。你知道什么是正确的,所以任何不正确的事情都会让人大吃一惊。” 

这些早期的人工智能生成的视频,就像更广泛的深度伪造视频一样,是使用生成对抗网络(GAN)制作的,这是一种使用两个相互影响的神经网络生成图像和视频的较旧技术。这是一个费力而复杂的过程,而且技术不稳定。 

但在去年左右的生成式人工智能热潮中,该公司发现它可以使用生成式神经网络创建更好的化身,从而更一致地产生更高的质量。这些模型输入的数据越多,它们学得就越好。 Synthesia 使用大型语言模型和扩散模型来做到这一点;前者帮助化身对脚本做出反应,后者生成像素。 

尽管质量有了飞跃,该公司仍然没有将自己推向娱乐业。 Synthesia 继续将自己视为企业平台。它的赌注是:随着人们花更多时间在 YouTube 和 TikTok 上观看视频,对视频内容的需求将会增加。年轻人已经跳过传统搜索,默认使用 TikTok 来获取以视频形式呈现的信息。 Riparbelli 认为,Synthesia 的技术可以帮助公司将枯燥的企业通讯、报告和培训材料转化为人们真正会观看和参与的内容。他还建议它可以用来制作营销材料。 

他声称财富 100 强企业中有 56% 使用 Synthesia 的技术,其中绝大多数公司使用它进行内部通信。该公司将 Zoom、施乐、微软和路透社列为客户。服务起价为每月 22 美元。

该公司希望,这将成为专业制作公司视频的一种更便宜、更高效的替代方案,而且两者几乎没有区别。里帕尔贝利告诉我,它最新的化身很容易让人误以为它们是真实的。 

“我认为我们已经做到了 98%,”他说。 

无论好坏,我都将亲眼目睹。