字节跳动的人工智能新突破:让照片“活”起来
字节跳动,这家以抖音闻名的中国科技巨头,最近发布了一项令人惊叹的人工智能技术——X-Portrait 2。这项技术能够将任何照片转化为逼真的视频表演,赋予静态图像以微妙的表情和情感深度,其效果甚至可以与真实画面相媲美。
X-Portrait 2 的演示令人叹为观止。它可以将静态照片演绎出经典电影中的标志性场景,例如《闪灵》、《变脸》和《围墙》,完美地捕捉到原始表演中的每一个细微表情。一张简单的照片,现在可以展现出恐惧、愤怒或喜悦,其细节之逼真,如同训练有素的演员,同时又保留了人物的原始身份和特征。
这项突破的出现,正值社会对数字虚假信息和美国总统大选后遗症的担忧日益加剧之时。X-Portrait 2 能够从任何照片中生成与现实难以区分的视频,这引发了人们的严重担忧。以往的人工智能动画工具生成的画面往往带有明显的机械感,而字节跳动的新系统则能够捕捉到面部肌肉的自然流动、微妙的眼部动作以及复杂的表情,这些都是人类面部独具特色的表达方式。
字节跳动是如何实现这种逼真效果的呢?答案在于其创新性的方法。与大多数动画软件使用的传统方法不同,X-Portrait 2 并非追踪面部上的特定点,而是观察和学习完整的面部运动。以往的系统通过连接点来生成表情,而 X-Portrait 2 则能够捕捉到整个面部的流畅运动,即使是在快速说话或从不同角度观看时也是如此。
X-Portrait 2 展示了其在不同视觉风格下的多功能性。一张驾驶的照片(左上角)可以被转化为匹配另一个人表情的视频(右上角),同时,这项技术还可以生成动漫风格的插画(左下角)和绘画风格的肖像(右下角),所有这些都保持着一致的面部表情。(图片来源:字节跳动)
字节跳动之所以能够取得如此成就,与其作为抖音的母公司,每天处理超过十亿条用户生成视频的独特优势密不可分。海量的面部表情、动作和情感数据为其人工智能模型提供了其他公司无法比拟的训练数据。当竞争对手依赖于有限的数据集或合成数据时,字节跳动可以利用来自不同面孔、光照条件和相机角度的真实世界表情来微调其人工智能模型。
X-Portrait 2 的发布,恰逢字节跳动将人工智能研究扩展到中国以外的时期。该公司正在欧洲建立新的研究中心,瑞士、英国和法国都是潜在的落户地点。计划在马来西亚建设一个价值 21.3 亿美元的人工智能中心,以及与清华大学的合作,表明了字节跳动在多个大陆建立人工智能专家的战略。
在西方市场,字节跳动正面临着监管审查,包括加拿大最近要求抖音停止运营以及美国正在进行的关于限制措施的辩论。然而,该公司仍在不断提升其技术能力。
X-Portrait 2 的出现,对动画行业的影响远不止技术上的突破。目前,大型工作室在动作捕捉设备上花费数百万美元,并雇佣数百名动画师来制作逼真的面部表情。X-Portrait 2 预示着未来,一张照片和一段参考视频就能取代大部分基础设施。
这种转变发生在关于人工智能生成内容和数字权利的争论日益激烈之时。当竞争对手争先恐后地公开发布其代码时,字节跳动却将 X-Portrait 2 的实现细节保密,这一决定反映了人们对人工智能工具可能被滥用来创建未经授权的表演或误导性内容的日益增长的认识。
字节跳动专注于人类运动和表情,这与其他人工智能公司的发展方向截然不同。当 OpenAI 和 Anthropic 等公司专注于语言处理时,字节跳动则依托其核心优势:理解人们在镜头前如何移动和表达自己。这种专业化直接源于抖音多年来对舞蹈趋势和面部表情的分析。
这种对人类运动的重视,可能比目前的市场分析所表明的更为重要。随着工作和社交活动越来越多地转移到虚拟空间,能够准确捕捉和传递人类情感的技术变得至关重要。字节跳动的进步使其能够影响人们在数字环境中的互动方式,从商务会议到娱乐活动。
今年 10 月,字节跳动解雇了一名实习生,原因是他涉嫌干扰人工智能模型的训练,这突出了人工智能开发中一个经常被忽视的方面:内部安全。随着模型变得越来越复杂,保护它们免受篡改变得越来越重要。
这项技术的出现,正值对人工智能生成视频内容的需求在娱乐、教育和商业沟通领域不断上升之时。虽然 X-Portrait 2 在保持一致身份的同时传递细微表情方面取得了重大技术进步,但也引发了人们对人工智能生成内容的认证和验证的质疑。
当西方政府审查中国科技公司时,字节跳动在人工智能动画领域的进步展现了一个复杂的现实:创新无国界,我们在线互动方式的未来可能由远离硅谷的技术所塑造。