微软亚洲研究院推出VASA-1工具可以将照片变成视频
在人工智能技术不断演进的今天,微软亚洲研究院推出了一款名为 VASA-1 的新型实验性人工智能工具,引发了广泛的关注和热议。这款工具能够实时创建栩栩如生的说话面孔,只需一张静态图像或一幅绘画以及现有的音频文件即可。然而,尽管该技术展示出了惊人的潜力,但也引发了人们对其潜在滥用的担忧。
VASA-1 的功能似乎令人难以置信,它可以为静态图像生成面部表情和头部动作,并匹配适当的嘴唇动作。研究人员上传了大量示例,这些示例足以欺骗人们认为它们是真实的。然而,仔细观察后可以发现,示例中的嘴唇和头部动作仍然有些机械化且不同步,暗示着这项技术仍处于发展阶段。
尽管如此,人们对 VASA-1 的滥用潜力感到担忧。研究人员已经意识到这一点,并决定暂时不发布相关产品,直到确定他们的技术将被负责任地使用并符合适当的规定。然而,他们并未透露是否计划实施某些保护措施,以防止不良行为者将其用于邪恶目的,例如制作深度伪造色情或错误信息活动。
据铋读网了解,研究人员仍然相信 VASA-1 的技术具有许多潜在的好处。他们表示,该技术可以用于增强教育公平,改善沟通障碍者的可及性,并为有需要的人提供陪伴和治疗支持。此外,他们还暗示 VASA-1 可以用于提供与人们可以交谈的人工智能角色的程序。
根据公布的论文,VASA-1 在 VoxCeleb2 数据集上进行了训练,该数据集包含了超过 100 万条来自 YouTube 视频的话语,涉及 6,112 名名人。尽管该工具是在真实面孔上进行训练的,但据称它也适用于艺术照片,例如《蒙娜丽莎》。研究人员甚至将其与安妮·海瑟薇病毒式传播的李尔·韦恩《狗仔队》的音频文件有趣地结合在一起,展示了其令人愉悦的效果。