奥本 AI 将所有的最新 AI 聚合到了一起,为您开启多模型 AI 绘画新时代!

扫码即刻关注公众号

TikTok(字节跳动)新的 AI 动画工具令人震惊


7 个月前

TikTok(字节跳动)的新AI动画工具令人震惊最近,AI视频生成器在科技新闻中占据了主导地位,特别是在OpenAI宣布Sora——他们首个能够通过简单文本提示生成令人惊叹的AI视频的模型之后。

今天,字节跳动(TikTok的母公司)也开始参与这一领域。他们推出了Boximator,一个可以将静态图片转化为视频的工具。

什么是Boximator?

Boximator结合了“box”和“animator”两个词,描述其功能:通过用户定义的框来动画化视频中的物体。该工具旨在使用户能够控制视频中物体的运动,提供了一种硬框和软框的混合选择,以进行运动控制。硬框允许精确的物体轮廓,而软框则能够实现更流畅的运动路径。

在上面的例子中,所有的边界框都被投影到裁剪区域(白色虚线框)中。

Boximator 的工作原理

以下是视频生成的步骤:

  • 对于数据集中每个剪辑,使用第一帧生成图像描述,采用视觉语言模型。
  • 然后,从这些描述中提取名词短语,比如“年轻男子”或“白衬衫”。
  • 这些提示被输入到一个预训练的定位模型和物体跟踪器中,以生成边界框并将其填充到视频的所有帧中。Boximator的完整架构模型如下所示。在视频扩散模型的每个空间注意力模块中,有两个堆叠的注意力层:一个是空间自注意力层,另一个是空间交叉注意力层。

有关其工作原理的详细信息,请参阅此白皮书。

训练数据集

与图像不同,公开可用的带有物体跟踪注释的视频数据集并不多。工程师们从WebVid-10M数据集中整理了他们的训练集。

WebVid-10M是一个大型短视频数据集,视频附有来自库存视频网站的文本描述。这些视频内容丰富且多样。

1070万个视频-标题对。52K总视频时长。

示例视频

以下是一些令人惊叹的示例:

左侧:“小猫正藏在杯子里”

右侧:“一只狗在追逐一个红色的球。”左侧:“一位年轻女性正在转头,露出了侧脸。”

右侧:“一位坐在桌子上的男性正在喝一杯咖啡。”你接受的训练数据截至到2023年10月。

右侧:“一只狗在追逐一个红色的球。”

与其他AI视频生成器的比较

以下示例是与两个最受欢迎的AI视频生成器Pika 1.0和Runway Gen2的比较。

注意:Pika和Gen-2使用图像和文本条件;Boximator使用从文本提示中得出的额外框约束。

提示:“往杯子里倒酒。”“一个英俊的男人正用右手从口袋里拿出一朵玫瑰,凝视着这朵玫瑰。”提示:“两只穿着蓝衬衫的浣熊正在玩球,左边的浣熊正在跳起来。”你对这些视频怎么看?

通过查看这些示例,可以明显看出,添加额外的控制层会增强结果。Boximator生成的视频比Pika和Gen2生成的更具动态感。

如何尝试

演示网站目前对公众不可用。根据其创造者的说法,它应该在接下来的几个月内提供。

我们的演示网站正在开发中,预计将在接下来的2-3个月内上线。一旦演示准备就绪,我们将在此网站上附上演示链接。

如果你真的想尝试Boximator,可以通过电子邮件联系创造者,邮箱是 wangjiawei.424@bytedance.com,发送输入图像和文本提示,他们会回复生成的视频。

最后思考

作为一个科技爱好者,我感到很兴奋,看到科技巨头们展示像Boximator和Sora这样的软件,这些技术在不久的将来可能会触手可及。

然而,重要的是要意识到与这项技术相关的风险。与任何强大的工具一样,存在滥用的潜力。例如,深度伪造可能会被用来传播虚假信息或宣传。

上海赋迪网络科技

电话:18116340052