温馨提示:这篇文章已超过469天没有更新,请注意相关的内容是否还可用!
近日,OpenAI推出全新视频生成模型Sora,标志着视频技术的又一重大突破。Sora模型能够直接从文本生成视频,预示着视频内容创作的革新。业界人士认为,这一技术的突破可能引发视频领域的奇点,带来无限可能。OpenAI的这项创新将极大地丰富视频内容创作方式,引发业界关注和期待。
文章目录
1、卓越能力
1.1 60秒超长时间高度详细复杂的场景
Sora模型能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景,细节感拉满,且时长可达60秒,该模型不仅了解用户在提示中要求的内容,还了解这些内容在物理世界中的存在方式。
给定的提示词描述了一位时尚女性在东京街道上自信而随意地行走的场景,Sora能够基于这个描述生成一个真实的视频,展现这位女性的时尚造型和东京街道的生动景象。
1.2 复杂的相机运动
Sora模型实现了复杂的相机运动,可以生成具有无人机视角的震撼视频,通过无人机视角展现海浪拍打着崎岖悬崖的景象,Sora能够生成具有逼真相机运动的视频,完全与真实拍摄无法区分。
1.3 同一场景多个镜头
Sora模型具有深刻的语言理解能力,能够准确地解释提示并生成引人注目的角色,它还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。
给定的提示词描述了一个电影预告片的风格和场景,Sora能够基于这个描述生成一个包含多个镜头的视频,展现电影预告片的氛围和视觉效果。
2、技术原理
Sora是一种扩散模型,通过从一个静止的噪声开始,逐步移除噪声来生成视频,其核心架构基于Transformer,建立在DALLE3和GPT之上。
通过让模型一次看到许多帧,Sora解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也能保持不变,他们将视频和图像表示为较小的数据单元集合,每个patch都类似于GPT中的一个token,这种统一的数据表示方式使得可以在更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。
3、不足
尽管Sora具有出色的能力,但官方也谦虚地指出了模型的不足之处:
可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例,模型中可能会出现不符合物理逻辑的情境,如人咬饼干后没有咬痕。
可能会混淆提示的空间细节,例如左右混淆,并且可能难以精确描述随时间推移发生的事件。
4、安全战略
针对安全方面,Sora与Red teamers(一家专注于提高IT安全的公司)合作,建造工具来区分一个视频是否是AI生成的,他们也会努力避免生成政治类、暴力类的视频,并呼吁社会各界积极反馈,共同避免视频模型的滥用。
5、碎碎念
Sora官网表示,Sora能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI的重要里程碑,在AI圈子里,人们对此进行了热烈的讨论,一些人担心AI技术的发展速度过快,而AI头部大号卡兹克也第一时间发表了文章,感慨现实与技术的飞速发展之间的鸿沟。
每一次技术的重大更新都带来惊喜和担忧,与其恐惧不如拥抱变化,因为事情正变得越来越有趣!
值得注意的是,Sora的发布不仅意味着AI技术的又一突破,更预示着未来媒体、电影、广告等领域的巨大变革,我们可以想象,在不久的将来,通过Sora这样的模型,每个人都可以轻松创建自己的电影、动画和短视频,无需专业的技能和设备,这将为创作者们带来无限的可能性,也将为观众带来更加丰富多样的视觉体验。
还没有评论,来说两句吧...