Sora打开的魔盒里面有什么？

OpenAI的文生视频模型Sora的问世引发科技圈热议，传递了AI赛道“大力出奇迹”竞争升级的信号。

尽管Sora尚未对公众开放，但是OpenAI最新发布了由开发者通过Sora创作的视频合集，其中包括各种海洋生物在海面上骑自行车、网红祖母在托斯卡纳厨房教做菜、未来火星上的无人机比赛以及鸭嘴兽带着冒险仓鼠翱翔在天空的场景。

在Sora问世后，一些网友直呼这是对友商的“降维打击”。AI视频生成赛道此前的明星公司Runway和Pika等都已公开表示将加入这场竞赛。

“降维打击”

Sora最直观的技术突破不仅在于其生成视频的逼真性，而且在时长方面也甩开对手更大的距离。

Runway能够生成4秒长的视频，用户可以将其最多延长至16秒，这是AI生成视频在2023年所能达到的最长时长纪录；Stable Video和Pika也能分别提供4秒和3秒的视频。Sora可生成长达1分钟的视频，可以说是直接扔出“王炸”。

Runway有“AI视频界的MidJourney”之称。几个月前，Runway刚刚推出了第二代AI生成视频模型。今年1月，Runway宣布，用户将能够通过多头运动笔刷（Multi Motion Brush）功能，实现对AI生成视频中多个元素的运动控制。

Sora发布后，Runway的CEO克里斯托瓦尔·巴伦苏埃拉（Cristóbal Valenzuela）在社交媒体X上发布了两个字：“Game On（比赛开始了）。”

Pika是AI视频领域的新晋竞争者，它于去年11月推出了生成式AI视频工具Pika1.0，目前也已开放测试。Pika此前对标的公司也是Runway，不过在Sora发布后，Pika创始人郭文景回应媒体称，已在筹备“直接冲，对标Sora”。

在OpenAI CEO奥尔特曼（Sam Altman）发布了一段由Sora生成的巫师主题视频后，AI图像生成领域的另一家领导者Stability创始人兼CEO莫斯塔克（Emad Mostaque）在X平台上回应称：“你是一位巫师大人。”

谷歌最近也发布了下一代人工智能模型Gemini 1.5，并公布了Lumiere模型的研究和演示片段，不过目前还不清楚谷歌计划何时公开该工具；Meta在去年年底推出了一种新的文本转视频模型Emu Video，并称Emu将被整合到脸书（Facebook）和照片墙（Instagram）中。

“世界模型”提前实现了吗

本质上，Sora与AI视频生成公司Pika、Runway等采用了相似的底层模型，即Diffusion扩散模型。但不同之处在于，Pika和Runway等公司都采用了“小模型”的思维，也就是基于上一帧预测下一帧的方法创建视频；Sora把其中的实现逻辑进行了变化，将U-Net架构替换成了Transformer架构，这种新型架构被称为DiT，它将视频和图像表示为视觉块编码（Patch）的较小数据单元的集合，然后将其解码来创建视频，并且根据AI“缩尺律”（Scaling Law），随着训练计算量的增加，样本质量将明显提高，实现大模型智能涌现的能力，这也帮助其在一定程度上理解真实世界的物理影响和因果关系。

OpenAI最新发布的Sora研究报告就以《视频生成模型成为世界模拟器》为题，彰显了其将大模型用于模拟物理世界的雄心。不过对于Sora是否真的理解物理世界，技术界还有不同的观点。

最直接的反对意见来自图灵奖得主，Meta公司首席科学家、AI团队负责人杨立昆（Yann LeCun）。在他看来，仅仅根据提示词（prompt）生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。他在X平台上亮出观点：“这里存在‘巨大’的误导。”

杨立昆是AI“世界模型”概念的主要倡导者，Runway和Pika等公司都在朝着“世界模型”的发展方向前行。所谓“世界模型”，就是对真实的物理世界进行建模，让机器像人类一样，对世界有全面准确的认知。尽管“世界模型”不是AI视频生成的必需要素，它却是该领域较为高端的一个研究方向，学术色彩更浓。

在Sora发布同一天，Meta也推出了AI视频模型——联合嵌入预测架构（V-JEPA）。杨立昆解释道，JEPA创建的视频不是生成式的，而是在表示空间中进行预测。“联合嵌入击败了生成式。”他表示。

Sora显然也是奔着“世界模型”而去。不同的是，依靠OpenAI强大的工程化能力以及背后的算力支撑，Sora的发展速度似乎超越了同行数个量级，它的横空出世无疑让Meta、Runway等巨头公司和初创竞争对手面临更大的压力。

站在“巨人的肩膀上”

从OpenAI发布的技术报告中可以发现，强大的Sora作者团队主要成员有十余位，其中核心成员包括研发负责人布鲁克斯（Tim Brooks）、皮布尔斯[William（Bill） Peebles]等，他们都毕业于加州大学伯克利分校（UC Berkley）。值得关注的是，名单中还有三名华人研究者。

而从Sora技术报告的参考文献来看，更多来自谷歌、Meta、MIT等业界和学界的技术人员也都作出了重要贡献，纽约大学助理教授谢赛宁就是其中的一位。尽管他公开表示自己与Sora团队没有关系，但他与皮布尔斯在扩散模型DiT方面的工作，为Sora大模型的实现提供了基础。

他还推测，Sora模型可能拥有约30亿参数。谢赛宁表示，如果这一推测合理，可能表明训练Sora模型不需要像人们预期的使用那么多的GPU算力，而且预计未来大模型的迭代会非常快。

AGI何时到来

外界也十分关注Sora大模型横空出世后对于行业及消费者的影响，尤其是Sora的出现对于通用人工智能（AGI）的实现意味着什么。

目前来看，尽管业内都认为Sora模型的出现会具有颠覆性的意义，但这种影响力究竟会在何时呈现出爆发威力，似乎很难被预估。

360创始人周鸿祎发布微博称，Sora的诞生意味着AGI的实现可能从10年缩短至一两年。不过据猎豹移动董事长CEO傅盛在朋友圈的观点，他认为，Sora虽然很强大，但是更多的是“暴力美学”，还谈不上彻底理解物理世界，与AGI提前到来也没有太大的关系。

游戏行业资深投资人、丰厚资本创始合伙人谭群钊认为，Sora是大型语言模型的再次重要突破，有几个趋势值得关注：首先是文字写作能力会很重要，“文科生要崛起了”，其次是创意和品味很重要。

在他看来，如果Sora能够实现目前已经公布出来的视频效果，那么可能会最先冲击短剧、短视频领域。

3D生成式AI初创公司影眸科技CTO张启煊告诉第一财经，OpenAI发布Sora的底层逻辑是通过一个“现实模拟器”来实现AGI，生成无穷无尽的现实数据。他认为，Sora这类大模型的工作往后发展，如果能够做到高度可控性，那么将会颠覆整个CGI（电脑特效技术）工业乃至游戏引擎行业。“到时候就是图形学不存在了。”他说道。

张启煊表示，Sora对消费者和行业都会产生一定的影响。“对行业来说，目前的影响不会有想象中那么大，可能更多是一些视频素材的收集工作可以得到极大的解放。”

不过Sora目前仍然没有对公众开放，而是仅对“红队”（Red teaming）开放，还有很多AI安全性相关的问题需要研究部署。在欧美对AI逐渐形成成熟监管体系的背景下，人工智能的任何进展都将受到法规的约束。

上海大邦律师事务所高级合伙人游云庭对记者表示：“Sora在正式向公众推出前，一定会面临来自现有行业的挑战。首先，训练素材获得授权的知识产权合规就是个大问题，目前不透明；此外，输出内容不侵权的合规也是个很大的问题。”

你可能想看：

什么叫潘多拉魔盒，打开潘多拉魔盒又是什么意思？

= =来源是希腊神话，因为普罗米修斯把火盗到了人间……所以神要惩罚人类。众神就做了一个女人，叫潘多拉，赐予她美丽，智慧…………（总之就是个美人= =）送到人间。临行前，神给了她一个盒子，并且告诫她绝对...

旺旺大礼包里面有什么零食旺旺大礼包里面有什么零食

旺旺大礼包里有旺旺奶油、王饼、旺旺冰淇淋、旺旺鲜贝、旺旺小饼。旺旺小吃套餐有单冰淇淋、旺旺鲜贝、旺旺小饼。旺旺果冻又好吃又有营养。旺旺果冻味道多样，吃起来又清爽又滑。文章目录：旺旺大礼包里装的是什么零...

linux打开的端口（linux 打开的端口）

可以用su root 或 sudo来提权)完成后可用改命令查询是否已打开netstat -an | grep 22 linux如何打开53端口？53号端口是DNS服务使用的，iptables -A I...

嗓子里面有痰咳不出来是什么原因？嗓子里面有痰，吃什么能化痰？

喉咙有痰，本身是一件，很难受的事情，就像有东西梗在嗓子里，咳也咳不出来，掏也掏不出来那种感觉其实挺难受的。而生活中其实有很多人会在换季的时候出现这样的情况，又或者是有的孩子会有这种情况，只知道一味地咳...

橙瓜专访丨豆腐阅读名家蓝淋：新推经典作品续篇《潘多拉的魔盒》

代表作《双程》《眼中星》《君子之交》等，多部小说出版畅销，多次授权其他国家及地区出版。《不可抗力》《双程》改编为网络大电影并取得不俗反响，《浣熊帮帮忙》《失恋阵线联萌》售出影视版权，多部作品已进行有声...

80后有个动画片里面有个爱吃土豆泥的魔法师，这个动画片叫什么来着？

国产动画片《大盗贼》 / “我是大盗贼霍震布洛兹老爷”。 “我是个大盗贼，什么也不怕。生活多自在，整天乐哈哈~~” 第一集会唱歌的咖啡磨大盗贼霍真普洛兹抢走了奶奶会唱歌的咖啡磨，警官登培尔摩扎要求...

黑洞里面有什么黑洞里面究竟是什么？

里面究竟是什么？关于里面有什么物理学界有两种假说：一是史瓦西提出的白洞理论，认为白洞是的对立面，连接和白洞的就是虫洞；二是霍夫专特的全息宇宙模型，认为吸收的一切都被重新编码在的视界上，所以黑属洞里面的...

用什么来转换iso文件以及如何打开它们(如何转换iso文件)

将纸质文稿和图片变成PDF文件的！iPhone手机备忘录里面有一个拍照扫描的功能。叫做「文稿扫描」功能，可以打开iphone相机进行扫描拍照。扫描完的照片会自动变成PDF文件，拍照时尽量将文件进行全部...

是谁打开了潘多拉魔盒？到底是谁最先去动了、招惹了新冠病毒？

潘多拉魔盒意思是灾害之源，这个题目的意思其实也就是在问这次新冠病毒的源头在哪里？是怎么开始传播的？一，目前对于新冠病毒的起源还没有定论。这个可不是刘医生说的哦，这是钟南山院士昨天在广州医科大学举办疫情...

有谁知道深圳大富科技有限公司怎么样啊？里面的福利待遇？工作环境？氛围？里面有什么发展？食宿怎样？

福利很少，就只有绩效普工0到100，坐满三月才有。。没全勤，公积金帮你买，但厂里的那一半取不出来，伙食厂里吃一餐5或8快，宿舍有网线，加班有事做加三小时没事做不用加班每天8小时双休加班时间：电装8：:...

找一本网游小说，主角在现实中是一个武林高手，擅长用剑，游戏里面有一种装备，可以伤害到现实里面的人？

《网游之天地》这本我觉的不错《网游之近战法师》这本蛮搞笑的《网游只风/流骑士》这本带点颜色的《网游之冰龙剑士》这个也不错《网游之最强房东》这个我看的稀里糊涂的，但不代表不还看《网游之终极牧师...

快乐星猫里面的魔族有什么特点？

是由黑魔王、小黑怪、火魔、水魔、土魔、恶搞将军组成的一个团伙了！火魔是黑魔王手下四魔之一，是黑魔王为了对抗星猫与天神星的光明力量，将他的力量给予部分的分身，并付与相关的火属性；对黑魔王忠贞不二。而后被...

新奇骏后备箱工具在哪里打开 14新奇骏后备箱在里面打开？

文章目录：2020款奇骏后备箱开启键？14新奇骏后备箱在里面打开？2014款奇骏感应尾门使用方法？2021款奇骏纪念版后备箱开启方法？2020款奇骏后备箱开启键？奇骏后备箱的打开方法是：1、可以通过按...

摩尔庄园里面有什么？

《摩尔庄园》是一个专门针对儿童的网上虚拟乐园，以“健康、快乐、创造、分享”为主题。无论是大人还是孩子，在摩尔庄园里都会有属于自己的童年记忆。在摩尔庄园里，每个玩家会化身为一只小鼹鼠，穿上自己挑选的装扮...

蚕蛹好吃吗？里面有什么？

大家好，我是缺哥，缺是缺心眼的缺?蚕蛹含有多种营养成分，其中蛋白质的含量最高，它对高血压、慢性肝炎等疾病有一定的辅助治疗作用。对于喜欢吃蚕蛹人的来说，那是美味，但也有人因它的样子而不敢食用。下面介绍一...

酒店里面有什么？

这个要看酒店星级而定以下是三星级以上的标准餐饮设施：中餐厅、西餐厅、酒吧、咖啡厅、宴会厅、送餐服务娱乐设施：迪斯科厅、卡拉OK、游艺机室、桑拿浴、健身室、棋牌室、儿童乐园、服务设施：会议室...

《汉武大帝》当中刘彻为什么可以做上皇位？这里面有什么原因呢？

影视剧《汉武大帝》是依据真实历史改变而来，其中大多数情节都同史书相吻合。刘彻是汉景帝的第十子，按“宗法制”，也就是俗称的“嫡长子继承制”，刘彻是无法继承皇位的。但是关键点在于汉景帝的薄皇后没有生育，还...

为什么大家都称呼张常宁为宝宝，这里面有什么典故吗？

在这支队伍中，新任队长兼主攻手的朱婷是绝对的核心和领袖，而张常宁则是这支女排的强力臂膀，有着不可或缺的重要性。作为一位身高快两米的大高个子，怎么会被大家称为宝宝呢，这确实让人纳闷。虽然现在没有了宝宝那...

台南为什么被叫做台湾的“京都”，这里面有什么典故吗？

台湾的台南跟日本的京都，都是在历史中占有重要的位置，拥有深厚的文化底蕴，保存着许多历史古迹，还有无数地道的传统美味，因此台南被叫做台湾的“京都”，说明它们有很多地方是相似的。首先，从历史文化上来看。台...

希腊为什么不能成为文明古国？里面有什么原因吗？你知道多少？

你看看古希腊文明的年代，他也配叫文明古国？先看一下我们通常说的四大文明古国都是什么年代出现的。古代西亚，大约公元前3000年出现城邦。古埃及，大约公元前3200年出现统一国家。古印度，不提现在还不能解...

标签: 魔盒 openai

分享给朋友：

问答百科

Sora打开的魔盒里面有什么？

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9

问答百科

Sora打开的魔盒 里面有什么？

Sora打开的魔盒里面有什么？