看了Sora,感觉短视频要悬了!

百家 作者:大数据文摘 2024-02-22 21:06:08
大数据文摘授权转载自计算广告
作者:大数据仁波茄

Sora发布也不少天了,按说,作为一名二手科学家,咱也得蹭热度聊聊。可是看着各路自媒体花式的震惊、反思和卖课,我有点不知所措,这都是扯啥呢?

我对这些不感兴趣,不过,那几段demo视频撸了一遍又一遍,再想起在MSRA做AI时的一些经历,我有点醒攒儿了:您还真以为这东西是为了帮大家水视频用的么?不是!照这个路数下去,以视频为主的社交网络媒介形式,可能要被连锅端了!

这并非危言耸听,咱们先从大家热议的“世界模型”说起。

“世界模型”到底是啥


看了Sora,您有什么最深切的感受?我在撸了九九六十四遍以后,突然感到有点毛骨悚然:与Runway、Pika那些竞品“帕金森”风格的视频相比,这些视频里的物理结构,也太TM稳定真实了!

您看看下面这段无人机穿越大斗兽场遗迹的视频:所有的建筑物几何结构,全程没有扭曲、没有变型、没有坍塌。


再看看这段咖啡杯里的海盗船视频,多么流畅自然的流体运动!一点儿也看不出跟我们熟悉的物理规律不符之处!做过计算机图形学的都知道,水、雾、风这些非刚体的运动画面模拟,那是多么困难的任务。


这说明了什么?Sora绝不是在二维框里做建模,把像素生成出来了事!它一定是通过大模型,对世界和物体的三维形态、运动规律有了统计意义上的理解,并且具备了不错的泛化能力。然后,将它再投射回二维平面中,得到一段视频的。这就是我理解的“世界模型”。当然,这里的投射,是通过大模型的推理,而非传统的CG渲染。

也就是说,Sora脑子里的世界,是三维的、立体的、运动的。而平面的视频框,其实限制了它的表达力!

不信,您看看下面这段demo,同一个场景,生成了五段多机位下的视频,您说说Sora背后对世界的理解,能是一个框一个框分别往里填的么?


那位说了,你扯这些有卵用?我管Sora背后咋看世界的,反正最后不还是生成一段视频么!这么想,格局真的小了!既然它脑子里的世界是立体的,那就存在对现有的短视频形态降维打击的可能!

Sora真正的颠覆意义


世界模型有啥用?对短视频有啥影响?这跟得从前些日子的另一个热点产品说起——苹果的VisionPro。

这东西,酷倒是挺酷,但是目前很难普及。因为,VR世界对内容的巨大渴求,靠传统的3D内容生产方式,根本就满足不了!

生产3D内容的经典方法,是参数建模:建模师在电脑上进行参数和特征输入,生成对应的模型对象,简单理解就是在电脑上“ 捏泥人”。“泥人”是捏出来了,但是一颦一笑极其僵硬,跟提线木偶戏一样。而且,弄一个模型,得累死两个设计师。

有没有简单自然点的方法?动作捕捉。像下图这样,演员穿着一身数字盔甲,完成一串动作,再通过计算机视觉和运动模型完成3D内容生产。可是这成本依然很高,没设备你还玩不了。


有没有高科技一点的方法呢?看过超级碗(super bowl)的朋友应该知道,人家转播时有个“全视角回放”,这是咋弄的呢?简单来说,就是在比赛场地360度无死角安一堆高清摄像头,再基于几何拼接重建3D视频。当年,我在微软研究院上班时,当时的院长沈向洋博士,就对这项技术有不少贡献。


那么现在有了Sora,情况有什么根本变化呢?再也不用架那么多摄像机,无死角地捕捉图像用于拼接了!从演示来看,大模型见过的东西太多,已经有了类似于人类的泛化能力:咱们看到金字塔的正面,背面是啥样大概也能猜出来,大模型对各种概念、物体得形态和细节的把握,也接近这个程度了。那您想想,将来3D内容的生产,是不是只要几张照片、一两个摄像头,交给世界模型自个脑补,就搞定了?如此一来,3D内容的爆发也就不远了,您说这玩意有没有用?

有人跟我抬杠:我没有Vision Pro,就一个手机,3D内容有啥意义呢?其实,手机这样的平面媒介上,三维内容也好玩,而且有用!

比如您要买房,网站上要是有VR看房,能在房子里转悠的,是不是内部情况一览无余?这比对着图片和视频脑补方便多了吧!再比如电商购物,想换个沙发,对着干巴巴的图文越看越眼晕。可是现在,电商网站的部分产品有了3D物品展示功能,是不是跟去线下实体店看沙发差不多了?


所以说,如果您还认为Sora只是高效生成视频的工具,那么只能说格局小了。视频,本来就是Sora世界模型的副产品。未来,算力更强大,模型更完善,它可以真正实现低成本、高还原度地提供三维内容,这才是颠覆性的新场景!

将来,房产销售随手拍几张照片,就可以生成流畅的VR看房模型,或者再虚拟装修一些生成演示视频;导演拿相机拍几张分镜图,完整的3D电影片段就自动生成出来了。

等VR世界的内容大规模爆发的那一天,长腿小姐姐可以绕着你跳舞了,不坐飞机就能漫游吴哥窟了,甚至人人都可以根据自己的想象,创造出有趣的场景和物品让人观赏。您想想,这是不是比二维世界里的短视频,要声色犬马、纸醉金迷得多?在荒淫娱乐方面,一向觉悟甚高的人民群众,会选择哪个、抛弃哪个,您心里没点数么?

所以,在3D内容的生成成本被大模型拉下来以后,真正应该瑟瑟发抖的,正是现在如火如荼的短视频世界。

普通人的机会在哪里

本来,聊到这儿就该收尾了,但是老有些焦虑的同行来问:AI这么牛逼了,我们还有出路么?所以再多说两句。

先说说影视、游戏、广告这些创意行业。Sora的出现,带来了很大的想象空间。现在,只要给一段文字描述,或几张图片,就可以自动生成一条视频素材。但是,目前来看,要在商业领域大规模应用,还要有点“最后一公里”的工具。

这是因为,大模型还不能很好的建模因果性和逻辑性较强的场景。比如,这个女子走在大街上的视频,可以看到她身后的广告牌和店铺招牌都是鬼符,而第二个视频里,杯子打碎的情况明显违反物理规律。因此,实用中,必须要有一个视频修改和元素替换的AI工具,解决品牌形象植入,文字和形象替换等问题,才能得到真正有用的素材。当然,我觉得这工具很快就会有的。


然后呢?咱们就可以混吃等死了么?有什么新技能要培养呢?

我真心觉得,大家没必要追着AI工具走。因为AI的目的,就是要降低这些工具的使用门槛,随着它们不断迭代,你学的那些使用技巧,很快就不需要了。

比如,电脑刚在中国普及的时候,兴起了一波五笔输入法的培训和学习狂潮,可是随着技术发展,中文输入法越来越成熟,现在你看,还有人专门学五笔么?

还有,零几年那会儿Google刚兴起时,市面上可是有很多“精通搜索引擎”的培训班的!现在再回头看,简直有点行为艺术了。

我的观点,大家更应该培养“与AI垂直的能力”。比如您是视频相关从业者,那么您需要培养的是,还是剧本创作、场景规划这些策略性的能力——工具发展得越快,这些能力就越宝贵。

当然,当下最重要的大策略,还是如何理解和把握AI带来的趋势性机会。其实,如同第一次工业革命的蒸汽时代,和第二次工业革命的电力时代,当产能更高、效率更高的革命性产品出现的时候,潮流是不可逆的。

在信息时代,信息传播载体经历了由文字到图像到视频变迁过程,当Sora这样跨时代的产品出现的时候,互联网的信息传播的载体也必将会拉开由二维内容向三维内容升级的序幕。以此为契机,在其中寻找工具、平台和内容的新机会,只有我们想不到,没有什么不可能。


租!GPU算力

新上线一批4090/A800/H800/H100


特别适合企业级应用


扫码了解详情☝


点「在看」的人都变好看了哦!

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接