AI界一夜变天（组图）

2024-02-18 来源：华尔街见闻原文链接评论0条

没有丝毫预热和剧透，Open AI深夜直接丢下核弹炸了街，从业者深感要变天。

AI界一夜变天（组图） - 1

2月16日凌晨，Open AI发布了首个“文生视频”模型Sora。官方介绍，Sora能根据文字指令创造出包含丰富细节的逼真场景、角色，且能用多角度镜头，生成一镜到底的60秒长视频。

目前官网上已经更新了48个样片，视频中人物、背景都具有惊人的一致性。并且借助于对语言的深刻理解，Sora创造出的角色能表达丰富的情感。

更令业内惊叹的是，Sora身上似乎开始出现“世界模型”的雏形。通过大量观察训练，它学会了许多关于真实世界的物理规律。

要知道，原先动画影视公司为让动物的数百万根毛发、皮肤纹理、衣物等细节在3D建模中表现得如现实场景般真实，为此专门成立研究部门，且投入了不菲的成本和时间才得以实现。而如今，Sora只需要一行描述、几次提示便能自动完成。

虽然Open AI坦言Sora仍有一些效果上的瑕疵，也因潜在的风险暂未对公众开放。但凭借着极度真实的视觉效果，这一足以“模糊虚实”的王炸级技术，正粗暴地冲击着大众心智。

事实上，文生视频并非Open AI的独门，赛道早已涌入大量玩家。去年下半年开始，谷歌、Meta及部分AI创业公司相继下场试水，国内的字节跳动也于11月推出了文生视频模型Pixel Dance，阿里云的Animate Anyone以及百度文心大模型的类似功能同样在内测。

入局者众多，但各家效果却未达预期，当Runway Gen2、Pika、PixVerse等AI视频工具还在突破数秒内的连贯性时，Sora已经将时长拉至1分钟，大幅度拉高生成视频的可用性。影眸科技CTO张启煊评价道，Sora跟Pika、Runway及同类玩家已拉开代差。

颠覆性的效果，伴随的是颠覆性的思路。360董事长周鸿祎指出，现在所有文生图、视频的模型都是在2D平面上对图形元素进行操作，并未适用物理定律。

而Open AI利用了其大语言模型优势，将LLM和Diffusion结合训练，通过学习视频，理解现实世界的动态变化规律，并模拟、创造出新的视觉内容，由此产生的视频真实感十足。

回溯来看，文生视频能蔚然成风，成为全球新一轮AIGC竞赛的焦点，因为大家都嗅到了短视频在全球直播电商、内容创作等新兴行业的巨大机遇。周鸿祎就认为，Sora可能给广告业、电影预告片、短视频行业带来巨大颠覆，成为激发创作力的工具。

AI从业者更一叶知秋地感受到，Sora在展示视频制作能力外，更多暗含的是大模型逐渐掌握对真实世界的理解及模拟能力后，可能会带来更惊叹的突破和成果。

有强劲大模型的底座、基于对人类语言的解析、对人类知识和世界模型的了解，再叠加其他技术，周鸿祎认为这便可以创造各个领域的超级工具。因为这种“先记忆，再预测”，正是人类理解并与世界交互的方式。

他举例称，Sora对物理世界的模拟，就会对智能驾驶领域产生巨大影响。原先智驾“重感知”却“轻认知”，他认为人在驾驶时的很多判断，是基于对这个世界的理解，缺乏这一点很难做出真正的无人驾驶。

行业专家普遍认为，应用层面衍化的终局，便是真正通用人工智能（AGI）时代的到来。

Sora的技术文档就写道，“我们的结果表明，视频生成模型是有希望向构建通用物理世界模拟器迈进的路径”。

“一旦人工智能接上摄像头，把所有电影、视频都看一遍，其对世界的理解将远超文字学习。AGI真的就不远了，不是10-20年的问题，可能一两年就能实现。”周鸿祎如是说道。

“我相信Open AI手里或许还藏着一些秘密武器，无论是GPT-5，还是机器学习自动产生内容。”周鸿祎称，“奥特曼是个营销大师，知道怎样掌握节奏”。

这与Sam Altman要筹集7万亿美元，塑全球AI芯片基础设施的野心形成闭环，因为通往通用人工智能的道路上，需要极为庞大的算力。

近期有投资界人士透露，Open AI正讨论新一轮融资，估值高达千亿美元。作为头羊，有着独霸AI行业、重塑全球AI芯片行业的庞大野心的Open AI，势必要借助资本的助推不断滚雪球。

回溯来看，在这场AI公司、资本交织的游戏中，技术迭代一直是跳跃式的，并不会给大家慢慢来的时间。未来的世界和AI行业究竟会驶向何方？还难以断言，但眼下的2024，必将又是刺激的一年。

关键词： Open AI 文生视频 Sora AI

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。