Sora 2横空出世,字节可能真到了最危险的时刻(组图)

发布者: admin| 来自: Z Finance

国庆第一天，OpenAI 把“视频圈子”的桌子掀翻了。这一次不只是模型发布，而是把 Sora 2 连同一款原生社交应用一并端上台面：你在 iPhone 上刷到的每条短视频，都是 AI 生成的；你可以把自己的“分身”授权给朋友，让他们把你“拉进”他们的剧情；你也能一键 Remix 别人的桥段，续写、换角、改风格。它长得像 TikTok，却试图把短视频的生产关系重写成“人与人 + 模型”的协作网络。OpenAI 自己的 Sora 官网也把“Cast yourself”“Remix everything”摆在最显眼的位置，几乎把产品的灵魂锁定在“社交式共创”上。回看 2024 年 2 月的初代 Sora，业界当时的评价更像“终于能看了”；这一次，OpenAI 试图交付“能演”。他们在内部叙事里把 Sora 2 对标成“视频的 ChatGPT 时刻”——不只是画面质量的跃迁，更是对多镜头叙事、角色一致性与物理逻辑的更稳健把握。即便你给它一个“吊环失误”的提示，它也更倾向于生成“合理的失败”，而不是为了讨好提示而篡改世界规律。这种“失败也合理”的世界建模，恰恰是视频生成里最稀缺、却最接近通用世界模型的一步。真正的变化在产品：Sora 现在是一条“AI 原生短视频链路”。应用形态上，它提供 10 秒时长的生成位，信息流样式接近 TikTok，支持点赞、评论与 Remix，但内容全部由 AI 生成。身份与合规层，OpenAI 设计了“Cameo”式的授权：只有当事人同意上传的“分身”才可被他人调用，且当事人拥有撤销与管理权，平台禁止公众人物的肖像使用并设置更多安全限制。更接近“真实世界”的生成随着 Sora 2 的问世，OpenAI 认为视频生成已直接跨越到了 GPT-3.5 时刻。这一代模型能够实现以往几乎不可能完成的场景：奥运级的体操动作、在桨板上做出严格遵循浮力与刚性物理规律的后空翻，甚至是“三周半跳 + 抱猫”的极限表演。相比之下，早期的视频模型往往“过度乐观”，为了完成文本提示会随意扭曲现实。例如，篮球运动员投丢时，球可能会“瞬移”进篮筐。而在 Sora 2 中，如果投篮不中，篮球会真实反弹到篮板上。更值得注意的是，Sora 2 的“错误”往往像是它内部隐含的智能体在行动时犯下的错误，而非模型随意篡改物理规律。尽管仍不完美，但其对物理法则的遵循，已显著领先于此前的系统。对任何“世界模拟器”来说，能真实建模失败与失误，而不仅仅是成功，是至关重要的能力。在可控性上，Sora 2 也实现了重要突破。它能够遵循跨越多个镜头的复杂指令，并准确维持世界状态的一致性。不论是写实风格、电影化镜头，还是动漫风格，Sora 2 都能呈现极高的水准。作为通用的视频与音频生成系统，Sora 2 不仅能生成逼真的背景音效、对白与音效，还能在复杂声景塑造上表现出极高的真实感。 Sora 将首先在 iOS 系统上线，未来扩展到 Android，并在 sora.com 上提供网页版体验。 AI 时代的原生短视频应用：Sora 的野心与挑战和去年底首次亮相的 Sora 视频生成器相比，这次的升级已经不只是技术更新。新版 Sora 被做成了一款真正的社交应用：用户可以像刷 TikTok 一样看别人生成的视频，也可以自己输入提示生成短片。更特别的是，大家还能创建属于自己的数字化身和声音，让朋友把你“拉进”他们的视频里。这意味着，视频生成不再只是一个人的创作工具，而变成了一种互动玩法，社交属性被大大放大。某种程度上，Sora 想把“视频生成”变成朋友之间沟通、表达的新方式。

不仅如此，Sora 还允许把现实世界的元素直接放进生成视频里。比如，拍一段同事的视频，它就能被无缝“搬运”到任何 Sora 场景中，外貌和声音都能保持一致。这种能力非常通用，不光适用于人，也能作用在动物甚至物品上把 Sora 放进竞品坐标系里看，更容易看懂它的胜负手。先看“社交分发侧”的直接对手。Meta 上周把 AI 视频流 Vibes 推上了 Meta AI 与网页端 meta.ai，信息流同样是 AI 生成，但更强调“个性化取向 + 跨 Instagram/Facebook 的分发回路”。YouTube 则把 Google DeepMind 的 Veo 3 快速版塞进 Shorts，主打“手机端 8 秒生成 + 带声音 + 全量标注水印（SynthID）”，意图用最低门槛激活海量创作者。与它们相比，Sora 选择了更“重”的同意机制与人物分身授权，把“关系”而非“算法”放在第一顺位，这是它在社交层面的差异化。

再看“创作工具侧”的老玩家。Runway 把“可控性”修到位了，专业工作流里有更强的镜头控制与 API 能力，但它没有面向 C 端的大众级社交场景；Midjourney 的 V1 Video 更像“图生动”的渐进式能力，适合风格化、单镜头的动画化；Luma Dream Machine 则在真实运动与摄影机语法上持续加码，iOS + Web 双端可用，也开始和社区分享机制绑定。Sora 的不同在于：它在“多镜头一致性 + 角色留存 + 场景状态延续”上用产品形态把技术优势放大，并用“分身授权”把人际关系嵌进生产管线，把生成从“个人玩具”抬升为“多人协作”。如果把 TikTok 当作“内容分发的极致”，Sora 试图成为“关系驱动的生成”。这两条路的底层约束完全不同：TikTok 正在全面加强对 AIGC 的标注、对非公众人物深度伪造的限制，并与 C2PA 的内容凭证联动自动加标签；Sora 则把“同意”前置为产品功能，通过 Cameo 授权来约束生成边界。一个靠“平台治理 + 自动标注”维稳，一个靠“人际授权 + 产品内生约束”降风险，路径各异，但都在把“真伪可辨”作为新秩序的基本盘。站在商业视角，Sora 也许是 OpenAI 第一个“广告原生”的 C 端产品。ChatGPT 的订阅生意已经验证，视频产品天生更适配品牌互动、话题营销与电商场景。如果 Sora 的“关系复用 + Remix 传播”成立，品牌与达人完全可以在“分身许可”框架下做规模化共创，投放的单位从“达人位”变成“分身位”。这背后是一个更硬核的难题：分身与素材的权利归属与收益分成。 Meta 和 YouTube 已在 AIGC 标注与水印上走在前面，但“分身授权的结算方式”仍是空白地带；OpenAI 这次把“授权—使用—撤销—溯源”做成了产品的一环，如果能进一步把收益结算变成平台协议，它的护城河就不再只是“模型力”，而会长出“关系力 + 结算力” 但风险同样清晰可见。影视行业或许将面临更强烈的就业冲击，网络上真假难辨的问题也会被放大。尽管 OpenAI 为此设置了多重限制，比如禁止生成公众人物影像、强制添加水印、禁用屏幕录制等，但这些措施并不能完全消除担忧。当 AI 生成的视频越来越逼真，人类社会如何界定真实？这可能会是未来几年被频繁追问的问题。如果说 ChatGPT 开启了人与机器对话的“文字革命”，那么 Sora 正在铺陈的，或许就是一场全新的“视频革命”。正如朱啸虎常说的，下一个字节、下一个小红书，很可能已经在今年诞生。即便它未必是 Sora 本身，也一定会是那个借着 Sora 探路、顺势而起的产品。

澳洲同城网官方公众号

微信上也能找工作，找房子？关注万能的同城网官方公众号 localsyd

Sora 2横空出世,字节可能真到了最危险的时刻(组图)

热门文章

最新评论

个人中心