“目前不支持引入现实世界的材料作为主题参考。我们知道创造力的限制受到尊重。”这是用户打开极盟网页平台时会看到的信息。就在前一天,Seedance 2.0 因其生成真人肖像的能力而引起轰动。字节跳动已经断开了引用真人面孔的功能。这项禁令是由电视电影《飓风蒂姆》今天凌晨发布的一段视频引发的。他表示 Seedance 2.0 是“将改变视频行业的人工智能”。但他的语气并不是赞扬,而是警告。这是因为他们发现,只需上传自己的照片,模型就可以自动生成与他们非常相似的声音,甚至可以在音调特征上精确匹配他们。真的很可怕。但在该功能停止工作之前,Seedance 2.0 已经取得了令人难以置信的成果。 《黑神话:悟空》制片人冯骥称微博上称“目前地球上最强大的视频生成模型”,警告“逼真的视频将不再成为障碍”。我印象中冯骥之前非常推崇的就是DeepSeek。自字节跳动发布 Seedance 2.0 并开始灰度测试后不到 48 小时,X、抖音等社交平台就充斥着基于该模型的各类 AI 视频。 「火影忍者」、「柔术海战」、「奥特曼」……基本上你能想象到的都有。国外的反应同样是爆炸性的。在超越 Sora 中排名第二,更重要的是,对物理世界的精确建模被认为是通用 AGI 的关键能力之一,而 Seedance 2.0 让行业参与者看到了实现这一目标的潜力。 2月9日,动作片、短剧、AI应用板块也因Seedance 2.0的火爆而整体上涨。上海电影、完美世界等公司备案d 一天增加10%。分析师预计这种模式将显着降低制作成本并加快内容制作周期。爆炸的背后还有一个同样严重的问题。可以说《索拉2》是前车之鉴。 《Sora 2》首次发布时就广受好评。然而,仅在过去两个月,保留率就已降至几乎为零。此外,版权风险、数字证书等问题在《Sora 2》中也曾暴露出来。Byte 会在 Seedance 2.0 中另辟蹊径吗? 01 什么是 Seedance 2.0?在了解Seedance 2.0的受欢迎程度之前,我们先来了解一下。 Edance 2.0支持同时输入文本、图像(包括9张图像)、视频(最多3段,总时长≤15秒)和音频(最多3段,总时长≤15秒),最大混合限制为12个文件。用户可以使用图像来定义构图和角色,使用视频来指导动作和摄像机移动,以及使用音频io 来设定节奏。相比之下,Sora 2 的 Cameo 功能仅支持插入单张照片,而 Veo 3 和 Kling 2.6 主要依赖于文本输入和单张图像。这种多模式能力不仅仅是简单地分层材料。 Byte 具有 @mention 系统,让您可以明确控制所有资源。用户可以在关键字中写入:“使用@Image1作为第一帧,参考@Video1的摄像机运动,使用@Audio1作为背景音乐节拍”。最大的优势在于,它改变了以往“往AI上扔大量素材,碰碰运气”的创作模式。该模型采用 Seedance V2 运动合成技术,显着改善了重力、动量、碰撞和流体等物理模拟。真实的测量使织物拍打、液体飞溅和身体运动的轨迹更接近真实物理,并消除“漂浮感”和物体穿过模具等常见伪影。你可以看到t 影响减少。 Seedance 2.0 的另一个非常重要的特点是第一帧和最后一帧是准确的。当用户上传起始帧和结束帧图像时,模型会智能估计中间动态过程,以确保自然过渡和稳定的节奏。这对于控制要求较强的场景特别有用,例如广告中的定格动画或基于故事板的视频生成。基于故事板脚本逐镜头生成,以保持每个镜头的角色外观、光影逻辑和艺术风格的一致性。一些用户已经使用 Lovart 的技能来生成故事板并将其直接复制到 Seedance 2.0 中。生成的视频比使用 ComfyUI 手动调整的视频更详细。这表明该模型不仅包含单个帧,还包含镜头之间的叙事逻辑。 Seedance 2.0的编辑功能也得到增强,支持替换、删除和添加现有的视频功能。用户可以直接编辑生成结果中的部分图像,无需重新发明轮子。这极大地提高了制作速度,并使创作过程更接近传统的视频编辑体验。可以通过单个关键字一次使用多个摄像机剪辑生成整个剪辑。该模型可以自动规划故事板,执行摄像机移动(渐进、环绕、跟踪等),并添加编辑效果(慢动作、摄像机抖动等)。角色面部特征、服装细节、场景灯光和叙事基调在各个镜头中保持一致,使过渡更加自然。最后,当谈到视听联产时,音频和视觉在创作过程中相互影响。支持超过8种语言的音素级唇形同步以及环境音效和视觉事件的实时对应。脚步声与角色的动作和破碎的声音相匹配玻璃伴随着清脆的音效。当您上传音频时,视频生成速度加快,背景音乐的节奏相应缓慢变化。与 1.0 版本相比,RayFlow 火山引擎的优化将生成速度提高了约 30%。一段 10 秒的 1080p 视频(带音频)大约持续 2 小时。 5分钟。 Pro版本支持原生2K分辨率,可将视频延长至2分钟。相比Sora 2的15秒限制和Kling 2.6的10秒限制,这是一个明显的优势。角色一致性机制引入了“身份持久”注意力机制的改进版本,以在不同镜头、角度和光照条件下保持角色特征稳定。当镜头变化时,面部轮廓、发型和服装纹理等细节不太可能发生波动。 02 是因为AGI而退圈的吗?在像这样的社交网络上,此类内容的点赞数通常是ly 达到数十万。当谈到视频的外观时,动作场景对物理模拟的精度要求极高,而扭曲会使其不可靠。拳击手击球时重心的移动、击打目标的形变反馈、击球者的后退距离等都必须遵循力学规律。在 AIGC 艺术家 DynamicWang 使用 Seedance 2.0 创作的耐克风格广告中,四位女性的肌肉线条和运动范围与她们的运动项目非常匹配:体操、拳击、跑步和游泳。在一系列动作中,例如体操中的旋转、武术中的一系列踢腿或跑酷中的从墙上弹起,每个帧中速度、角度和加速度的偏差会产生“机械感”。 Seedance 2.0 使用时间相干模型来平滑运动并近似真实镜头的效果。物理效果次要效果,例如战斗时扬起的灰尘、武器沙沙作响的声音风和衣服的褶皱飞扬,给场景增添了真实感。对物理世界的精确建模被认为是通用 AGI 的关键特征之一。 “物体如何运动”、“力如何传递”和“因果关系”。 “怎么会这样?”这些东西对我们来说很常见,但对人工智能来说仍然是新鲜事。如果人工智能模型能够准确预测拳头击中目标后的变形、溅起的水花的轨迹、或风中飘扬的布料的形状,这意味着它已经建立了真实世界运动机制的内部表示,而不仅仅是一个“像素生成器”。杨立坤多次强调,AGI必须对物理世界有常识性的理解。 Seedance 2.0对物理模拟的改进本质上是对mworld模型的改进。该模型开始理解对象之间的关系、行为的因果关系以及环境对对象的限制。传统生成模式EL 基于“数据中出现的任何内容都会产生”的统计定律。然而,现实世界遵循因果逻辑。当一张多米诺骨牌倒下时,下一张多米诺骨牌也不可避免地倒下。当拳头打在你的脸上时,你的头必然会向后仰去。 Seedance 2.0可以生成符合物理定律的战斗视频。这表明模型内形成了某种因果推理功能。这不是要记住“拳击是什么样的”,而是要理解潜在的逻辑:“对于每一个力量的作用,都必须有一个反应。”这种能力是从“模式识别”到“概念推理”的飞跃。传统人工智能仅依赖于统计调整。只有当人工智能理解物理世界时,你才能真正与现实互动。这就是为什么大型制造商一直重视多模态。因为我们的人脑理解物理世界并且本质上是多模式的。我们用我们的感觉我们可以通过听觉来了解物体的运动,通过听觉来识别碰撞的声音,通过触觉来了解材料的硬度。这些感觉信息被整合到大脑中,形成对世界的统一认识。上述Seedance 2.0视听联产架构在一定程度上模拟了这种多模态融合机制。当模型理解“当重物掉落到地面时,应该听到低沉的声音”和“当玻璃破碎时,应该有裂缝”时。该模型已经建立了多式联运因果关系。此功能远远超出了简单地生成文本和图像的范围,并表明该模型正在接近 AGI。还有一点是,目前人工智能研究的共识是AGI最终必须转化为具身智能。原因很简单。能够在物理世界中行动的智能代理,无论是机器人还是自动驾驶汽车,都需要人工智能准确预测物理世界的动态变化。物理世界。尽管 Seedance 2.0 是一个视频生成模型,但其理解物理定律(重力、动量、碰撞、流体力学)的能力在很大程度上与嵌入式智能所需的功能重叠。视频生成可以被描述为嵌入式智能的“沙箱”。该模型学习虚拟世界中的物理定律,并可以在未来转移到控制现实世界的机器人。这些战斗视频基于 Seedance 2.0,融合了模型对动力学、电影和时间因果关系的全面理解,这些都是体现智能的核心功能。像 GPT 和 Claude 这样的大规模语言模型很强大,但它们对物理世界的理解是间接的并且基于文本描述。他们可以说“一个苹果正在下落”,但他们实际上无法“看到”重力是如何起作用的。 Seedance 2.0 的一大进步是它需要学习物理的直接表示通过视频生成任务的世界。这让我们比纯语言模型或静态图像模型在AGI的道路上走得更远,其运行逻辑更接近人类“看到、理解、预测”的认知闭环。如果说语言模型是AGI(逻辑和符号)的“左脑”,那么物理世界模型就是AGI(空间和直觉)的“右脑”。 《索拉 2》在静态场景和慢节奏叙事中效果最好,但在快速动作场景中却有明显的缺点。篮球弹跳的轨迹、水流的形状、织物的飘动等,尤其是慢动作,营造出一种更像梦而不是现实的感觉。如果您的角色快速移动(奔跑、跳跃、出拳等),可能会出现一定程度的运动模糊或身体变形。这是由于扩散模型在处理随时间突然变化方面的局限性。当用户在《Sora 2》中连接多个动作片段来产生单个镜头时,很难确保一致性连接性和角色移动速度的效率。战斗视频需要多回合的“攻击→躲避→反击”结构,但这正是空2的弱点。用户经常在社交媒体上批评《Sora 2》制作的类似内容是“动作僵硬”和“身体侵犯”。短视频领域ddata以字节为单位的积累可以成为优势的来源。抖音每天处理数十亿条消息。在视频中,这些数据可以帮助模型理解“什么动作引起注意”和“什么节奏让人们观看”。模型训练可以使用大量真实的武术、体育和舞蹈视频作为监控线索。 03Bytes能从《空空2》中吸取教训吗? OpenAI 将 Sora 2 定位为“AI 版抖音”。第一天安装量达到 10 万(基于邀请的 iOS),4 天就登顶美国 App Store 排行榜,5 天下载量突破 100 万次(比 ChatGPT 更快)。然而,根据 Appfigures 的数据,Sora 2 的下载量在 60 天内直线下降。 12 月,re 较上月减少 32%,1 月份环比锐减 45%,至约 120 万。在撰写本文时,Sr.Sora 2 不再跻身美国 App Store 前 100 名免费应用程序之列。 《空2》最大的战略错误是试图复制抖音的社区文化。人工智能生成的内容自然缺乏社交媒体核心的现实生活中的人际关系。用户在抖音上看到的是真实的人、真实的生活片段、真实的情感联系。尽管《Sora 2》制作的视频很漂亮,但它们并不真实。定性来说,它是算法的产物,缺乏社交网络所依赖的人际联系。当前的 Seedance 2.0 方法更加务实,将 Cutting 和 Dreaming 等成熟的创意工具纳入“功能模块”而不是“独立应用程序”。将自己定位为创作者工具箱的一部分。用户不是来“看AI视频”,而是来“这种定位的差异决定了产品的生命周期。《Sora 2》版权的摇摆暴露了西方监管环境的困境。早期没有严格的控制,允许用户生成海绵宝宝、皮卡丘等著名 IP 角色的视频。这虽然在初期起到了一定的推广作用,但却引起了版权方的强烈反对。迫于压力,OpenAI 将其版权使用规则从“默认可选”更改为“需要明确许可”。随着版权内容的改变,《Sora 2》失去了最初的病毒传播力来源。目前,Seedance 2.0受欢迎的另一个主要原因是创作者利用AI生成了大量奥特曼、龙珠等著名角色,但也存在下图中的赵本山、詹姆斯等版权风险。因Byte能否引用引发争议后,Byte已紧急断开该功能现实世界的材料。这表明字节在版权问题上采取了更加谨慎的态度,在技术能力和合规风险之间寻求平衡。但最重要的是,当任何人都可以在几分钟内制作出精美的视频时,内容本身就失去了稀缺性。用户真正想要的是更有意义的表达,而不是更多的视频。如果不能回答“用户为什么需要它?”的问题,那么无论技术多么强大,它都没有意义。它将最终成为一个玩具。人工智能生成的视频很漂亮,但它们往往缺乏核心情感核心或持续的叙事价值。我会这么做 如果 Seedance 2.0 想要长期生存,它需要回答以下问题: IAために生み出す核となる価値は何ですか?时间を节省するためですか?是为了把一个想法变成现实吗?还是身份的建构?从目前的产品策略来看,字节选择的是“工具”而非“平台”的道路。但该工具的根源也有其自身的挑战。用户为什么要选择种子ance 2.0 何时 Keling、Sora 和 Veo 提供类似功能?答案或许不在于技术本身,而在于生态融合的深度。字节拥有抖音、简影、极萌等完整的创意生态。如果Seedance 2.0能够与这些产品深度对接,形成从灵感到上线的闭环,就能建立起一条其他竞争对手难以模仿的护城河。但归根结底,版权问题永远不会消失,竞争对手将继续面临技术能力的限制。真正决定Seedance 2.0命运的是Byte能否将流量转化为用户习惯以及它带来的好处。在流行窗口期的环境壁垒中圆锥形。答案可能决定它是否会成为 Byte 的下一个 TikTok 还是下一个 Sora 2。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传并自豪发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注