新闻频道 > 社会新闻

厨房里的激战2pop电影:苏州一高架道路结冰多车相撞有人员受伤

来源：央视新闻 | 2024-02-26 15:27:45

黄河网 | 2024-02-26 15:27:45

原标题："厨房里的激战2pop电影"

"厨房里的激战2pop电影",正在加载

"厨房里的激战2pop电影",苏州一高架道路结冰多车相撞有人员受伤,美国参议院多数党领袖舒默：支出协议悬而未决，政府关门风险仍存

"厨房里的激战2pop电影",国防军工板块震荡走高，奥普光电涨近7%！国防军工ETF（512810）盘中涨1.64%冲击5连阳,横空出世！引领多模态产业革命！Sora技术深度解析

"厨房里的激战2pop电影",小米借MWC拓展欧洲市场，计划让澎湃OS覆盖1亿设备

美国版灭火宝贝2010演员

小小水蜜桃在线播放免费

青柠影院免费版在线视频观看

激战2厨房配方怎么探索

岳婿厨房激战2

沈娜娜和苏语棠合作

厨房中的激战2小短片

厨房里的激战2pop电影:以军对黎巴嫩南部发动两次空袭，现场视频曝光,微博观影团《年会不能停！》北京首映免费抢票,中央气象台三预警齐发多省份有大风、寒潮和冻雨

"厨房里的激战2pop电影",　　华福证券指出，无论在视频保真度、分辨率、文字理解等方面，Sora都做到了业内领先水平，此外当Sora训练的数据量足够大时，它也展现出了一种类似于涌现的能力，使视频生成模型具备了类似于物理世界通用模拟器的潜力。　　要点：Sora横空出世引领多模态产业革命。美国时间2月15日，文生视频大模型Sora横空出世，能够根据文本指令或静态图像生成1分钟的视频。其中，视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧。总体而言，不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面，Sora都做到了业内领先水平，引领多模态产业革命。此外，当Sora训练的数据量足够大时，它也展现出了一种类似于涌现的能力，从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。拆解视频生成过程，技术博采众长或奠定了Sora文生视频领军地位。从技术报告中，Sora视频生成过程大致由“视频编码+加噪降噪+视频解码”三个步骤组成，视频压缩网络、时空patches、transformer架构、视频数据集等技术与资源在其中发挥了重要作用。视频压缩网络：过往VAE应用于视频领域通常需插入时间层，Sora从头训练了能直接压缩视频的自编码器，可同时实现时间和空间的压缩，既节省算力资源，又最大程度上保留视频原始信息，或为Sora生成长视频的关键因素，并为后续处理奠定基础。时空patches：1）同时考虑视频中时间和空间关系，能够捕捉到视频中细微的动作和变化，在保证视频内容连贯性和长度的同时，创造出丰富多样的视觉效果；2）突破视频分辨率、长宽比等限制的同时显著提升模型性能，节约训练与推理算力成本。Transformer架构：1）相比于U-Net架构，transformer突显ScalingLaw下的“暴力美学”，即参数规模越大、训练时长越长、训练数据集越大，生成视频的效果更好；2）此外，在transformer大规模训练下，逐步显现出规模效应，迸发了模型的涌现能力。视频数据集：Sora或采用了更丰富的视频数据集，在原生视频的基础上，将DALL?E3的re-captioning技术应用于视频领域，同时利用GPT保障文字-视频数据集质量，使得模型具有强大的语言理解能力。　　Sora引领多模态革命，技术与资源突显优势　　1.Sora横空出世，引领多模态产业革命　　美国时间2月15日，文生视频大模型Sora横空出世，能够根据文本指令或静态图像生成1分钟的视频。其中，视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧。　　总体而言，不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面，Sora都做到了业内领先水平，引领多模态产业革命。此外，当Sora训练的数据量足够大时，它也展现出了一种类似于涌现的能力，从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。　　2.Sora视频生成过程：视频编码+加噪降噪+视频解码　　从技术报告中，Sora视频生成过程大致由以下三个步骤组成：视频编码：VisualEncoder将原始视频压缩为低维潜在空间，再将视频分解为时空patches后拉平为系列视频token以供transformer处理。加噪降噪：在transfomer架构下的扩散模型中，时空patches融合文本条件化，先后经过加噪和去噪，以达到可解码状态。视频解码：将去噪后的低维潜在表示映射回像素空间。　　总体而言，我们认为Sora技术报告虽未能详尽阐述视频生成技术细节，但从参考技术文献中，可初步窥探出时空patches、视频压缩网络、Transformer技术架构、独特文本标注视频数据集等技术与资源优势，这些或为Sora占据业内领先地位的原因。　　博采众长，Sora技术开拓创新　　3．视频压缩网络实现降维，或为长视频生成基础　　OpenAI训练了降低视觉数据维度的网络，该网络接受原始视频作为输入，并输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并随后生成视频。与之对应，Sora训练了相应的解码器模型，将生成的潜在表示映射回像素空间。　　压缩网络本质上是将高维数据映射至低维空间，低维空间中每个点通常对应原始高维数据的潜在表示，在复杂性降低和细节保留之间达到最优平衡点，实现提升视觉保真度的同时降低算力资源消耗的作用。　　VAE为图片生成领域的常见图片编码器，应用到视频领域则需要加入时间维度以形成视频框架。例如，2023年发布的VideoLDM通过将视频拆解为每一帧，之后插入时间对齐层，从而实现了视频生成。　　Sora从头训练了能直接压缩视频的自编码器，既能实现空间压缩图像，又能在时间上压缩视频。我们认为，在时空维度上压缩视频，既节省了算力资源，又最大程度上保留视频原始信息，或为Sora生成60s长视频的关键因素，并为后续时空patches和transfomer架构处理奠定基础。　　4.1时空patches统一视频分割，奠定处理和理解复杂视觉内容的基石　　Sora借鉴LLM中将文本信息转化为token的思路，针对视频训练视觉patch，实现视觉数据模型的统一表达，实现对多样化视频和图像内容的有效处理和生成，之后通过视频压缩网络分解为时空patches，允许模型在时间和空间范围内进行信息交换和操作。　　从Sora技术报告来看，时空patches或借鉴ViViT操作。　　ViViT借鉴ViT在图片分割上的思路，把输入的视频划分成若干个tuplet，每个tuplet会变成一个token，经过spatialtemperalattention进行空间和时间建模获得有效的视频表征token。　　传统方法可能将视频简单分解为一系列连续的帧，因而忽略了视频中的空间信息，也就是在每一帧中物体的位置和运动。我们认为，由于连续帧存在时空连续性，Sora的时空patches可同时考虑视频中时间和空间关系，能够更加精准生成视频，捕捉到视频中细微的动作和变化，在保证视频内容连贯性和长度的同时，创造出丰富多样的视觉效果，灵活满足用户的各种需求。　　4.2Sora时空patches突破视频长宽比、分辨率等限制　　OpenAI表示，过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，而这损耗了视频生成的质量。例如，ViT通常需要将图像调整为固定的分辨率与尺寸进行处理，并仅能分解为固定数量的patches，因而限制了灵活处理不同尺寸、分辨率视频的建模。　　Sora或借鉴谷歌NaViT中“Patchn’Pack”的方法，在训练效率、模型适应性和推理灵活性等方面具有显著优势。1）允许从不同图像中提取多个patch打包在一个序列中，从而实现可变分辨率并保持宽高比。2）NaViT相比ViT具有较高计算性能。例如，使用四倍少的计算量，NaViT到达顶级ViT的性能。此外，NaViT可以在训练和微调过程中处理多种分辨率的图像，从而在各种分辨率下都能表现出优秀的性能，在推理成本方面给NaViT带来了显著的优势。　　我们认为，经过patch化之后，Sora无需对数据进行裁剪，就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练，既极大程度上利用原始信息保障生成高质量图片或视频，又显著提升模型性能，节约训练与推理算力成本。　　根据技术报告，Sora在原视频训练有以下优势：采样灵活性：Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有格式。这使得Sora能够直接按照不同设备的原生宽高比创建内容。它还允许在使用同一模型生成全分辨率内容之前，快速原型化较小尺寸的内容。改进的构图和画面组成：将Sora与一个版本的模型进行了比较，该模型将所有训练视频裁剪成正方形。在正方形裁剪上训练的模型有时会生成主体只部分出现在视野中的视频。相比之下，来自Sora的视频具有改善的取景。　　4.3Transformer架构突显ScallingLaw的“暴力美学”　　扩散模型定义了扩散步骤的马尔科夫链，先通过向真实数据添加随机噪声，后反向学习扩散过程，从噪声中构建所需数据的样本，逐步降噪输出图片或视频。其中，U-Net为扩散模型的重要架构之一，通过训练U-Net预测噪声，逐步去噪后输入结果。　　U-Net为卷积神经网络模型（CNN），在视频生成领域存在需裁剪数据与额外引入时间层等缺陷。1）卷积神经网络由于架构限制，存在分辨率与长宽比约束，输入与输出的结果均需调整至标准化大小，可能产生性能损失与效率低下等问题。2）U-Net的去噪模型在处理视频数据时，需额外加入一些和时间维度有关的操作，比如时间维度上的卷积、自注意力。在该过程涉及到时间注意力块嵌入位置问题，因而或较难处理长视频较多帧数的时间嵌入。　　OpenAI在2020年首次提出了模型训练的秘诀——ScalingLaw。根据ScalingLaw，模型性能会在大算力、大参数、大数据的基础上像摩尔定律一样持续提升，不仅适用于语言模型，也适用于多模态模型。　　Sora替换U-Net为DiT的transformer作为模型架构，具有两大优势：　　1）transformer可将输入视频分解为3Dpatch，类似DiT将图片分解为图块，不仅突破了分辨率、尺寸等限制，而且能够同时处理时间和空间多维信息；　　2）transformer延续了OpenAI的ScalingLaw，具有较强的可拓展性，即参数规模越大、训练时长越长、训练数据集越大，生成视频的效果更好。例如，Sora随着训练次数的增加，小狗在雪地里的视频质量显著提升。　　U-Net为扩散模型主导架构，主要系Transformer中全注意力机制的内存需求会随输入序列长度而二次方增长，高分辨率图像处理能力不足。在处理视频这样的高维信号时，这样的增长模式会让计算成本变得非常高。然而，我们认为，OpenAI背靠云计算资源，具有较强的算力禀赋支持其再次打造“ChatGPT”时刻的Sora，此外通过视频网络空间降维技术可起到节约算力资源的作用，进一步促成Sora的成功与巩固OpenAI的龙头地位。　　4.4Sora在Transformer大规模训练下涌现模拟能力　　Sora在大规模训练的“暴力美学”下，未经过明确的3D、物体等归纳信息的训练，逐步显现出规模效应，迸发了模型的涌现能力：3D一致性：Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转，人物和场景元素在三维空间中保持一致地移动。长距离连贯性和物体持久性：Sora通常能够有效地建模短距离和长距离依赖关系。例如，即使在人、动物和物体被遮挡或离开画面时，也能持续保持它们的存在；在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。与世界互动：Sora有时可以模拟一些简单的动作来影响世界的状态。例如，画家可以在画布上留下随时间持续存在的新笔触，或者一个人可以吃一个汉堡并留下咬痕。模拟数字世界：Sora可以在同时控制《我的世界》中的玩家采用基本策略的同时，还能以高保真度渲染世界及其动态。　　4.5数据来源或更为丰富，视频重标注技术展示强大语言理解能力　　缺乏丰富的视频数据集以及如何对视频标注文本为文生视频的主要难点之一。从流行的Gen-2、EmuVideo等应用来看，这些模型通常先利用CLIP技术训练生成文本-图像对，之后加入时间层对视频进行标注，因而或许面临视频数据质量保证问题。　　Sora训练数据集具有如下特点：数据来源或更为丰富。Sora技术报告未披露训练数据的详细情况，而我们认为从其涌现能力表现来看，Sora在训练数据中或许容纳了众多电影、纪录片、甚至游戏引擎等合成数据。原生视频处理。不对视频/图片进行裁剪等预处理，从而保证Sora生成的灵活性。Sora建立在过去DALL?E3和GPT模型的研究基础之上，构建视频re-captioning，使得模型具有强大的语言理解能力。原始的文本可能并不能很好的描述视频，可以通过re-captioning的方式为视觉训练数据生成高度描述性的字幕。因此，该模型能够在生成的视频中更忠实地遵循用户的文字提示。本文节选自华福证券《Sora技术深度解析》，施晓俊（执业证书编号：S0210522050003）　　风险提示及免责条款　　市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。股市回暖，抄底炒股先开户！智能定投、条件单、个股雷达……送给你>>海量资讯、精准解读，尽在新浪财经APP

"厨房里的激战2pop电影",　　Khosla指出，语言将主导AI交互界面，同时AI应用正逐步适应人类。AI正创造人为中心和基于代理的未来。　　这是OpenAI首位投资人VinodKhosla关于AI交互与革命的最新洞察。Khosla对常见术语“AI硬件”和“小工具”表示怀疑，他主--**--　　Khosla指出，语言将主导AI交互界面，同时AI应用正逐步适应人类。AI正创造人为中心和基于代理的未来。　　这是OpenAI首位投资人VinodKhosla关于AI交互与革命的最新洞察。Khosla对常见术语“AI硬件”和“小工具”表示怀疑，他主张从一个新的视角来看待这些设备，认为它们是即将到来的时代中不可或缺的组成部分，这个时代的特点是以低延迟语音交互作为主要的用户界面。　　Khosla强调，这不仅仅是关于设备的讨论，而是关于人机交互根本性转变的讨论。他认为AI将在我们与技术的关系中引发两个根本性的变化。首先，语音——已经是最自然的人类互动界面——将成为主导的交互界面。　　想象一下，延迟时间减少到不到半秒，这与基于触摸的设备的迟缓形成了鲜明对比。甚至“无声语音”也在讨论之中——在公共场合如咖啡厅中，无需发出声音即可发出命令。通过检测这种“无声言语”，技术将允许人们在公共场所私下口述，而不被旁人听见。　　第二个变革是应用程序将如何适应我们。不再需要像学习使用Uber或、Oracle这样的复杂系统一样，去学习如何导航应用程序。　　到目前为止，我们总是在适应软件——学习它的复杂性，记住层次化的菜单等等，以此来与机器通信。　　现在，AI正在使软件适应人类。这将导致新类型的硬件的诞生，这些硬件主要设计用于语音互动，计算机学习人类的语言和人类本身。虽然对于某些视觉任务可能仍然需要屏幕，但核心交互将转向语音——无论是无声的还是有声的。　　设计师JonyIve和OpenAI的SamAltman讨论了一个AI硬件项目。多年前开始的Humane猜测了这种接口——但早期的热度很快消退了。这些企业家的方向是正确的，但他们的实现没有充分专注于AI使能的新用户体验。　　Rabbit凭借其最小化的设备引起了轰动，使得CEOSatyaNadella称其R1发布为“我看过的最令人印象深刻的展示之一，自SteveJobs在2007年介绍iPhone以来，捕捉到了什么是可能的愿景。”　　KhoslaVentures也是Rabbit的投资者之一，有新Newin 曾在第一时间分享过《【2.1万字实录】Rabbit创始人&CEO吕骋最新对谈|R1更像是AI+iPod，而不是iPhone杀手》。　　Khosla认为Rabbit是重新定义人机交互在强大AI世界中的早期尝试。这些设备将围绕着我们应该通过自然语言用声音与计算机（或可以为我们运行应用的代理）对话的理念为中心，而不是通过人造构造。　　以Khosla个人的生活习惯为例。当他徒步时，他会使用一个叫做PictureThis的应用来识别我遇到的植物，但这个过程很麻烦：停下来，暂停有声读物，打开应用，拍照，等待答案加载，关闭应用，把手机放回口袋。　　有了这项新技术，他只需将设备指向植物并问：“这是什么植物？”便会得到答案，然后我可以说“播放有声读物”并继续听我的书，无需中断或麻烦。　　从成本角度看，这种以语音驱动的方法是一个游戏规则的改变者。它比传统的智能手机要便宜得多。形态因素的创新也很可能，尽管配备更大屏幕的手机不会消失。　　Rabbit的大型动作模型（LAM），基于神经符号方法，学会使用软件应用并跨应用工作，因此人类不需要了解其他应用或网站。Rabbit的代理将与人类交谈并为他们使用这些应用。　　语音比打字或触摸屏更简单、更高效。高分辨率图形和触摸界面要求昂贵、复杂的计算。相比之下，驱动ChatGPT和其他聊天机器人的非常大的5000亿参数大型语言模型试图学习所有曾经发布的内容。　　Rabbit的LAM表现得更像是学习如何使用应用和其他LLM的人类，因此人类不需要学习它们或掌握提示工程。LAM学习使用软件的方式就像人类一样，而不是通过应用程序编程接口与应用通信，如传统软件所做的。　　想象有人在你滑动手机时偷看你的肩膀并学习那些模式。那就是LAM——或者未来可能被称为的东西。这是传统范式的完全颠覆，意味着最终我们不必与软件交互，因为AI将代表我们这样做。　　手机，就像现在这样，被设计来分散我们的注意力。如果Khosla在徒步时不得不拿出手机，会看到电子邮件、短信和其他通知；他会被拉进某个社交平台，被广告打扰，甚至可能下陷入一个漩涡，毫不夸张地说。　　手机不断争夺我们的注意力，将我们拉入通知和消息的漩涡。这些新设计，如Rabbit，旨在节省时间并最小化分心。你告诉它要做什么，它就仅仅做那个，没有更多。　　初创公司可以如此敏捷和创新！技术的未来不是关于渐进式变化或过去的外推，这不仅仅是关于制造另一个iPhone16或17——尽管那些将继续非常有价值。这是关于我们与设备互动方式的根本性转变，这是以AI为中心的，需要新的设计和新的优先级，硬件支持。初创公司最适合这样的转变。现有的大公司肯定会慢慢跟进。　　这就像Apple支配手机市场之前的手机市场。在2006年，大名鼎鼎的是Nokia、Motorola，也许还有Samsung和BlackBerry。Apple当时甚至还没有进入这个画面。　　然后它突然推出iPhone，彻底改变了游戏规则。通过一个创新的以用户为中心的触摸界面，在这个高度便携的计算机中，成为可能的数百万应用。　　正因为下一个阶段不是关于硬件或小工具，而是关于人类与计算机互动方式的彻底改造，我们将把像Rabbit的R1这样的设备添加到我们的装备中。我们将使用一个按钮设备，通过自然语言驱动大多数互动，屏幕如我们所知将成为次要。　　这些新设备能够做的很多事情可以通过在传统设备如智能手机上的“代理”应用来完成。但智能手机不提供亚秒级的、无干扰的互动和其他独特功能，这些是人类中心的AI将启用的。　　新技术将出现以支持这个生态系统，如植入隐形眼镜和眼镜的显示器和许多不同的方法来无声言语，以便在公共场所隐秘地使用设备。　　这些设备正在发明一个以人为中心和基于代理的未来，由新的AI技术启用。Rabbit正在对此进行真正的尝试，这不仅仅是一个渐进式的变化。其他人肯定会跟进，创造许多便于携带和使用的设备。　　Apple带给我们“有一个应用可以做到那个”的世界。Rabbit式的设备将带给我们“有一个AI可以做到那个”的世界，通过一个以语音驱动的个人代理访问，可以为你运行应用（END）。　　风险提示及免责条款　　市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。股市回暖，抄底炒股先开户！智能定投、条件单、个股雷达……送给你>>海量资讯、精准解读，尽在新浪财经APP

"厨房里的激战2pop电影",
作者：锺寻双

收评：北向资金卖出13.13亿元，沪股通净买入8.29亿元

"厨房里的激战2pop电影",苏州一高架道路结冰多车相撞有人员受伤,影迷评《狗神》：惊艳表演感动落泪,贵州山火频发：一线消防员将朋友圈设为家人不可见,以色列总理继续强硬表态：谈判可以谈，但拉法必须打,我在县城开零食店，春节能卖200万

"厨房里的激战2pop电影",药明合联午盘涨超8%天风证券给予买入评级

"厨房里的激战2pop电影",
总监制：楚谦昊

监制：辜安顺

主编：汲念云

编审：茹益川

（文章未经授权不得转载。）

点击收起全文

返回央视网首页返回新闻频道

扫一扫分享到微信

返回顶部