新闻频道 > 社会新闻

沈娜娜团圆火锅:华润电力(00836.HK)1月附属电厂售电量达1890万兆瓦时同比增加28.9%

来源：央视新闻 | 2024-02-26 19:19:03

雷州壹网 | 2024-02-26 19:19:03

原标题："沈娜娜团圆火锅"

"沈娜娜团圆火锅",正在加载

"沈娜娜团圆火锅",华润电力(00836.HK)1月附属电厂售电量达1890万兆瓦时同比增加28.9%,特朗普被曝将在这一关键州集会与德桑蒂斯隔空对阵

"沈娜娜团圆火锅",比亚迪汉最强对手！上汽大众ID.7S实车曝光：车长超5米定位中大型,麻园诗人亮相云南春晚XR技术演绎《现在现在》

"沈娜娜团圆火锅",被叫停的海湾整治项目：是生态修复，还是破坏生态？

男女在厨房激战2图片

青柠影院手机在线高清免费观看

小小水蜜桃高清在线观看

小小水蜜桃4视频

沈娜娜苏清歌团圆火锅说明

青柠影院免费观看电视剧高清凹凸

沈娜娜团圆火锅

沈娜娜团圆火锅:美联航一客机收到爆炸威胁目前已安全降落,蔚来成功向欧洲电网提供调频服务换电站也能储能,美官员证实美英两国对也门胡塞武装发动新一轮袭击

"沈娜娜团圆火锅",英特尔宣布全新制程技术路线图、客户及生态伙伴合作，以实现2030年成为全球第二大代工厂的目标。新闻亮点：?英特尔首推面向AI时代的系统级代工——英特尔代工（IntelFoundry），在技术、韧性和可持续性方面均处于领先地位。?英特尔代工宣布最新制程路线图，包括Intel14A制程技术、专业节点的演化版本，及全新的英特尔代工先进系统封装及测试（IntelFoundryAdvancedSystemAssemblyandTest）能力，以助力客户在AI领域取得成功。?英特尔代工宣布新的客户：微软首席执行官SatyaNadella表示，微软设计的一款芯片计划采用Intel18A制程节点生产。?Synopsys、Cadence、Siemens和Ansys等生态系统合作伙伴宣布其验证工具、设计流程和IP组合已准备好支持英特尔代工客户的设计。今日，英特尔宣布推出为AI时代打造、更具可持续性的系统级代工——英特尔代工（IntelFoundry），并拓展其路线图，以在接下来的几年内确立并巩固制程技术领先性。英特尔还强调了其代工客户的增长势头及生态系统合作伙伴的更多支持。Synopsys、Cadence、Siemens和Ansys等生态系统合作伙伴，均确认其工具、设计流程和IP组合已完成针对英特尔先进封装和Intel18A制程技术的验证，将加速英特尔代工客户的芯片设计。英特尔公司首席执行官帕特·基辛格表示：“AI正在深刻地改变世界以及我们思考技术及其‘芯’动力的方式。这为世界各地富于创新力的芯片设计公司和面向AI时代、业界领先的系统级代工服务——英特尔代工——带来了前所未有的机遇。英特尔代工可以与客户携手开拓全新的市场，改变人们使用技术的方式，让他们的生活变得更美好。”“四年五个节点”之后的制程路线图英特尔拓展了制程技术路线图，新增了Intel14A和数个专业节点的演化版本。英特尔还证实，其“四年五个制程节点”路线图仍在稳步推进，并将在业内率先提供背面供电解决方案。英特尔预计将于2025年通过Intel18A制程节点重获制程领先性。英特尔全新的制程路线图包括了Intel3、Intel18A和Intel14A技术的演化版本，如Intel3-T就通过硅通孔技术针对3D先进封装设计进行了优化，很快将生产准备就绪。英特尔还重点介绍了其在成熟制程节点上的进展，如今年1月份宣布与UMC联合开发的全新12纳米节点。英特尔代工计划每两年推出一个新节点，并一路推出节点的演化版本，通过英特尔领先的制程技术帮助客户不断改进产品。此外，英特尔代工还宣布将FCBGA2D+?纳入英特尔代工先进系统封装及测试（IntelFoundryASAT）的技术组合之中。这一组合将包括FCBGA2D、FCBGA2D+、EMIB、Foveros和FoverosDirect技术。客户里程碑：微软成为Intel18A新客户英特尔的客户表示了对英特尔系统级代工的支持。微软董事长兼首席执行官SatyaNadella在IntelFoundryDirectConnect大会发言中宣布，微软计划采用Intel18A制程节点生产其设计的一款芯片。SatyaNadella表示：“我们正处在一个非常激动人心的平台转换过程中，这将从根本上改变每个企业和整个行业的生产力。为了实现这一愿景，我们需要先进、高性能和高质量半导体的可靠供应。这就是为什么微软对和英特尔代工合作感到兴奋，计划采用Intel18A制程节点生产一款我们设计的芯片。”英特尔代工在各代制程节点（包括Intel18A、Intel16和Intel3）及IntelFoundryASAT（包括先进封装）上均已拥有大量客户设计案例。总体而言，在晶圆制造和先进封装领域，英特尔代工的预期交易价值（lifetimedealvalue)超过150亿美元。IP和EDA供应商：为基于英特尔制程和封装技术的芯片设计做好准备IP（知识产权）和EDA（电子设计自动化）合作伙伴Synopsys、Cadence、Siemens、Ansys、Lorentz和Keysight表示，工具和IP已准备就绪，可帮助代工客户加速基于业界首推背面供电方案的Intel18A制程节点的先进芯片设计。此外，这些合作伙伴还确认，其EDA和IP已在英特尔各制程节点上启用。同时，针对英特尔EMIB2.5D封装技术，几家供应商还宣布计划合作开发组装技术和设计流程。这些EDA解决方案将确保英特尔能够更快地为客户开发、交付先进封装解决方案。英特尔还公布了“新兴企业支持计划”（EmergingBusinessInitiative），将与Arm合作，为基于Arm架构的系统级芯片（SoCs）提供先进的代工服务。这一计划支持初创企业开发基于Arm架构的技术，并提供必要IP、制造支持和资金援助，为Arm和英特尔提供了促进创新和发展的重要机会。系统级代工：英特尔代工在AI时代的差异化优势英特尔的系统级代工模式提供了从工厂网络到软件的全栈式优化。英特尔及其生态系统提供不断改进的技术、参考设计和新标准，让客户能够在整个系统层面进行创新。英特尔代工高级副总裁StuartPann表示：“英特尔提供业界领先的代工服务，并通过有韧性、更可持续和安全的供应源完成交付。这与公司强大的芯片系统能力相辅相成。这些优势结合起来，让英特尔能够满足客户的各项需求。即使是那些要求最为苛刻的应用，英特尔代工也能帮助客户顺利开发和交付解决方案。”全球化、有韧性、更可持续和值得信任的系统级代工在可持续性方面，英特尔的目标同样是成为代工业界佼佼者。2023年，据初步估算，英特尔全球各地的工厂的可再生电力使用率达到了99%。在IntelFoundryDirectConnect大会上，英特尔重申了其承诺，即在2030年达成100%使用可再生电力，水资源正效益和零垃圾填埋。此外，英特尔还再次强调了其在2040年实现范围1和范围2温室气体（GHG）净零排放，2050年实现范围3温室气体净零上游排放的承诺。

"沈娜娜团圆火锅",　　SemiAnalysis的行业专家对最近爆火的Groq推理系统进行了像素级的拆解，测算出其持有成本依然高达现有H100的10倍，看来要赶上老黄的步伐，初创公司还有很多要做。　　最近爆火的AI初创公司Groq，推出了比目前常见GPU推理系统快4倍，成--**--　　SemiAnalysis的行业专家对最近爆火的Groq推理系统进行了像素级的拆解，测算出其持有成本依然高达现有H100的10倍，看来要赶上老黄的步伐，初创公司还有很多要做。　　最近爆火的AI初创公司Groq，推出了比目前常见GPU推理系统快4倍，成本低70%的大模型推理解决方案。　　他们提供的运行MistralMixtral8x7b的API演示，让大部分习惯了其他LLM‘娓娓道来’的用户直呼，简直是魔法！　　Groq在处理单个数据序列方面展现出了惊人的性能优势，这可能使得‘思维链’等技术在现实世界中变得更加实用。　　虽然Groq有如此之多的好处，但评估某款硬件是否真的具有革命性的核心标准是性能与总成本的比值。　　为此，SemiAnalysis首席分析师DylanPatel和分析师DanielNishball写了一篇万字长文，对Groq进行了深度地剖析。　　‘推理速度打破纪录，但代价是什么呢？’　　现在没有人会怀疑AI时代已经到来，重要的是要认识到，AI驱动软件的成本结构与传统软件有非常大的不同。　　在开发和扩展AI软件规模的过程中，芯片微架构和系统架构起着关键作用。　　与之前的软件代相比，AI软件运行的硬件基础设施（Infra）对资本支出（Capex）和运营支出（Opex）以及随后的毛利润有更大的影响。　　因此，优化AI基础设施，让AI软件的规模化部署成本控制在合理范围内变得尤为重要。　　在基础设施方面具有优势的公司，也将在部署和扩展AI应用方面具有很大优势。　　在基础设施方面的领先地位，是为什么Gemini1.5对谷歌来说提供服务的成本比OpenAIGPT-4-Turbo更低，同时在许多任务，特别是长序列代码生成方面表现更好的原因。　　谷歌使用更多的芯片来进行单个推理任务，但他们实现了更好的性能与总成本比。　　于是，在这样的大背景下，性能不仅仅以为单个用户生成的原始Token的速率为唯一的指标，比如延迟优化。　　在评估总成本时，必须考虑硬件同时服务的用户数量。　　这就是为什么提高用于大语言模型推理的边缘硬件的性能吸引力没有那么强的主要原因。　　大多数边缘系统因为不能在大量用户中摊销增加的硬件成本，而无法弥补运行大语言模型所需的增加硬件成本。　　对于同时服务许多用户且批处理大小极大的情况，即吞吐量和成本优化，GPU是首选。　　许多公司在其MistralAPI推理服务上实际上是在亏损。　　一些公司还设定了非常低的速率限制以减少经济上的损失。　　但是只要提供未量化过的模型（FP16）需要至少64+的批大小才能盈利。　　因此，Mistral、Together和Fireworks在提供Mistral服务时基本都处于收支平衡到略有利润的临界点上。　　但对于其他提供MixtralAPI的公司而言，情况并非如此。　　他们要么在关于模型简化（量化）的声明上没有明确说清楚，要么正通过消耗风投资金来吸引客户群。　　也就是说，基本上提供大模型服务的公司成本都是一个很严峻的问题。　　而Groq则采取了一种大胆策略，将每百万Token的价格定为仅0.27美元，直接打起了价格战。　　这样的低价是否是基于性能/总拥有成本（TCO）的考量，正如Together和Fireworks所做的那样？　　还是说，这是一种通过补贴来刺激市场热度的策略？　　值得注意的是，Groq最近一次融资是在2021年，去年还进行了一轮5000万美元的安全可转换债务（SAFE）融资，目前他们正在进行新一轮的筹资活动。　　现在就来深入探讨Groq的芯片、系统和成本分析，来看看他们是如何将大模型的推理成本打下来的。　　Groq构架解密　　Groq的芯片采用了一种无缓冲、完全确定性的超长指令字（VLIW）架构，芯片面积约为725平方毫米，采用GlobalFoundries的14纳米制程技术。　　芯片不依赖外部内存，其权重、键值缓存（KVCache）和激活函数等数据在处理期间全部存储在芯片内。　　由于每块芯片只配备了230MB的静态随机存取存储器（SRAM），没有任何复杂的模型能够仅通过单个芯片运行。　　因此，为了容纳整个模型，必须使用多个芯片并将它们互联。　　对于Mixtral模型，Groq需要使用包含576块芯片的大规模服务器集群来支持其运行，这涉及到8个机架，每个机架装有9台服务器，每台服务器则装有8块芯片。　　和英伟达H100的成本对比　　而英伟达只需使用一到两块H100芯片，就能根据需要处理的数据量大小，轻松适配同一模型。　　Groq制造芯片所需的晶圆成本相对较低，可能不超过每晶圆6000美元。　　相比之下，英伟达的H100芯片采用TSMC定制的5nm工艺生产，每晶圆成本约为16000美元。　　但是，英伟达通过在大部分H100芯片上禁用约15%的部分来提高良品率，这种方法对Groq来说不太适用。　　英伟达还需要为每颗H100芯片支付大约1150美元，以从SKHynix购买80GB的高带宽存储器（HBM），并且还要承担TSMC的芯片封装技术（CoWoS）相关费用和可能的良品率损失。　　相比之下，Groq的芯片不需要外部存储器，因此原材料成本要低得多。　　作为一家初创公司，Groq在生产芯片时面临的固定成本相对较高，这还包括支付给Marvell的高额定制ASIC服务费用。　　下表展示了三种不同的部署情况：一种是Groq的，预计下周将在生产中采用批大小为3的流水线并行处理；另外两种则分别针对英伟达H100芯片的延迟优化和吞吐量优化部署方案，展示了使用推测性解码技术的配置。　　上述分析极大地简化了成本计算（同时没有考虑稍后要深入讨论的大量系统级成本，也未考虑英伟达的巨额利润）。　　核心观点是，比起进行了延迟优化的英伟达系统，Groq在每输出一个Token所需的硅材料成本方面，由于其芯片架构的优势，表现得更为经济。　　8块A100芯片可以支持Mixtral模型，达到每个用户每秒大约220个Token的处理速度，而8块H100芯片在不使用推测性解码的情况下，可以达到每个用户每秒大约280个Token。　　通过采用推测性解码，8块H100芯片组成的推理单元可以实现接近每个用户每秒420个Token的处理速度。　　尽管理论上吞吐量可以更高，但在MoE模型上应用推测性解码存在挑战。　　目前，由于成本效益极差，还没有针对延迟进行优化的API服务。　　API提供商目前看不到通过收取高达10倍费用以降低延迟的市场需求。　　随着代理和其他要求极低延迟的任务变得越来越受欢迎，基于GPU的API供应商可能会推出延迟优化而设计的API，以补充他们现有的为吞吐量优化的API。　　即便采用了推测性解码，针对延迟进行优化的英伟达系统在吞吐量和成本上仍然远远落后于即将实施批处理系统的Groq。　　此外，Groq正在使用较旧的14nm工艺技术，并向Marvell支付了高额芯片利润。　　如果Groq获得更多资金，并能够在2025年下半年前增加他们下一代4nm芯片的生产，经济效益可能会发生显著变化。　　英伟达的后手　　值得注意的是，英伟达并非没有应对策略，预计他将在不到一个月的时间内宣布他们的下一代B100芯片。　　在吞吐量优化的系统中，经济效益发生了显著变化。　　英伟达系统在成本效益上实现了数量级的提升，尽管每用户的处理速度较低。在吞吐量优化的场景中，Groq在架构上完全无法竞争。　　然而，上述的简化分析并不适用于那些购买和部署系统的用户，因为这种分析忽略了系统成本、利润、能耗等多个重要因素。　　因此，提出了一个基于性能/总拥有成本的分析。　　在考虑了这些因素之后，再来计算每个token的成本情况就完全不一样了。　　在英伟达方面，将使用下文展示的GPU云成本来进行分析。　　英伟达GPU主板有很高的利润率。　　此外，服务器的售价高达35万美元，这个价格远超过了大型云服务商对H100服务器的采购成本，其中还包括了高昂的内存成本、8个InfiniBand网络接口卡，总带宽达到3.2Tbps（实际上这对于该推理应用并不必要），以及在英伟达利润之上的额外OEM利润。　　对于Groq，在估算系统成本时，考虑到了芯片、封装、网络、CPU、内存等方面的细节，并假设了一个较低的整体制造商利润。　　没有计入Groq出售硬件时的利润，因此虽然看似是不同的比较基准，但实际上这是一个公平的比较，因为Groq和推理API供应商提供的是相同的产品/模型。　　值得一提的是，8个英伟达GPU只需要配备2个CPU，而Groq的系统则配备了144个CPU和144TB的RAM，规模显著不同。　　把这些组件的成本加在一起后可以发现，每台GroqLPU服务器的成本为3.5万美元，包括8个GroqLPU和所有上述的硬件。　　MixtralGroq推理部署采用了8个机架，每个机架有9台服务器，总成本为252万美元，整个部署共有576个LPU芯片。　　相比之下，一个标准的H100HGX系统的初始投资成本为35万美元，包含了8个H100芯片。而大多数基于H100的Mixtral推理实例，只需要用到其中的2个H100芯片。　　假设资本回报率为18%并且预计使用寿命为5年，H100系统的平均成本为8888美元/月，再加上2586美元/月的托管费用，整体的拥有成本达到了11474美元。　　相比之下，更大规模的Groq系统的总拥有成本，高达每月12.24万美元。　　在针对延迟优化的配置下，8块H100服务器的部署成本为每百万Token5.2美元，而针对吞吐量优化的2个H100服务器的部署仅需0.57美元。　　与之相对，Groq的解决方案每百万Token的成本为1.94美元，比8个H100的配置更经济，也更高效。　　和许多提供推理服务的公司一样，Groq目前的运营模式尚未实现盈利。　　而想要达到收支平衡，Groq需要将其处理速度提高超过7倍。　　这一目标比基于8个H100服务器的延迟优化配置要容易得多——在相同定价下要实现盈亏平衡，效率需要提高近20倍。　　Groq的商业模式，不仅是提供推理API服务，还包括直接销售硬件系统。　　如果Groq以60%的利润率向第三方运营商出售，那么总成本将与英伟达的H100HGX相当，预计售价为大约635万美元。　　尽管Groq宣称其系统在能耗上具有优势，但从现有数据来看，这一点尚不明显。　　即使在对H100服务器的极端假设下，包括CPU和所有8个NIC全速运行也只需10千瓦电力，这比Groq的576芯片服务器所需的230千瓦（每8芯片服务器约3.2千瓦）要高效得多。　　Groq声称自己在每瓦性能上具有优势，但根据现有的信息很难验证这一点。　　需要注意的是，尽管Groq在API业务上目前面临亏损，并且需要通过超过7.2倍的性能提升才能实现盈亏平衡，但他们已经规划了在未来几个季度通过一系列改进达成这一目标。　　这些改进主要通过以下三个方向：持续进行编译器的优化工作，以提升数据处理速度；推出新的服务器设计，大幅减少除了芯片外的其他成本，如减少使用的CPU数量和内存大小；部署更大规模的系统，通过增加处理流水线数量实现更高的数据批处理能力，这不仅可以提升性能，还能支持更大的AI模型。　　虽然每项改进措施本身看似合理，但要实现7倍的性能提升无疑是一项巨大的挑战。　　挑战　　目前，最大的模型参数在1到2万亿之间。不过，谷歌和OpenAI很可能会推出超过10万亿参数的模型。同时，Llama3和更大规模的Mistral模型也即将推出。　　而这将需要配备数百个GPU和数十TB内存的强大推理系统。　　目前，Groq已经证明他们有能力构建适用于处理不超过1000亿参数模型的系统，并且计划在两年内部署100万块芯片。　　挑战一：处理极长的上下文信息　　谷歌的Gemini1.5Pro可以处理高达1000万token的上下文，这相当于可以处理10小时的视频、110小时的音频、30万行代码或700万字的内容。　　分析师预计，很多公司和服务商很快就会跟进对长上下文的支持，以便更好地管理和应用庞大的代码库和文档库，从而进一步取代在实际应用中表现不佳的RAG模型。　　尽管谷歌的处理方式并非传统的注意力机制，后者的处理复杂度是O（n^2），但Gemini1.5Pro仍需数百GB甚至TB级别的内存来存储键值缓存（KVCache）。　　相比之下，Groq在面对长上下文需求时，需要构建的是由数万芯片组成的系统，而不是谷歌、英伟达和等使用的几十或几百芯片。　　可以预见，GPU在四年后依然能够凭借出色的灵活性处理新的模型。但对于缺少动态随机存取内存（DRAM）的Groq来说，随着模型规模的不断增大，这可能会缩短系统的折旧寿命，从而大幅增加成本。　　挑战二：推测性解码等技术的快速发展　　树状/分支推测方法，已经使得推测性解码的速度提升了约3倍。　　如果进一步在生产级系统上高效部署的话，那么8块H100的处理速度就可以达到每秒600个Token，而这将直接让Groq在速度上的优势不复存在。　　通常，推测性解码需要通过牺牲浮点运算性能（FLOPS），来换取更高的批处理大小带来的带宽效率。此时，Groq主要受到FLOPS和网络的限制，而非静态随机存取内存（SRAM）的带宽。　　挑战三：英伟达更强的GPU即将发货　　与此同时，英伟达显然也不会站着挨打。　　就在下个月，性能/总拥有成本（TCO）据传是H100两倍以上的B100就会发布，并在下半年开始发货。与此同时，英伟达还在迅速推进B200和X/R100的研发。　　尽管如此，如果Groq能够有效扩展到数千芯片的系统，那么流水线的数量就可以得到大幅增加，而每个管线阶段的额外静态随机存取内存（SRAM）也将为更多的键值缓存提供空间，从而实现大于10的大批处理大小，并可能大幅降低成本。　　分析师认为，这的确是一个有潜力的方向，但实现的可能性不大。　　最后，还有一个更为关键的问题，快速响应小型模型推理这个市场到底有多大，以至于值得抛下灵活的GPU不用，转而去构建专门的基础设施。　　本文来源：新智元，原文标题：《首席分析师揭秘爆火Groq，每小时要烧168美元！10倍H100拥有成本，老黄笑而不语》　　风险提示及免责条款　　市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。股市回暖，抄底炒股先开户！智能定投、条件单、个股雷达……送给你>>海量资讯、精准解读，尽在新浪财经APP

"沈娜娜团圆火锅",
作者：郝奉郦

新赛季中超联赛开幕在即，将坚决防范打击“假赌黑”

"沈娜娜团圆火锅",华润电力(00836.HK)1月附属电厂售电量达1890万兆瓦时同比增加28.9%,跨省份遗弃亲生父亲，一男子除夕夜被内蒙古呼伦贝尔警方刑事拘留,陕西能源(001286.SZ)：拟向陕西商洛发电增资11.21亿元用于陕投商洛电厂二期2×660MW机组项目建设,首场主场外交大戏，受邀的为何是中亚五国？,龙虎榜：机构今日买入恒为科技等7股，抛售华中数控8516万元-36氪

"沈娜娜团圆火锅",恩捷股份(002812.SZ)：隔膜产品可应用于三元锂电池、磷酸铁锂电池等

"沈娜娜团圆火锅",
总监制：剧曼凝

监制：蒯淑宜

主编：姒泽言

编审：顿盼雁

（文章未经授权不得转载。）

点击收起全文

返回央视网首页返回新闻频道

扫一扫分享到微信

返回顶部