成本是ChatGPT百分之一，幻方概念引爆

海涵说2022 06-01 388

前言：

此时同学们对“幻方是什么软件”大致比较关怀，朋友们都需要了解一些“幻方是什么软件”的相关知识。那么小编在网上搜集了一些有关“幻方是什么软件””的相关内容，希望小伙伴们能喜欢，我们快快来学习一下吧！

一，幻方发布新一代大模型DeepSeek-V2

昨天，知名私募巨头幻方量化旗下的AI公司深度求索（DeepSeek）发布全新第二代MoE大模型DeepSeek-V2。模型为总计236B参数的MOE模型，约21B激活，在训练阶段模型本身使用了8.1万亿tokens进行训练。模型在架构上持续创新，采用了创新的MLA架构（注意力机制中相较于传统的MHA，能够显著降低内存占用），叠加MOE结构中的创新，使得推理成本显著下降，目前模型已经开源。

二，能力媲美GPT-4，价格为其百分之一

先看性能。

和当前主流大模型相比，DeepSeek-V2毫不逊色。

在目前大模型主流榜单中，DeepSeek-V2均表现出色:中文综合能力（AlignBench）开源模型中最强；英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral 8x22B，模型支持128k上下文。在测评得分上，MMLU得分77.8分，整体超过GPT3.5接近GPT4，与最新的LLaMA3 70B接近。

不过，技术已经不是大模型的唯一宣传点了。

作为AI技术的前沿领域，大模型更新换代之快有目共睹，再强的性能也可能在发布的下一秒就被友商反超。

因此，DeepSeek选择“卷”价格。

目前DeepSeek-V2 API的定价为：每百万token输入1元、输出2元（32K上下文）。

和友商相比，仅为GPT-4-Turbo的近百分之一。

DeepSeek v2非常值得重视，简单说，就是下面这张图，DeepSeek v2在能力逼近第一梯队闭源模型的前提下，推理成本降到了1块钱per million token，什么概念，Llama3 70B的七分之一，GPT-4 Turbo的七十分之一....

这时肯定有人会问，赔本卖？正如之前那些价格低廉的GPU云....但DeepSeek v2还真有利润。8xH800，实现每秒5万token峰值吞吐，按上述API报价，每节点每小时创造的收入为5万*3600*0.28/1000000=50美元。而8xH800的成本大约每小时15美元，因为可以做更大的batch size（后面会讲，该模型的KV cache占用很低，可以做大batch size），算力的利用率会比较高，假设80%的利用率，对应40美金收入和15美金成本，也就是毛利率62%（里面很多假设变量，不代表最终结果）

有分析人士指出，即使服务器利用率不充分、批处理速度低于峰值能力，DeepSeek也有足够的盈利空间，同时颠覆其他大模型的商业逻辑。

总结就是，主打一个“经济实惠”。

三，价格是怎么被打下去的？

来自DeepSeek-V2的全新架构

从训练来看，H800集群，8卡一个节点，节点内Nvlink，节点间Infiniband。结果来看，8T数据+236B参数，训练使用算力仅为Llama 3 70B的五分之一，GPT-4的二十分之一....且性能上没有很大差距。这是对训练所需计算成本的大幅降低...

从训练到推理，算力的节省真的很夸张。如何实现的呢？除了所谓DeepSeek MoE架构（与Snowflake类似），2个共享专家+160个路由expert的前馈网络，看来看去最核心的创新是——Multi-Head Latent Attention：

简单来说，之前最常用的MHA、GQA、MQA，都是通过合并Query减少QK计算量从而减少KV cache占用。而MLA做的是将KV cache压缩到Latent vector，极大减少了显存占用，降低到之前MHA架构的5%到13%：

是不是有点too good to be true？这种low-rank KV压缩这种方式就没有缺点吗？咨询了下zartbot，可能有过度压缩的问题。相比MHA甚至相比GQA还高得多的压缩比例，损耗多多少少会有。以及引述下Y博士观点：MLA降低了计算复杂度的同时，还提升了模型泛化能力。参考之前Sora对Latent Space patch的高效压缩，实质上都是进一步提取到了更本质的表征。方向肯定是对的，DeepSeek这次的创新真的很值得称赞。当然，海外几个模型大厂比如OAI，估计也有实践，但人家已经是close AI了，幻方这次全开源了...

四，推荐关注公司

（1）办公软件：金山办公、福昕软件、彩讯股份

（2）多模态：万兴科技、美图公司、虹软科技、光云科技

（3）TO B：用友网络、金蝶国际、致远互联、泛微网络、鼎捷软件、汉得信息

（4）金融、教育、医疗：科大讯飞、佳发教育、视源股份、润达医疗、恒生电子、新致软件

我会在公众号：海涵财经每天更新最新的华为概念、创新减肥药、数字经济、ChatGPT、AI算力、CPO/硅光芯片、大数据、6G卫星、数据要素、医疗新基建、一体化压铸、汽车智能化，激光雷达，HUD，车规芯片，空气悬挂、L3级智能驾驶、PET铜箔，纳电池，800V高压，光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘，未来属于高预期差的结构性市场，把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。

— END —

先赞后看，养成习惯

免责声明：图片、数据来源于网络，转载仅用做交流学习，如有版权问题请联系作者删除

本文地址：http://www.longkongtuishu.com/ca786BmsCBFMDDlw.html

标签： #幻方是什么软件