前言:
此时同学们对“幻方是什么软件”大致比较关怀,朋友们都需要了解一些“幻方是什么软件”的相关知识。那么小编在网上搜集了一些有关“幻方是什么软件””的相关内容,希望小伙伴们能喜欢,我们快快来学习一下吧!一,幻方发布新一代大模型DeepSeek-V2
昨天,知名私募巨头幻方量化旗下的AI公司深度求索(DeepSeek)发布全新第二代MoE大模型DeepSeek-V2。模型为总计236B参数的MOE模型,约21B激活,在训练阶段模型本身使用了8.1万亿tokens进行训练。模型在架构上持续创新,采用了创新的MLA架构(注意力机制中相较于传统的MHA,能够显著降低内存占用),叠加MOE结构中的创新,使得推理成本显著下降,目前模型已经开源。
二,能力媲美GPT-4,价格为其百分之一
先看性能。
和当前主流大模型相比,DeepSeek-V2毫不逊色。
在目前大模型主流榜单中,DeepSeek-V2均表现出色:中文综合能力(AlignBench)开源模型中最强;英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral 8x22B,模型支持128k上下文。在测评得分上,MMLU得分77.8分,整体超过GPT3.5接近GPT4,与最新的LLaMA3 70B接近。
不过,技术已经不是大模型的唯一宣传点了。
作为AI技术的前沿领域,大模型更新换代之快有目共睹,再强的性能也可能在发布的下一秒就被友商反超。
因此,DeepSeek选择“卷”价格。
目前DeepSeek-V2 API的定价为:每百万token输入1元、输出2元(32K上下文)。
和友商相比,仅为GPT-4-Turbo的近百分之一。
DeepSeek v2非常值得重视,简单说,就是下面这张图,DeepSeek v2在能力逼近第一梯队闭源模型的前提下,推理成本降到了1块钱per million token,什么概念,Llama3 70B的七分之一,GPT-4 Turbo的七十分之一....
这时肯定有人会问,赔本卖?正如之前那些价格低廉的GPU云....但DeepSeek v2还真有利润。8xH800,实现每秒5万token峰值吞吐,按上述API报价,每节点每小时创造的收入为5万*3600*0.28/1000000=50美元。而8xH800的成本大约每小时15美元,因为可以做更大的batch size(后面会讲,该模型的KV cache占用很低,可以做大batch size),算力的利用率会比较高,假设80%的利用率,对应40美金收入和15美金成本,也就是毛利率62%(里面很多假设变量,不代表最终结果)
有分析人士指出,即使服务器利用率不充分、批处理速度低于峰值能力,DeepSeek也有足够的盈利空间,同时颠覆其他大模型的商业逻辑。
总结就是,主打一个“经济实惠”。
三,价格是怎么被打下去的?
来自DeepSeek-V2的全新架构
从训练来看,H800集群,8卡一个节点,节点内Nvlink,节点间Infiniband。结果来看,8T数据+236B参数,训练使用算力仅为Llama 3 70B的五分之一,GPT-4的二十分之一....且性能上没有很大差距。这是对训练所需计算成本的大幅降低...
从训练到推理,算力的节省真的很夸张。如何实现的呢?除了所谓DeepSeek MoE架构(与Snowflake类似),2个共享专家+160个路由expert的前馈网络,看来看去最核心的创新是——Multi-Head Latent Attention:
简单来说,之前最常用的MHA、GQA、MQA,都是通过合并Query减少QK计算量从而减少KV cache占用。而MLA做的是将KV cache压缩到Latent vector,极大减少了显存占用,降低到之前MHA架构的5%到13%:
是不是有点too good to be true?这种low-rank KV压缩这种方式就没有缺点吗?咨询了下zartbot,可能有过度压缩的问题。相比MHA甚至相比GQA还高得多的压缩比例,损耗多多少少会有。以及引述下Y博士观点:MLA降低了计算复杂度的同时,还提升了模型泛化能力。参考之前Sora对Latent Space patch的高效压缩,实质上都是进一步提取到了更本质的表征。方向肯定是对的,DeepSeek这次的创新真的很值得称赞。当然,海外几个模型大厂比如OAI,估计也有实践,但人家已经是close AI了,幻方这次全开源了...
四,推荐关注公司
(1)办公软件:金山办公、福昕软件、彩讯股份
(2)多模态:万兴科技、美图公司、虹软科技、光云科技
(3)TO B:用友网络、金蝶国际、致远互联、泛微网络、鼎捷软件、汉得信息
(4)金融、教育、医疗:科大讯飞、佳发教育、视源股份、润达医疗、恒生电子、新致软件
我会在 公众号:海涵财经 每天更新最新的华为概念、创新减肥药、数字经济、ChatGPT、AI算力、CPO/硅光芯片、大数据、6G卫星、数据要素、医疗新基建、一体化压铸、 汽车智能化,激光雷达,HUD,车规芯片,空气悬挂、L3级智能驾驶、PET铜箔,纳电池,800V高压,光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘,未来属于高预期差的结构性市场,把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。
— END —
先赞后看,养成习惯
免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除
标签: #幻方是什么软件