龙空技术网

上线高利用率AI芯片CAISA,「鲲云科技」提出芯片数据流架构模式

36氪 38

前言:

而今兄弟们对“caffe跑unet”都比较珍视,兄弟们都想要剖析一些“caffe跑unet”的相关文章。那么小编在网摘上搜集了一些关于“caffe跑unet””的相关知识,希望各位老铁们能喜欢,我们快快来了解一下吧!

编辑:石亚琼

配图来源:Pexels

6月23日,鲲云科技在深圳的产品发布会发布全球首款数据流AI芯片CAISA,其定位于AI终端推理,目前已完成量产。

根据官方介绍,CAISA搭载了四个CAISA 3.0引擎,具有超过1.6万个MAC(乘累加)单元,峰值性能可达10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA芯片提供超过340Gbps的带宽。

鲲云援引第三方数据显示,搭载CAISA芯片的加速卡仅拥有英伟达同类产品 1/3的峰值算力,但是其通过95.4%的芯片利用率可以实现3倍左右的的实测性能。

大部分厂商的AI芯片均为指令集的计算架构,此次鲲云科技发布的CAISA芯片则为数据流架构。鲲云表示,数据流架构AI芯片提供较之于指令集架构AI芯片更高的计算效率。指令集的计算架构要求芯片的计算和控制是分离的,而控制过程中模块间的数据移动以及数据计算的过程中会存在等待周期,这会使得芯片的计算模块存在闲置情况,这也是现有芯片利用率普遍低于30%的原因。而数据流架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元。在实测中,数据流芯片可以与同峰值算力的指令集芯片表现出更高的芯片利用率以及更高的实测算力。

本次发布会鲲云科技也带来了AI计算平台星空加速卡X3以及X9。

星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台,为轻量化规格,X3加速卡因此可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等。基于CAISA芯片的X3加速卡动态功耗为20W左右。英伟达边缘端旗舰产品Xavier 在深度学习网络ResNet-50, YOLO v3中实测获得的芯片利用率分别为21.1%、6.8%,而星空X3加速卡的结果为92.3%及82.4%,远高于前者。总体算力表现可以达到Xavier的1.48-4.12倍。

X3 vs Xavier 性能对比图

星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡,峰值性能43.6TOPS,主要满足高性能场景下的AI计算需求。实测性能方面,X9在ResNet50可达5240FPS,与T4性能接近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能提升。最优实测性能下,X9处理延时相比于T4降低1.83-32倍。

X9 vs T4 性能对比图

尽管数据流架构显著的提高了芯片算力的利用率,但是指令集的架构支持各式各样的数据组合,具有较强的通用性。CAISA目前工艺水平为28nm,这在晶体管数量、处理速度、温升等方面较之于更加先进工艺的芯片将会存在的劣势。

鲲云科技认为此次发布的芯片新品的核心竞争力在于提供了更高的算力性价比。

AI芯片产品不同于SaaS等其他企业服务赛道,用户衡量产品的好坏与否,基本是通过芯片的计算能力、通用性以及价格来进行判断。CAISA芯片的竞争路线不是依靠更大的芯片面积和制程工艺提供更高的峰值算力,而是通过数据流动控制计算顺序来提升实测性能。

终端推理芯片赛道上,头部厂商英伟达也部署了边缘侧Xavier芯片以及云端旗舰加速卡T4。鲲云科技创始人兼CEO牛昕宇告诉36氪,芯片赛道的竞争是简单直接的,要素无非就是算力性价比、通用性以及迁移成本。用户会根据自己的算力需求进行产品筛选,然后比对价格。峰值算力的提升往往来自于工艺技术的迭代以及更大的芯片面积,这也就意味着更高的产品成本。但是此次鲲云CAISA架构带来的芯片利用率提升,并不需要更高的峰值算力从而让用户获得更高的实测算力体现,这可以减少企业所需的制造成本。

值得关注的是,英伟达凭借其极强的峰值算力以及软件生态构建了极高的竞争壁垒。除了产品在算力上的优势,英伟达凭借产品积累拥有极强的软件生态,现有用户的转换芯片的成本较高。牛昕宇表示,也许初创企业可以选择其他进行拓展,CAISA带来的数据流架构也许就会是下一个方向。

此外,鲲云将会为用户配备RainBuilder编译工具链,可以支持从算法到芯片的端到端自动化部署,用户和开发者无需了解架构的底层硬件配置。RainBuilder可自动提取主流AI开发框架(TensorFlow,Caffe,Pytorch,ONNX等)中开发的深度学习算法的网络结构和参数信息,并面向CAISA结构进行优化。鲲云希望借助编译工具链提供用户较为方便的部署环境,同时也能完成较为低成本的算法迁移。

2017年鲲云科技获得Pre-A轮投资时,36氪曾对其进行过报道。此时鲲云科技正致力于研发本地化人工智能芯片平台,并在卫星遥感、电力、智慧城市等垂直领域进行落地。目前,鲲云科技已经完成了天使轮,Pre-A轮及A轮融资,设有深圳、山东、伦敦研发中心,2019年于山东成立人工智能研究院,支持技术在各垂直领域的实际落地。

鲲云科技目前已经与浪潮、戴尔达成战略签约,在AI加速计算领域进行合作。其核心产品星空加速卡已发力于电力、教育、智能遥感、智能制造、智慧城市等领域。

企业们往往会首先从细分领域切入,并构建自己的垂直生态圈。鲲云已经在工厂智能安监进行了产品落地,也与南方电网等能源型企业达成合作。AI视觉在AI应用市场份额占比较大,智慧城市、安防、智能工厂等领域均需要AI视觉,人工智能视觉芯片将是鲲云的着重发力点。

终端推理赛道上,寒武纪推出应用于手机终端、AI终端的第三代芯片1M ;华为海思也推出昇腾310应用于AI终端,麒麟900应用于华为手机;地平线则分别上线XForce边缘AI计算平台以及征程应用于安防以及自动驾驶场景;比特大陆以CPU技术路线推出BM1880应用于安防场景。

鲲云科技表示,公司已于2018年8月完成了一笔数千万的A轮融资,公司近两年的发展方向将会是基于CAISA芯片的落地以及拓展。现阶段鲲云科技团队共70余人,主要以研发人员为主,公司目前有拓展服务人员从而适配产品落地的计划。2020年鲲云科技已经有近千万元人民币的订单量,伴随着新品的上线,预估将会有新的营收增长阶段。

标签: #caffe跑unet