龙空技术网

又一国产大模型,超对称联合复旦大学发布参数语言模型, 已开源

InfoQ 660

前言:

现在你们对“中国科技大学开源镜像”都比较关心,小伙伴们都需要剖析一些“中国科技大学开源镜像”的相关文章。那么小编在网络上汇集了一些关于“中国科技大学开源镜像””的相关资讯,希望姐妹们能喜欢,朋友们一起来学习一下吧!

作者 | 刘燕

InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。

据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。

超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于)

BBT-2-12B-Text:120 亿参数的中文基础模型BBT-2.5-13B-Text: 130 亿参数的中文+英文双语基础模型BBT-2-12B-TC-001-SFT 经过指令微调的代码模型,可以进行对话BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务BBT-2-12B-Fig:文生图模型BBT-2-12B-Science 科学论文模型

另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:

BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:

(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构

(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT

(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2

BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据

BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调

BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文+英文 tokens 预训

开源下载链接:

模型:

官网:Github:

语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:

评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:

论文链接:

本文转载来源:

标签: #中国科技大学开源镜像