#一天一个AI知识点# 什么是预训练模型？

海伦不是AI 12-18 188

前言：

此时姐妹们对“预训练模型和自己训练的模型区别”大体比较注重，咱们都需要剖析一些“预训练模型和自己训练的模型区别”的相关文章。那么小编也在网摘上搜集了一些有关“预训练模型和自己训练的模型区别””的相关内容，希望兄弟们能喜欢，兄弟们一起来学习一下吧！

说到自然语言处理（NLP），自然就得说到预训练模型。近年来，预训练模型的出现将自然语言处理带入了一个新的时代。那什么是预训练模型呢？我们去百度这个词的时候，各类学术名词、专家解释看完以后是不觉得还是没看懂？关键是也不想看懂，内容太多、太专业，根本记不住。我用小白的方式看完给提炼几个知识点供大家参考：

1、预训练模型，顾名思义，就是预先训练好的模型。（PLMs，Pre-trained Models，知道单词，这个缩写就好记多了吧？）

2、具体讲，预训练就是先在大量通用语料上训练模型，学习到通用的语言知识，然后再针对性地针对任务进行迁移训练。预训练模型把迁移学习很好地用起来了，这和小孩子读书一样，一开始语文、数学、化学都学，读书、网上游戏等，在脑子里积攒了很多。当他学习计算机时，实际上把他以前学到的所有知识都带进去了。预训练模型就意味着把人类的语言知识，先学了一个东西，然后再代入到某个具体任务，就顺手了，就是这么一个简单的道理。

3、为什么我们要做预训练模型？就是有效啊，NLP最难获取的就是资源资料，预训练可以将从开放领域学到的知识迁移到下游任务。就像执行太空任务一样，得利用地面的条件作出模拟环境大量训练，等真正到太空的时候才能应付各种可能的情况。笔云科技在用AI赋能国际物流行业时，就是通过预训练模型一边做大量的训练，一边迁移做AI应用落地，在实践中持续训练优化，从而大幅度推动 AI 在提单比对、邮件自动归档、托书自动化录入等很多重要场景落地。

4、预训练模型的三个关键技术：Transformer、自监督学习、微调。（后面再来具体学习）

5、经典预训练模型有哪些：ELMo、GPT、BERT

ELMo ：通过深层双向语言模型来构建文本表示，有效解决了一词多义问题

GPT：是一种半监督的方法，结合了非监督的预训练模型和监督的微调模型，来学习一种通用的表示法

BERT：也是一种典型的微调模型结构，从 BERT 模型开始，自然语言处理领域终于找到了一种方法可以像计算机视觉那样进行迁移学习。

基于 BERT 的改进模型有 ERNIE、SpanBERT、RoBERTa、ALBERT 等。

好啦，这次就学习这么多，多了咱也记不住不是？

本文地址：http://www.longkongtuishu.com/ca7e9A2sBB1EHAFQ.html

标签： #预训练模型和自己训练的模型区别 #预训练模型主要为了解决什么问题 #什么叫预训练模型 #预训练模型和自己训练的模型区别是什么