龙空技术网

北大开源中文分词工具包,准确度远超Jieba,提供三个预训练模型

量子位 728

前言:

此时同学们对“中文分词器设计”大概比较注意,咱们都想要剖析一些“中文分词器设计”的相关知识。那么小编同时在网络上汇集了一些对于“中文分词器设计””的相关文章,希望朋友们能喜欢,兄弟们快快来了解一下吧!

车栗子 发自 凹非寺

量子位 报道 | 公众号 QbitAI

“土地,快告诉俺老孙,俺的金箍棒在哪?”

“大圣,您的金箍,棒就棒在特别适合您的发型。”

中文分词,是一门高深莫测的技术。不论对于人类,还是对于AI。

最近,北大开源了一个中文分词工具包,名为PKUSeg,基于Python。

工具包的分词准确率,远远超过THULAC和结巴分词这两位重要选手。

△ 我们 [中出] 了个叛徒

除此之外,PKUSeg支持多领域分词,也支持用全新的标注数据来训练模型。

准确度对比

这次比赛,PKUSeg的对手有两位:

一位是来自清华的THULAC,一位是要“做最好的中文分词组件”的结巴分词。它们都是目前主流的分词工具。

测试环境是Linux,测试数据集是MSRA (新闻数据) 和CTB8 (混合型文本) 。

结果如下:

比赛用的评判标准,是第二届国际汉语分词评测比赛提供的分词评价脚本。

在F分数和错误率两项指标上,PKUSeg都明显优于另外两位对手。

食用方法

预训练模型

PKUSeg提供了三个预训练模型,分别是在不同类型的数据集上训练的。

一是用MSRA (新闻语料) 训练出的模型:

二是用CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型:

三是在微博 (网络文本语料) 上训练的模型:

△ 微博语料举栗

大家可以按照自己的需要,选择加载不同的模型。

除此之外,也可以用全新的标注数据,来训练新的模型。

代码示例

1代码示例1 使用默认模型及默认词典分词2import pkuseg3seg = pkuseg.pkuseg() #以默认配置加载模型4text = seg.cut('我爱北京天安门') #进行分词5print(text)1代码示例2 设置用户自定义词典2import pkuseg3lexicon = ['北京大学', '北京天安门'] #希望分词时用户词典中的词固定不分开4seg = pkuseg.pkuseg(user_dict=lexicon) #加载模型,给定用户词典5text = seg.cut('我爱北京天安门') #进行分词6print(text)1代码示例32import pkuseg3seg = pkuseg.pkuseg(model_name='./ctb8') #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型4text = seg.cut('我爱北京天安门') #进行分词5print(text)

如果想自己训练一个新模型的话:

1代码示例52import pkuseg3pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20) #训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型

欲知更详细的用法,可前往文底传送门。

快去试一下

PKUSeg的作者有三位,Ruixuan Luo (罗睿轩),Jingjing Xu (许晶晶) ,以及Xu Sun (孙栩) 。

工具包的诞生,也是基于其中两位参与的ACL论文。

准确率又那么高,还不去试试?

GitHub传送门:

论文传送门:

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

标签: #中文分词器设计 #分词工具