龙空技术网

pkuseg-python:一个高准确度的中文分词工具包

PM88 669

前言:

目前姐妹们对“python进行分词”大约比较关注,小伙伴们都需要了解一些“python进行分词”的相关文章。那么小编在网上收集了一些对于“python进行分词””的相关文章,希望咱们能喜欢,朋友们一起来学习一下吧!

pkuseg-python简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。

目录

主要亮点编译和安装各类分词工具包的性能对比使用方式相关论文其它语言实现作者

主要亮点

pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg具有如下几个特点:

高分词准确率。相比于其他的分词工具包,我们的工具包在不同领域的数据上都大幅提高了分词的准确度。根据我们的测试结果,pkuseg分别在示例数据集(MSRA和CTB8)上降低了79.33%和63.67%的分词错误率。多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。支持用户自训练模型。支持用户使用全新的标注数据进行训练。

编译和安装

通过pip下载(自带模型文件)

pip install pkuseg之后通过import pkuseg来引用
从github下载(需要下载模型文件,见预训练模型)
将pkuseg文件放到目录下,通过import pkuseg使用模型需要下载或自己训练。

标签: #python进行分词