龙空技术网

如何使用程序自动化提取一篇文章的关键词

PHM小知 57

前言:

此时大家对“关键词自动提取算法是什么”大致比较注意,咱们都需要分析一些“关键词自动提取算法是什么”的相关知识。那么小编同时在网上网罗了一些对于“关键词自动提取算法是什么””的相关文章,希望小伙伴们能喜欢,姐妹们一起来了解一下吧!

场景需求

有一篇文章,不在人工干预下,自动提取关键词。

基本理论

文章的关键词,最初的方法多是使用词语出现的频次(Term Frequency,缩写为TF)作为衡量的标准,但在实际应用过程中会出现一些无关紧要的关键词,如“我、你、他们”,“的”,“是”。

虽然这些毫无意义的助词、代词可以通过停用词来过滤掉,仍然会有一些有意义但不是关键词的干扰词语。那么有没有一种规则可以降低一些非常通用且常见词语的权值,而增加不那么常见词语的权值呢?

因此人们提出了新的规则,逆文档频率(Inverse Document Frequency,缩写为IDF),IDF可以降低一些非常通用且常见词语的权值,而增加不那么常见词语的权值。下面将就如何在一篇文章自动提取关键词做一个项目框架流程图。

思路流程图

图 1:自动提取关键词原理图

计算公式

(1) 计算词频

(2) 计算逆文档频率

(3) 计算tfidf权重

欢迎各位读者朋友们留言一起探讨学习!觉得文章对你有帮助,记得点赞、关注、转发喔!

标签: #关键词自动提取算法是什么 #关键词自动提取算法是什么意思