前言:
此时大家对“关键词自动提取算法是什么”大致比较注意,咱们都需要分析一些“关键词自动提取算法是什么”的相关知识。那么小编同时在网上网罗了一些对于“关键词自动提取算法是什么””的相关文章,希望小伙伴们能喜欢,姐妹们一起来了解一下吧!场景需求
有一篇文章,不在人工干预下,自动提取关键词。
基本理论
文章的关键词,最初的方法多是使用词语出现的频次(Term Frequency,缩写为TF)作为衡量的标准,但在实际应用过程中会出现一些无关紧要的关键词,如“我、你、他们”,“的”,“是”。
虽然这些毫无意义的助词、代词可以通过停用词来过滤掉,仍然会有一些有意义但不是关键词的干扰词语。那么有没有一种规则可以降低一些非常通用且常见词语的权值,而增加不那么常见词语的权值呢?
因此人们提出了新的规则,逆文档频率(Inverse Document Frequency,缩写为IDF),IDF可以降低一些非常通用且常见词语的权值,而增加不那么常见词语的权值。下面将就如何在一篇文章自动提取关键词做一个项目框架流程图。
思路流程图
计算公式
(1) 计算词频
(2) 计算逆文档频率
(3) 计算tfidf权重
欢迎各位读者朋友们留言一起探讨学习!觉得文章对你有帮助,记得点赞、关注、转发喔!
版权声明:
本站文章均来自互联网搜集,如有侵犯您的权益,请联系我们删除,谢谢。
标签: #关键词自动提取算法是什么 #关键词自动提取算法是什么意思