前言:
此时大家对“pythonhmm”大体比较看重,我们都需要分析一些“pythonhmm”的相关文章。那么小编也在网上网罗了一些关于“pythonhmm””的相关知识,希望各位老铁们能喜欢,小伙伴们快快来学习一下吧!前言:
今天为大家带来的内容是Python英文文章词频统计(14份剑桥真题词频统计),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
Python剑桥真题词频统计
提示:
最好还是要学以致用,小编自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如:数字,普通冠词等,较懒,未清除干净。
Python代码如下:
# 先进行分词words = jieba.cut(text, cut_all = False, HMM = True)#cut_all:是否采用全模式#HMM:是否采用HMM模型
word_ = {}for word in words: if (word.strip() not in stwlist): if len(word) > 1: if word != '\t': if word != '\r\n': # 计算词频 if word in word_: word_[word] += 1 else: word_[word] = 1 # 将结果保存为元组word_freq = []for word, freq in word_.items(): word_freq.append((word, freq)) # 降序排列word_freq.sort(key = lambda x:x[1], reverse = True) #输出前3500个词汇for i in range(3500): word, freq = word_freq[i] print('{0:10}{1:5}'.format(word, freq))
以上就是本文的全部内容啦!
最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“07”即可领取。
版权声明:
本站文章均来自互联网搜集,如有侵犯您的权益,请联系我们删除,谢谢。
标签: #pythonhmm