龙空技术网

基于爬虫和TFIDF-NB算法的微博情感分析

电子技术应用ChinaAET 109

前言:

现时小伙伴们对“微博爬虫数据分析”大概比较注重,各位老铁们都需要剖析一些“微博爬虫数据分析”的相关资讯。那么小编在网上网罗了一些有关“微博爬虫数据分析””的相关文章,希望你们能喜欢,你们快快来学习一下吧!

网络舆情是指网络用户对社会各方面热点问题所发表的见解和建议的舆论,是社会舆情的一种体现,是公众对社会中各种热点事件和问题所表达的态度、想法、情绪等的集合。互联网的快速发展使得网络舆情的形成和传播速度不断提升,对社会的影响巨大。

文献[1]证明了网络舆情的发展具有混沌的特性,即表现为乱序、无规则、随机变化。在网络舆情传播的过程中,微博给网络舆情的形成、发酵和传播提供了一个强大的互联网平台,给其用户提供了一个向全世界分享信息、发表评论和表达诉求的平台,这些舆论内容在短时间内会大规模地扩散,甚至会影响事件的走向。

本文首先实现一个基于Scrapy框架的微博评论爬虫,将某热点事件的若干条微博评论进行爬取并存进数据库,然后进行文本分割和LDA(Latent Dirichlet Allocation)主题聚类,最后采用TFIDF-NB(Term Frequency Inverse Document Frequency-Navie Bayes)算法进行文本情感分类。

(1)爬虫

爬虫全称为网络爬虫,是一种可以对互联网上的信息进行自动化浏览的网络脚本或程序,可实现对海量互联网信息进行浏览、爬取等操作,并将抓取到的信息存储于本地中。

网络爬虫可以分为4种[2]:通用网络爬虫[3]、主题网络爬虫[4]、增量式网络爬虫[5]、深层网络爬虫[6-7]。

(2)情感分类

情感分析是指识别文本中潜在的想法、情感和态度的方法[8]。情感分类是情感分析的核心内容,情感分类的作用是识别文本数据中的观点,对情感的积极或消极情绪进行分类[9]。

目前情感分类主要有两种方法,一种是基于词典的方法[10-13],另一种是基于机器学习的方法[14-16]。

作者信息:

杨 戈1,2,杨麓涛1

(1.北京师范大学珠海分校 智能多媒体技术重点实验室,广东 珠海519087;

2.北京大学深圳研究生院 深圳物联网智能感知技术工程实验室,广东 深圳518055)

标签: #微博爬虫数据分析