前言:
眼前大家对“热点分析主要包括”都比较注意,我们都需要知道一些“热点分析主要包括”的相关知识。那么小编在网上搜集了一些有关“热点分析主要包括””的相关文章,希望看官们能喜欢,大家快快来学习一下吧!本发明涉及电子产品领域,具体涉及一种微博热点话题预测方法及系统。
背景技术:
微博的自由度和海量信息使得人工排序和分类变得困难。 人工操作在效率上无法满足需求。 快速、合理地预测微博的发展趋势具有重要意义。 许多学者开始研究话题发现和预测。 技术。
技术实现要素:
本发明的目的是提出一种对微博热点话题进行分析和预测的方法,利用数据挖掘算法对采集到的微博信息进行有效处理,为用户提供灵活、快速、易用的数据推送体验。 微博信息包括微博内容和微博参数。
一种微博热点话题分析预测方法,其特征在于,包括以下步骤:
s1。 从主流微博网站收集微博数据。 微博信息包括:微博内容和微博参数;
s2。 对微博文本进行数据预处理,包括分词、词频统计等步骤;
s3。 进一步对微博文本进行计算分析,统计描述话题的各种量化指标,计算各种微博热度指标,计算出当前微博热点话题;
s4。 按照热度从高到低的顺序输出并展示微博热点话题。
采集微博数据的具体方法为:通过微博门户指定的开放接口采集该门户的微博信息。 通常,网络爬虫用于搜索网络并下载和存储所需的数据。
采集微博数据的流程为:
流程1.1、跟踪爬虫所有已知URL的存储模块;
流程1.2、文件下载模块,根据给定的url从网络获取文件;
Process 1.3是文件解析模块,负责从HTML、PDF、Word等各种格式的文件中提取原始内容。 它还负责提取文件中的 URL 和其他对索引有用的数据,特别是元数据信息;
进程1.4,存储模块,存储抓取过程中采集到的文件的元数据以及从原始文件中提取的内容;
步骤1.5、将URL转换为标准形式,以便比较计算URL的正则化模块;
流程1.6、URL过滤模块,避免无效URL;
网络爬虫自动获取多个初始网页的URL。 在搜索和抓取URL的过程中,引用了增量更新的概念。 在抓取当前页面的同时,也会抓取后续的URL,直到满足0的定义。 结束判断条件。
该采集微博数据的方法适用于采用自动聚类的方法对采集到的微博内容进行分类,得到该微博所属的类别。
数据预处理的具体工作流程如下:
流程2.1,输入文档集合,合并源微博和转发微博,
流程2.2、利用现有的分词技术工具jieba对微博文本进行分词;
流程2.3,过滤停用词包括数字、标点符号等无意义的词语。 需要保留含有“#”的单词表示讨论主题,含有“@user”的单词表示该主题的转发。 适合根据垃圾邮件数据库中的中心词组过滤垃圾邮件。 短语;
处理2.4,对分词结果进行词性标注。 标注内容包括词频wf、词位wl、特殊标记si、命名实体ne等参数。
主题计算与分析的具体步骤如下:
步骤3.1,对微博进行分类,根据来源分为源微博和转发微博;
步骤3.2,基于mantaras距离优化关键词提取;
步骤3.3,根据关键词三元组<w,t,s>,w代表微博链中的一个词; t表示该词所在微博与转发该词的微博之间的时间间隔。 为了方便计算,我们使用的是时间分类级别; s表示该词所在微博的类型,其值为(0,1,2),分别对应上面的普通、显式、广播类型; 三元组的数据空间表示为w,显然转发消息中的单词对应的三元组中t的值为0;
步骤3.4:根据关键词及其三元组计算主题的流行度。
基于mantaras距离优化提取关键词的具体步骤如下:
步骤4.1,以“mantaras距离”作为分支划分标准,学习训练数据,构建决策树t;
步骤4.2,输入数据集;
步骤4.3:根据数据预处理模块中提取的词的相关属性:词频wf、词位wl、特殊标记si、命名实体ne等参数,计算各属性值。 词的权重可以通过以下公式计算:
其中,α、β、γ、μ分别为缺陷品、位置、特殊标记、命名实体的调整因子,q(wi,dj)为词wi、wl(wi,dj)的权重是单词的位置,si是特殊符号,突出的单词如粗体或黑色,sih,特殊符号内的单词,如“”内的单词sis;
步骤4.4:将步骤4.3计算出的单词权重从大到小排序,选择前5000个单词构建关键词集合,并为每个关键词分配一个ID号。
本题具体计算分析为:
选择权利要求7中得到的关键词集合,基于潜在狄利克雷模型(lda)的思想,根据以下公式,微博文本中关键词和主题的联合概率分布为:
p(w|θ,β)=p(w|z,β)p(z|θ)
=p(w|z)p(w|β)p(z|θ)
=Σ<w,t,s>εwp(t,s)p(wi|t,s,zi)Σzp(w|z,β)p(z|θ); (2)
代表单词分布; θ表示主题分布; α是主题分布θ的先验分布,即狄利克雷分布参数; β 是词分布
的先验分布是狄利克雷分布的参数。
话题展示流程为:根据微博热门话题当前热度由低到高排序展示。
一种微博热点话题分析预测系统,该系统包括:数据采集模块,用于采集来自新浪微博网站的源微博,以及微博在一定时间内的转发信息,微博信息包括:微博内容和微博参数;
数据预处理模块用于对数据采集模块采集到的微博进行处理,包括合并微博、切词、过滤无用信息等,找到出现频率较高的词;
话题计算分析模块根据数据预处理模块最终得到的词计算微博话题的流行度,包括话题特征词提取和相似话题合并。 适合对数据预处理模块得到的高频词建立基于LDA的改进算法。 热点话题分析与预测模型,合并相似度超过阈值的话题并合并相似话题,通过该模型判断后续微博帖子能否成为热点话题;
话题展示模块对热门话题的热度值进行排序,得到微博热门话题的排名;
数据采集模块为数据预处理模块提供处理数据。 数据预处理模块处理后的数据再被话题计算分析模块用来计算已有的话题并预测当前微博的话题。 最后,主题显示模块显示微博。 博客热门话题。
本发明的有益效果如下:
本发明根据采集到的微博内容计算热门词,并根据获取的微博参数计算计算出的热门词的流行度,从而能够准确判断微博的热门话题,并根据获取到的微博参数。 对计算出的热词进行热度计算,可以准确判断微博热点话题,使挖掘结果更好地反映网络舆情的客观事实。
以上描述只是本发明技术方案的概述。 为了使本发明的技术手段能够更加清楚的理解,可以按照说明书的内容来实施,并且为了使本发明的上述和其他目的、特征和优点更加明显和易懂。 下面列出本发明的具体实施例。
附图说明
在阅读了以下优选实施例的详细描述后,各种其他优点和益处对于本领域普通技术人员来说将变得显而易见。 附图仅用于示出优选实施例的目的,并且不应被解释为对本发明的限制。 此外,在所有附图中,相同的附图标记用于指示相同的部件。 在附图中:
图1为本发明一实施例提供的微博热点话题分析预测系统的结构示意图;
图2是热点话题识别流程图;
图3是数据采集流程示意图;
图4是数据预处理模块的基本流程图;
图5是预测分析模块的基本框架图。
详细方式
下面将结合附图对本发明实施例的技术方案进行清楚、完整地描述。 显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种微博热点话题分析预测系统。 图1为本发明实施例提供的微博热点话题分析预测系统的结构示意图。 如图1所示,根据本发明实施例的微博热点话题系统包括:采集模块、预处理模块、计算分析模块和显示模块。 下面对本发明实施例的各模块进行详细说明。
采集模块适合通过开放接口采集微博信息。 微博信息包括:微博内容、微博发布时间、微博转发与源微博发布的时间间隔、微博作者及微博信息。 来源; 上述微博参数可以包括以下的一种或多种组合:时间点、该时间点的微博转发次数、微博转发总数、微博评论总数、用户之间的转发关系等。
具体地,采集模块可以通过门户微博指定的开放接口采集门户微博的微博信息。
在实际应用中,不同的微博类别有不同的热门话题,不同类别的微博话题热度也不同。 例如,体育领域微博的热门话题远低于娱乐、八卦微博的热门话题。 这就需要对微博主题进行分类,以便用户可以根据不同的微博类别查看微博热点。
本发明实施例采用自动聚类的方法对微博进行分类。 自动聚类是指计算机确定所调查对象的内部或外部特征,并根据一定的要求(例如类别数的限制、相似对象的接近程度等),将所调查对象的内部或外部特征,将接近、相似或具有相同特征的对象放在一起。 微博内容自动分类,可分为体育微博、娱乐微博、情感微博等。
根据本发明的实施例,提供了一种微博热点话题分析预测系统。 图1是根据本发明实施例的微博热点话题分析预测方法的流程图。 如图2所示,根据本发明实施例的微博热点话题流程包括:数据采集、文档采集输入、分词、过滤无用词、关键词流行度计算、热点话题识别。
参考图3,首先要解决数据源问题。 你可以从网站上批量下载这些微博帖子,这是一个爬虫。 使用成熟的爬虫软件,可以使用界面操作进行爬虫。 本发明使用免费的gooseker软件。 该软件是火狐浏览器的插件,避免了很多网站动态渲染分析困难的问题。 它利用了浏览器的功能,只要是在浏览器上看到的元素都可以轻松下载。
采集模块用于根据接收到的查询请求进行相应的数据查询; 当根据数据时间范围元素确定查询请求为实时数据查询时,查询路由将对应的任务调度请求转发至在线查询模块。 采集模块负责调用系统服务获取并缓存实时数据。 实时数据采用增量缓存方式,每次有任务调度请求时触发。 增量获取准实时数据,缓存完成后返回查询结果。
捕获了不同类别的微博数据,包括转发的用户、产生转发行为的用户、微博内容、发布时间等对象。
参见图4,数据预处理模块适用于对采集到的微博内容进行处理;
预处理模块需要找出采集到的各类微博的来源微博及其对应的转发情况。 也就是说,一条转发的微博必须有源微博的内容,并且一条源微博的所有转发微博必须合并成一条记录,然后切分成词,过滤掉无用词等数据; 进行词性标注,用频率wf、词位wl、特殊标记si、命名实体ne等参数对内容进行标记;
参见图5,分析预测模块适用于计算预处理后的数据。
具体地,计算分析模块适用于对预处理后的所有文档中的词进行基于咒语距离优化的关键词提取。 关键词提取的几个参考因素是词频wf、词位wl、特殊标记si和命名实体。 ne,单词的权重可以通过以下公式计算:
其中,α、β、γ、μ分别为缺陷品、位置、特殊标记、命名实体的调整因子,q(wi,dj)为词wi、wl(wi,dj)的权重是单词的位置,si 是特殊符号,突出的单词,例如粗体或黑色,sih,以及特殊符号内的单词,例如“”内的单词 sis。
选择权重最高的 5000 个单词,为其分配 id,并构造一个三元组。
适用于统计该词所在微博的时间区间和类型,并根据LDA模型进行扩展; 利用该模型推导了吉布斯采样方法,主要推导过程如下:得到微博文本中所有单词和主题的联合概率分布为
p(w|θ,β)=p(w|z,β)p(z|θ)
=p(w|z)p(w|β)p(z|θ)
=Σ<w,t,s>εwp(t,s)p(wi|t,s,zi)Σzp(w|z,β)p(z|θ)(4)
将热点话题按照热度值从高到低排序并输出展示。
技术特点:
技术总结
本发明公开了一种微博热点话题分析预测方法及系统,包括数据采集模块、预处理模块、计算分析模块和显示模块。 本发明通过聚类分析技术对收集到的微博进行分类; 本发明对微博内容进行分词,进行词性标注,并融合源微博和转发微博,创建基于社交网络Lei分布模型的隐式Dilic微博主题识别方法,并考虑类型和时间微博词汇计算因子重构LDA模型。 本发明通过对微博一小时内发送的传播信息与24小时内的传播规模和深度进行关联分析,得到话题热度高度相关的评价指标。 本发明可以应用于开发者向用户推送消息。 和广告推送。
技术研发人员:钱晨思; 周从化; 陈伟和; 王润玉; 刘志峰; 李雷; 单天华
受保护技术使用者:江苏大学; 无锡恒创医疗信息技术开发有限公司
技术研发日:2017.10.20
技术公告日期:2018.04.06
标签: #热点分析主要包括