龙空技术网

DACE分布式爬虫管理系统使用介绍

zero飞天小猪 130

前言:

此刻各位老铁们对“新闻正文提取算法是什么”都比较注重,小伙伴们都想要学习一些“新闻正文提取算法是什么”的相关资讯。那么小编在网上汇集了一些关于“新闻正文提取算法是什么””的相关资讯,希望同学们能喜欢,朋友们一起来学习一下吧!

项目地址:

1.引言

1.1编写目的

编写本使用说明的目的是充分叙述DACE分布式爬虫系统所能实现的功能及其运行环境,以便使用者了解本软件的使用范围和使用方法,并为软件的维护和更新提供必要的信息。

2.概述

2.1 系统简介

DACE分布式爬虫系统(以下简称DACE系统)旨在通过分布式搭建一个快速、高效、稳定的爬虫系统,能够对京东实现全站商品数据采集,同时采集商品评价并且生成评价数据分析报告;各类新闻博客网站的正文提取,能通过谷歌新闻搜索关键字进行批量采集新闻;快速采集猎聘网并进行数据分析生成行业报告。

快速部署新爬虫是本软件的一个特点,无需修改主程序源代码即可实现新的爬虫规则,真正的可插拔式爬虫。能够随时开启和停止爬虫,一键导出爬虫数据,对爬虫状态进行实时监控。后台服务器运行情况通过动态表格实时显示,能对Redis实施一键清除缓存,方便快速部署新爬虫。

2.2系统运行说明

系统所涉及到的所有爬虫源代码均已部署至云服务器中,通过该链接即可快速访问:

目前已经在谷歌浏览器、火狐浏览器、360浏览器、Safari上通过测试,*建议使用以上其中一种浏览器进行访问,以便达到最佳使用效果。

2.3版权说明

“雁过无声”团队拥有本作品内的所有资料(包括但不限于文字、图片、音频、视频资料、源代码及页面设计、编排、软件等)的版权和其他相关知识产权。未经“雁过无声”事先书面许可,对于本作品上的任何内容,任何单位和个人不得以任何方式复制、转载、链接、转贴、引用、刊登、发表或在非“雁过无声”所属服务器上做镜像或以其他任何方式进行使用。

3.软件功能介绍和使用说明

3.1 入门

通过 快速访问爬虫主页。主页包括爬虫的一些介绍和功能特点,以及相关的数据信息和作者信息。点击“立即体验”跳转到分布式爬虫管理界面,快速上手。

DACE系统导航栏包括以下五大板块功能【任务】【项目】【爬虫】【数据分析】,【监控】。第一板块功能是系统管理,用于对系统全局爬虫的管理,随时停止爬虫以及设置定时任务。第二板块是对爬虫的部署和启动,包括京东、新闻博客、猎聘网爬虫的部署。第三板块为四个爬虫的使用入口。第四板块为数据分析,包括正文的摘要和关键字提取,生成招聘网的职位或者行业报告。第五板块是对服务器的运行状态进行监控,以及可以查看爬虫的运行状态。

4.任务模块

4.1控制台

控制台是对系统全局爬虫运行情况的监控,能够显示队列中等待运行的任务、正在运行的任务和已完成的任务。相关术语说明如下:

术语 说明

任务编号 爬虫的序号

参数 启爬虫时传入的参数(如有需要时)

优先级 不同爬虫的优先程度不同

运行时间 目前爬虫已运行的时长

开始时间 记录启动爬虫的时间

日志 从后台传回的爬虫运行情况数据

动作 从后台传回的爬虫运行情况数据

清空队列 清空Redis数据库中的缓存数据

4.2 定期任务

能够预先设定任务,后台会在指定时间开启爬虫自动采集,点击“增加任务”开始配置新的定期任务。相关术语说明如下:

术语 说明

Day of Month 设定爬虫的启动时间

小时 爬虫运行时长

爬虫 指定某个爬虫

优先级 如有多个定期任务可以设置优先级

5.项目模块

DACE系统是以项目为单位对爬虫进行管理,如创建A,B两个项目,A项目中可以创建京东,新闻等若干个爬虫;B项目中可以创建不同使用场景的京东,猎聘网等若干个爬虫,两者互不干扰,实现可插拔式管理爬虫。

5.1部署

已经完成项目创建可以进行部署爬虫,通过EGG文件将爬虫的相关配置上传至服务器。即可完成对爬虫的部署。EGG文件是使用scrapyd-client生成的文件,它包括和爬虫配置相关的源代码,即使是不同规则的爬虫,也能快速进行部署和采集。

点击“选择文件”,选择已经通过命令打包好的EGG配置文件,点击“提交”完成部署。

5.2管理

该面板下会显示当前正在运行的项目,可以对该项目进行删除操作,如果需要切换到其他项目,请点击上方导航栏的“项目”按钮,选择其他项目,也可以创建新的项目。点击创建项目,在弹出窗口中输入项目名称,点击“创建”,即可生成新的项目。

6.爬虫模块

该类别下有四个不同类型的爬虫,使用方法如下:

6.1谷歌新闻搜索

此功能是通过谷歌的新闻搜索功能,实现对关键字的新闻搜索,并使用DACE系统自主研发的正文提取算法,对新闻网页的正文内容进行提取。

使用方法:输入“关键字”,设置优先级(可选),点击“开启采集”,后台接收到信号即开始搜索新闻并进行采集。每次搜索会返回所有搜索引擎所有结果。

相关字段说明:

术语 说明

标题 新闻标题

来源 新闻来源的网站

URL 新闻链接

正文 显示提取的出的新闻正文

操作 弹出窗口显示完整标题和正文信息

导出数据 一键将数据导出成excel格式

6.2 新闻博客爬虫

新闻博客类爬虫拥有一套自主研发的成熟稳定的正文提取算法,目前已经通过测试的网页近百个,能够适应主流的新闻博客网站。使用该爬虫需要放入一个入口URL链接,爬虫以该URL作为起始域名限制,同时需要放入模版URL,爬虫只会提取符合模版URL的页面的正文信息,模版URL的数量没有限制。

相关字段说明:

标题:网站标题

来源:新闻/博客来源的网站

内容:使用提取算法提取的结果

URL:新闻/博客的链接

术语 说明

标题 文章标题

来源 新闻/博客来源的网站

内容 使用提取算法提取的结果

URL 新闻/博客的链接

6.3 猎聘网爬虫

猎聘爬虫是对猎聘网招聘信息进行抓取和数据结构化的爬虫,通过职位关键字和指定某个地区即可搜索该职位在地区的招聘信息,每次搜索返回4000条左右的招聘数据,时间在8分钟以内可以完成采集。

相关字段说明:

术语 说明

公司名称 提供职位的企业名称

职位名称 企业提供的岗位薪资

职位薪资 企业提供的岗位薪资

工作地点 岗位所在城市

年龄要求 企业对应聘者的年龄要求

经验 企业对应聘者的工作经验要求

职位描述 单位对职位的工作描述和入职要求

导出数据 一键导出所有招聘信息到excel格式

6.4京东商品爬虫

该爬虫可以实现对京东全站商品数据的抓取,也可以根据关键字搜索对商品结果进行采集。包括采集商家、商品、评论等信息,点击“评论”按钮可以查看商品评论,同时提供评论数据分析。

相关字段说明:

术语 说明

关键字 需要搜索的商品名称(可输入多个)

标题 商品名称

京东价 商品价格

店铺 店铺名

评价数 包括不同星级的评论和总评论数

查看评论 点击查看商品评论

分析评论 对商品评论进行分析

导出数据 一键将数据导出成excel格式

评论分析功能包括:商品购买时间分布、购买人群分布、购买途径(客户端)、用户等级分布

商品购买时间分布:

统计顾客购买该商品的时间分布,目前只对2017年的购买记录进行分析,以月份作为时间单位。

购买人群分布:

根据评论内容,统计该商品的购买和使用对象,如该商品是买给男朋友,或者是买给女朋友。

购买途径:

用户购买途径可以分为:Android客户端,IPhone客户端,Ipad客户端、微信购买或者PC客户端购买,通过分析,能都了解大众消费者的网上购物途径。

用户等级分布:

京东对不同消费人群的消费记录,对用户评定不同的等级,消费越多,等级越高。

7.数据分析模块

7.1文本分析

文本分析结合DACE系统自主研发的正文提取算法和开源的TextRank算法对新闻和博客类网站进行正文提取和文本分析。

相关字段说明:

URL输入框:输入一个包含标题和正文的新闻或博客链接

提取正文:点击“提取正文”按钮即可对链接的内容进行提取和分析

文本输入框:输入一段文本,可以对该文本进行摘要提取和关键词提取

分析文本:点击“分析文本”按钮即可对文本进行分析

摘要:显示提取出来的摘要

关键词提取:显示文章的关键词

7.2 猎聘网生成报告

分布式爬虫的高效率采集能够在5-8分钟内完成对特定地区和岗位的招聘信息抓取(约4000份),并且生成一份职业/行业报告。

点击“行业报告”à选择地区à输入职位名称à点击生成报告

等待5-8分钟内(*在此期间请勿进行其他操作,否则将导致无法正常显示行业报告,目前只支持单用户使用该功能,如遇多人同时使用,将会造成失败)。

行业报告包括以下7个部分:

全国各市对该职位的需求量。

通过统计招聘信息中的岗位所在地区,分析全国各市对岗位的需求,获取排名前10的地区。

全国各市的岗位薪资

由于每个地区的经济水平和行业发展程度存在差异,因此岗位在不同地区的平均薪资是不一样的。结合上部分的职位需求量,统计10个地区的岗位薪资。

岗位对学历要求

随着社会的日益发展,许多行业的用人单位都提升了对学历的要求,特别是互联网和科技行业,对硕士以上学历的要求逐渐增多,通过对职位或者行业的分析,可以预测出不同行业的发展速度。

企业类型和薪资分布情况

尽管企业招聘相同的技术岗位,但是不同行业的公司对岗位的能力要求和工作范围的差异会造成岗位薪资的差异。通过分析不同类型企业的招聘薪资,得出企业类型和薪资分布情况。

学历和薪资分布情况

用人单位根据企业业务需求和工作要求,因此不同级别的企业会招聘不同学历层次的人员,同时不同岗位的职能需要的学历要求也是千差万别,因此通过对招聘信息中的学历-薪资进行分析,得出不同学历层次对岗位薪资的影响作用。

技能需求量

随着行业的不断革新和发展,面对新型业务企业也需要掌握不同技能的职员,因此可以通过对职位描述的文字进行分析,提取出该职位需要的技能集合判断当前掌握哪些技能最受企业青睐,给求职人员一个更好的学习方向和行业判断。

技能价值

不同的职业技能价值能为企业创造不同的财富和价值,因此企业对于掌握不同技能的应聘者会给予不同的薪资,不同的行业,不同的职位需要的技能不相同,通过统计行业平均薪资和技能的需求量,分析出不同技能的价值。

地区平均薪资

如果搜索的地区不为“全国”范围时,会对选择搜索的地区进行平均薪资统计,反映该地区的职位薪酬平均水平。

词云报告

词云报告是通过分析招聘信息中的岗位描述,进行关键词的提取生成的词云报告。能够快速发现与该职位相关的热点词语。

8.监控模块

8.1实时监控

实时监控模块可以对DACE系统的爬虫主机进行实时监控,查看服务器运行的内存使用情况和CPU使用情况。如果服务器发生异常,或者负载过大,可以通过实时监控及时发现。

标签: #新闻正文提取算法是什么