龙空技术网

你知道学习python爬虫需要掌握的库吗?

UG编程教程 126

前言:

而今兄弟们对“html5netwo”都比较注重,你们都想要学习一些“html5netwo”的相关资讯。那么小编也在网摘上收集了一些对于“html5netwo””的相关知识,希望小伙伴们能喜欢,小伙伴们一起来学习一下吧!

学习 Pyt hon,大概 每个人 都是从 爬虫 开始吧 。

网络 上类似 的资源 毕竟 很丰富 ,开源项目 也很多 。

Pyt hon学习网络 爬行 器主要 分为 3大块 :抓取 、分析 、存储 。

在浏览器 中输入 url 后回车 时,会出现 什么情况 ?

简而言之 ,这个 过程 分为 以下 四个 步骤 :

找出 域名 对应 的IP地址 。

将请求 发送到 IP 对应 的服务器 。

伺服器 回应 要求 ,返回 网页内容 。

浏览者 分析 网页内容 。

因此 ,研究 爬行动物 需要 掌握 哪些 库呢?

一般性 :

1.url lib-Web 库(stdlib )

2re quests -Netwo rk库。

3.grab -基于 pycurl 的网络 库。

4p ycurl -Netwo rkLibrary (绑定 libcurl )。

url lib3-Pyt honHTT P库,安全 的连接池 ,post 支持 文件 ,高可用性 。

6.http lib2-Netwo rkLibrary 。

7. RoboBrows er ——一个 简单 的、极具 Pyt hon风格 的Pyt hon库,不需要 单独 使用 浏览器 就可以在网上 浏览 。

8.MechanicalSoup-Pyt hon库与网站 自动 交互 。

9m echanize-有状态 的,可编程 的网络 浏览 库。

10 .soc ke t-stdlib ,即底层 网络接口 。

11 .Unirest for Pyt hon–Unirest 是一组 轻量级 HTT P库,可用于 多种语言 。

12 .hyp er -HTT P/2客户机 Pyt hon。

13 .PySocks——SocksiPy的最新版本 ,积极 维护 ,包括 修复 错误 ,以及 其他 一些 特性 。

直接 替换 为soc ke t模块 。

网路 爬行 器框架

一、全功能 爬虫 。

Grab -网络 爬虫框架(基于 pycurl /multicur)。

脚本 –网络 爬虫框架(基于 twisted ),Pyt hon3不受 支持 。

Pyspider——一种 功能强大 的爬虫 系统 。

Cola——分布式 爬行 框架 。

二、其他 。

portia ——基于 Scrapy的视觉 化爬虫 。

re stkit——用于 Pyt hon的HTT P资源 套件 。

这使您能够 轻松 地访问 HTT P资源 ,并在其周围 创建对象 。

demi urge——基于 PyQuery的微爬框架 。

HTML /XM L解析 程序

一、一般性 。

lxml-编写 高效 的HTML /XM L处理 库的C语言 。

支援 XPath。

cssselect——解析 DOM 树和CSS 选择器 。

pyquery——解析 DOM 树和jQuery选择符 。

beautifulSoup–低效率 的HTML /XM L处理 库,一个 纯Pyt hon实现 。

Html5l ib ——根据 WHATWG 规范 为HTML /XM L文档 生成 DOM 。

目前 ,所有 浏览器 都使用 了该规范 。

Feedparser-RSS解析 /ATOMfeeds 。

Mark upSafe –提供 了一个 用于 XM L/HTML /XHTML的安全 转义 字符串 。

xml todict ——一个 Pyt hon模块 ,它使您在处理 XM L时有处理 JSON的感觉 。

xh tml2p df -HTML /CSS 到PDF 的转换 。

简单 实现 ——很容易 实现 将XM L文件转换 成Pyt hon对象 。

二、清理 。

清除 -清除 HTML (需要 html5 lib)。

Sanitize——给混乱 的数据 世界 带来 光明 。

文字处理

用来 分析 和处理 简单 文字 的库。

普通 。

Difflib–(Pyt hon标准库 )可以 帮助 进行 区分 。

线性化 -快速 计算 线性化 距离 和字符串 相似度 。

Fuzzy wuzzy——模糊匹配字符串 。

esmre –re gex加速器 。

自动 对Unicode文本 进行 整理 ,以减少 碎片 的数量 。

天然 语言 处理

用来 处理 人类 语言 的库。

编写 Pyt hon程序 ,以最好 的平台 处理 人类 语言 的数据 。

模式 ——Pyt hon的网络 挖掘 模块 。

拥有 自然语言 处理 、机器学习 等工具 。

文本 块——提供 一致 的AP I来进行 自然语言 处理 任务 。

它是建立 在NLTK和Pattern巨人 肩膀 之上 的。

Jie ba——中文分词 工具 。

Snow NLP——中文 文字处理 类库 。

loso——另一种中文 分类法 。

浏览 自动 和模拟 。

selenium–自动运行 真正 的浏览器 (Chrome,Firefox,Opera,IE )。

ghost .py-封装 PyQt的web kit (需要 PyQT)。

Spynner–封装 PyQt的web kit (PyQT是必需 的)。

spl inter -通用 AP I浏览器 模拟器 (seleniumweb驱动 ,Zope ,Django客户端 )。

多项 处理

线程 在Pyt hon标准库 中运行 ,threading 。

非常适合 I/O密集型 任务 。

由于 pythonGIL,不适合 CP U绑定 任务 。

Multiprocessing ——运行 多进程的标准 Pyt hon库。

异步 任务 队列 /作业 队列 ,它基于 分布式 消息传递 。

配置 -配置 -配置 模块 提供 了调用 异步 执行 的高级 接口 。

非同步

非同步 网络编程 库

asyncio –(高于 Pyt hon3.4 +版本 的Pyt hon标准库 )异步 I/O、时间循环、协作 程序 和任务 。

Twist ed ——基于 事件驱动 的网络 引擎 框架 。

tor nado——网络 框架 和异步 网络 库。

发布 –事件驱动 的Pyt hon并发 框架 。

Die sel ——Pyt hon基于 绿色 事件 的I/O框架 。

geven t——一个 基于 协程 的Pyt hon网络 库,使用 gre enlet 。

ventlet –支持 WSGI的异步 框架 。

Tomorro w——一个 完美 的异步 代码 修饰语 法。

排队 。

异步 任务 队列 /作业 队列 ,它基于 分布式 消息传递 。

Huey——小的多线程 任务 队列 。

使用 red is &Gevent 的Pyt hon分布式 工作任务 队列 ,mrq-Mr .Queue-。

RQ ——一个 基于 Redis的轻量级 任务 队列 管理器 。

simpleq——基于 Amazon SQ S的队列 ,简单 ,可无限 扩展 。

Pyt hon-gearman——Gearman 的Pyt honAP I。

Picl oud——Pyt hon代码 在云中 执行 。

dominoup.com ——云执行 R,Pyt hon和matlab代码 。

页面 内容 抽取 。

获取 Web 内容 的库。

网页 的文字 与元数据 。

新页面 ——使用 Pyt hon来获取 新闻 、提取 文章 以及 对内容 进行 规划 。

html2t ext–将HTML 文本 转换 为Mark dow n格式 文本 。

python-goose-HTML 目录 /文章 抽取 器。

lass ie ——人性化 的网页内容 检索工具 。

欢迎大家交流学习。

标签: #html5netwo