十二个Python爬虫面试题，看看自己的学习成效吧

Python智禅 12-29 166

前言：

此时各位老铁们对“高级爬虫面试题”大体比较看重，咱们都想要分析一些“高级爬虫面试题”的相关内容。那么小编在网络上网罗了一些对于“高级爬虫面试题””的相关知识，希望小伙伴们能喜欢，你们快快来学习一下吧！

现在疫情差不多稳定了很多人也开始工作，没工作的也开始找工作，下面呢为学python的同学选取了12个python爬虫面试题，希望有帮助。

1、简述一下爬虫程序执行的流程

　　获取想要的页面

　　根据规则进行解析

　　解析数据入库

2、爬虫在向数据库存数据开始和结束都会发一条消息，是scrapy 哪个模块实现的?

　　答：Item Pipeline scrapy 的信号处理使用的是

　　3、爬取下来的数据如何去重，说一下具体的算法依据。

　　通过 MD5 生成电子指纹来判断页面是否改变

　　nutch 去重。nutch 中 digest 是对采集的每一个网页内容的 32 位哈希值，如果两个网页内容完全一样，它们的 digest值肯定会一样。

　　4、写爬虫是用多进程好?还是多线程好? 为什么?

　　5、说一下 numpy 和 pandas 的区别?分别的应用场景?

　　Numpy 是数值计算的扩展包，纯数学。

　　Pandas 做数据处理以矩阵为基础的数学计算模块。提供了一套名为 DataFrame 的数据结构，比较契合统计分析中的表结构，并且提供了计算接口，可用 Numpy 或其它方式进行计算

　　6、验证码如何处理

　　Scrapy 自带处理验证码

　　获取到验证码图片的 url，调用第三方付费接口破解验证码

　　7、微信公众号数据如何抓取?

　　sogou 微信搜索数据

　　动态的股票信息如何抓取

　　8、股票数据的获取目前有如下两种方法可以获取:

　　http/JavaScript 接口取数据

　　web-service 接口

　　Sina 股票数据接口

　　以大秦铁路(股票代码：601006)为例，如果要获取它的最新行情，只需访问新浪的股票数据，只需访问新浪的股票数据接口：具体股票代码编号

　　9、爬虫部署

　　scrapy 去重

　　10、分布式有哪些方案，哪一种最好?

　　celery、beanstalk，gearman

　　11、个人认为 gearman 比较好。原因主要有以下几点：

　　技术类型简单，维护成本低。

　　简单至上。能满足当前的技术需求即可 (分布式任务处理、异步同步任务同时支持、任务队列的持久化、维

　　有成熟的使用案例。instagram 就是使用的 gearman来完成图片的处理的相关任务，有成功的经验，我们当然应该借鉴。

　　12、Post 和 Get 区别

　　GET 请求的数据会暴露在地址栏中，而 POST 请求则不会。

　　传输数据的大小

　　安全性

最后，小编想说：我是一名python开发工程师，

整理了一套最新的python系统学习教程，

想要这些资料的可以关注私信小编“01”即可（免费分享哦）希望能对你有所帮助