前言:
而今朋友们对“json解析接口抓取”可能比较看重,小伙伴们都需要知道一些“json解析接口抓取”的相关文章。那么小编在网上汇集了一些关于“json解析接口抓取””的相关资讯,希望我们能喜欢,同学们快快来学习一下吧!最近由于工作原因接触到阿里云的服务,我需要实时获取所有的域名信息,用于对其进行扫描,因此写了一个自动化爬取脚本 给需要的人分享。
(阿里云有官方的demo,有兴趣的可以自己看一下,后面也会放链接,我只能说阿里味有点冲)
1.基础准备
代码环境:python3第三方库:阿里云sdk (pip install alibabacloud_alidns20150109==3.0.10)(无力吐槽的库名)官方在线调试接口|文档:
2.获取client
首先你需要获取一个有效的key,指路
控制台 -> RAM 访问控制 ->创建密钥(右上角点击头像->accesskey管理也可以快捷进入),得到key后就可以正式开始编程了
import openpyxl,requestsfrom alibabacloud_alidns20150109.client import Client as Alidns20150109Clientfrom alibabacloud_tea_openapi import models as open_api_modelsfrom alibabacloud_alidns20150109 import models as alidns_20150109_modelsfrom alibabacloud_tea_util import models as util_models#创建客户端 返回可用clientdef create_client(access_key_id: str,access_key_secret: str,) -> Alidns20150109Client: config = open_api_models.Config( # 必填,您的 AccessKey ID, access_key_id=access_key_id, # 必填,您的 AccessKey Secret, access_key_secret=access_key_secret ) config.endpoint = f'alidns.cn-hangzhou.aliyuncs.com' return Alidns20150109Client(config)
创建客户端,这里写的是最简单的方式,如果为了安全可以使用临时key+token的方式或写入配置文件的方式,详见官方文档。
函数前的import内容只包含本文后续的所有内容,在此只写一次。
3.获取域名列表
阿里云可以通过接口直接获取域名的列表。
#获取域名列表#由于查询dns记录的数目可能会超过单次查询的上限 所以最好返回记录数量方便循环def get_domain_list(client): describe_domains_request = alidns_20150109_models.DescribeDomainsRequest() runtime = util_models.RuntimeOptions() resp = client.describe_domains_with_options(describe_domains_request, runtime) domain_list = [] for domain in resp.body.domains.domain: domain_list.append([domain.domain_name,domain.record_count]) return domain_list阿里的接口返回的数据都是完全封装好的,所以我们不能直接通过常规的解析json的方式获取数据。 这里我们额外返回了一个域名的解析记录数目是因为阿里云的sdk没有next指针之类的机制,需要手动计算数量来实现循环获取全部的解析记录 返回的参数单条为[域名,解析记录长度] 前三句都是阿里的官方调用模式,不清楚有啥改动方案,照写就行
4.获取指定域名的全部解析记录
#获取指定域名下的dns解析记录def get_domain_records(client,domain_list): lenth = 0 page_size = 500 #500是单条最大查询次数,可以自行调整 不影响输出结果 record_list = [] while lenth * page_size < domain_list[1] : describe_domain_records_request = alidns_20150109_models.DescribeDomainRecordsRequest( domain_name=domain_list[0], page_number=lenth+1, page_size=page_size ) runtime = util_models.RuntimeOptions() resp = client.describe_domain_records_with_options(describe_domain_records_request, runtime) for record in resp.body.domain_records.record: record_list.append([record.rr+'.'+domain_list[0],record.type]) lenth += 1 #print(len(record_list)) return record_list单次查询的最大记录是500条,可以通过调整page_size这个参数来自行设置 返回的rr为解析值,type为解析类型
5.获取账号下的全部域名解析记录
#获取所有域名下的全部dns解析记录def get_all_domain_records(client): domain_list = get_domain_list(client) record_list = [] for domain_name in domain_list: record_list.extend(get_domain_records(client,domain_name)) return record_list
6.获取指定的DNS解析记录
record_type = ['A','AAAA',"CNAME"]#根据想要的dns记录筛选最终数据def get_dns_records_by_type(dns_records, record_type): final_dns_records =[] for record in dns_records: if record[1] in record_type: final_dns_records.append(record) return final_dns_records
7.测试网站能否正常访问
由于部分cname本身并不是有效域名 只是一个单纯转发,且dns解析上无法判断解析记录是否公网开放,所以需要进行测试。这里提供一个简单的方案 就是直接发起request请求,如果有响应则证明解析有效。
#测试网站是否能访问def test_web_alive(dns_records): web_list = [] dns_list = set() for dns in dns_records: dns_list.add(dns[0]) print(len(dns_list)) for dns in dns_list: try: response = requests.get(";+dns) web_list.append([dns,response.status_code,'aliyun']) except: web_list.append([dns,'cant reach','aliyun']) return web_list #将测试结果存到excel中def save_dns_to_xlsx(web_list, path): workbook = openpyxl.load_workbook(path) sheet =workbook["Sheet1"] # 默认存到第一页 for index,dns in enumerate(web_list): sheet.cell(row=index+2,column=1).value = dns[0] sheet.cell(row=index+2,column=2).value = dns[1] sheet.cell(row=index+2,column=3).value = dns[2] workbook.save(path)
如果有问题,欢迎留言咨询~
标签: #json解析接口抓取