龙空技术网

「Python系列五」python爬虫基础要素与技巧(三)

前卫的依伯 150

前言:

现时我们对“python输出u”都比较关怀,同学们都想要了解一些“python输出u”的相关文章。那么小编在网摘上网罗了一些对于“python输出u””的相关文章,希望兄弟们能喜欢,兄弟们快快来了解一下吧!

一、特殊号的作用:

Python中,u表示unicode string,表示使用unicode进行编码,没有u表示byte string,类型是str,在没有声明编码方式时,默认ASCI编码。如果要指定编码方式,可在文件顶部加入类似如下代码:

# -*- coding: utf-8 -*-

utf-8是一种支持中文的编码格式。

字母前加r表示raw string,也叫原始字符串常量。一般用在一下两个方面:

1、正则表达式用于处理正则表达式时,规避反斜杠的转义

2、系统路径如下面的路径,使用r就防止了\t的转义

二、正则表达式:

1、需要引入的模块与函数:

引入:import re

函数:re.match #从开始位置开始匹配,如果开关没有则无

re.search #搜索整个字符串,匹配到一次就返回

re.finall #搜索整个字符串,所有匹配到的以list方式返回

re.split # 用符号分隔,如空格,逗号等

re.compile #生成正则表达式对象

2、贪婪与非贪婪模式的区别 :

贪婪模式: 根据正则要求,尽可能将符合要求都区别成List中的一个元素;

非贪婪模式:根据正则要求,只要匹配到一个就为一个元素,后面匹配到的为+1 元素;

三、读写文件open:

URL:

open的定义方式为:

file=open(path,mode='r',buffering=-1,encoding=None)

其中,

path为文件路径

mode为读取模式,默认为r,即只读模式。

buffering为缓冲区,由于内存的读写速度快于外设,所以大部分情况不用设,即不大于0。

encoding为编码方式

最后,输出的file是一个文件对象。

其中,mode包括以下几种

r r+ w w+ a a+

b rb rb+ wb wb+ ab ab+

其中,b表示二进制,r表示读,w表示写,a表示追加。无论什么模式,有+则意味着可读可写。写入一般会覆盖原文件,追加则在原文件尾部开始写。如果文件不存在,w, w+, a, a+, wb会创建新文件。

四、URL编码/解码:

Python 的标准库urllib.parse模块中提供了用来编码和解码的方法,分别是 urlencode() 、quote() 与 unquote() 方法。

方法

说明

urlencode()

该方法实现了对 url 地址的编码操作,可以对字典{}进行编辑

unquote()

该方法将编码后的 url 地址进行还原,被称为解码

quote()

只能对字符串编码

标签: #python输出u