龙空技术网

python正则表达式re模块的高级用法

IT技术资源共享 1057

前言:

目前我们对“pythonret”都比较关注,各位老铁们都需要学习一些“pythonret”的相关资讯。那么小编同时在网络上搜集了一些有关“pythonret””的相关内容,希望各位老铁们能喜欢,姐妹们快快来学习一下吧!

re模块的高级用法search

需求:匹配出文章阅读的次数

#coding=utf-8import reret = re.search(r"\d+", "阅读次数为 9999")ret.group()

运行结果

'9999'
findall

需求:统计出python、c、c++相应文章阅读的次数

#coding=utf-8import reret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")print(ret)

运行结果:

['9999', '7890', '12345']
sub 将匹配到的数据进行替换

需求:将匹配到的阅读次数加1

方法1:

#coding=utf-8import reret = re.sub(r"\d+", '998', "python = 997")print(ret)

运行结果:

python = 998

方法2:

#coding=utf-8import redef add(temp): strNum = temp.group() num = int(strNum) + 1 return str(num)ret = re.sub(r"\d+", add, "python = 997")print(ret)ret = re.sub(r"\d+", add, "python = 99")print(ret)

运行结果:

python = 998python = 100

练习

从下面的字符串中取出文本

<div> <p>岗位职责:</p><p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p><p><br></p><p>必备要求:</p><p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p><p> <br></p><p>技术要求:</p><p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p><p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p><p>3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种<br></p><p>4、掌握NoSQL、MQ,熟练使用对应技术解决方案</p><p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p><p> <br></p><p>加分项:</p><p>大数据,数理统计,机器学习,sklearn,高性能,大并发。</p> </div>

参考答案:

re.sub(r"<[^>]*>| |\n", "", test_str)

split 根据匹配进行切割字符串,并返回一个列表

需求:切割字符串“info:xiaoZhang 33 shandong”

#coding=utf-8import reret = re.split(r":| ","info:xiaoZhang 33 shandong")print(ret)

运行结果:

['info', 'xiaoZhang', '33', 'shandong']
python贪婪和非贪婪

Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;

非贪婪则相反,总是尝试匹配尽可能少的字符。

在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。

>>> s="This is a number 234-235-22-423">>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)>>> r.group(1)'4-235-22-423'>>> r=re.match(".+?(\d+-\d+-\d+-\d+)",s)>>> r.group(1)'234-235-22-423'>>>

正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式:非贪婪操作符“?”,这个操作符可以用在"*","+","?"的后面,要求正则匹配的越少越好。

>>> re.match(r"aa(\d+)","aa2343ddd").group(1)'2343'>>> re.match(r"aa(\d+?)","aa2343ddd").group(1)'2'>>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1) '2343'>>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)'2343'>>>

练一练

字符串为:

<img data-original="" src="" style="display: inline;">

请提取url地址

参考答案

re.search(r"https://.*?\.jpg", test_str)
r的作用
>>> mm = "c:\\a\\b\\c">>> mm'c:\\a\\b\\c'>>> print(mm)c:\a\b\c>>> re.match("c:\\\\",mm).group()'c:\\'>>> ret = re.match("c:\\\\",mm).group()>>> print(ret)c:\>>> ret = re.match("c:\\\\a",mm).group()>>> print(ret)c:\a>>> ret = re.match(r"c:\\a",mm).group()>>> print(ret)c:\a>>> ret = re.match(r"c:\a",mm).group()Traceback (most recent call last): File "<stdin>", line 1, in <module>AttributeError: 'NoneType' object has no attribute 'group'>>>

说明

Python中字符串前面加上 r 表示原生字符串,

与大多数编程语言相同,正则表达式里使用"“作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题,有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。

>>> ret = re.match(r"c:\\a",mm).group()>>> print(ret)c:\a

标签: #pythonret