十分钟学习|Python正则表达式入门

程序员编程分享 05-31 287

前言：

现时同学们对“python 正则匹配不区分大小写”都比较注意，我们都想要分析一些“python 正则匹配不区分大小写”的相关内容。那么小编在网上汇集了一些有关“python 正则匹配不区分大小写””的相关资讯，希望我们能喜欢，各位老铁们一起来学习一下吧！

用一句通俗的语言解释：正则表达式就是记录文本规则的代码。

当然小编这里有一份Python入门学习资料，分享给大家点我头像右上角进行私信“01”即可免费领取！

正则表达式之所以难学，是因为它有大量的符号，每个符号的意义和用法又是不一样的，但是只要掌握了用法，正则表达式也可以很友好。

本文中所有的代码都在python的re模块下运行。

定义是定义，太正经了就没法用了。我们来举个栗子：假如你得到了一个网页的HTML源码。其中有一段

你想要把这个hello world提取出来，但你这时如果只会python 的字符串处理，那么第一反应可能是

然后从这个位置向下查找到下一个<h1>出现这样做未尝不可，但是很麻烦不是吗。需要考虑多个标签，一不留神就多匹配到东西了，而如果想要非常准确的匹配到，又得多加循环判断，效率太低。

这时候，正则表达式就是首选的帮手。

首先，从最基础的正则表达式说起。

假设我们的想法是把一个字符串中的所有"python"给匹配到。我们试一试怎么做

看完这段代码，你是不是觉得：卧槽？这就是正则表达式？直接写上去就行？

确实，正则表达式并不像它表面上那么奇葩，如果不是我们故意改变一些符号的含义时，你看到的就是想要匹配的。

所以，先把大脑清空，先认为正则表达式就是和想要匹配的字符串长得一样。在之后的练习中我们会逐步进化

0.无论是python还是正则表达式都是区分大小写的，所以当你在上面那个例子上把"python"换成了"Python"，那就匹配不到你心爱的python了。

1.重新回到第一个例子中那个<h1>hello world<h1>匹配。假如我这么写，会怎么样？

有了入门级的经验，我们知道那两个<h1>就是普普通通的字符，但是中间的是什么鬼？

.字符在正则表达式代表着可以代表任何一个字符（包括它本身）

findall返回的是所有符合要求的元素列表，包括仅有一个元素时，它还是给你返回的列表。

机智如你可能会突然问：那我如果就只是想匹配"."呢？结果啥都给我返回了咋整？在正则表达式中有一个字符\，其实如果你编程经验较多的话，你就会发现这是好多地方的“转义符”。

举个栗子，你真的想匹配"relax149137@gmail.com"这个邮箱（我的邮箱），你可以把正则表达式写成下面这个样子：

发现了吧，我们在.的前面加上了转义符\，但是并不是代表匹配“\.”的意思，而是只匹配“.”的意思！

不知道你细不细心，有没有发现我们第一次用.时，后面还跟了一个+？那这个加号是干什么的呢？

其实不难想，我们说了“.字符在正则表达式代表着可以代表任何一个字符（包括它本身）”，但是"hello world"可不是一个字符啊。

+的作用是将前面一个字符或一个子表达式重复一遍或者多遍。

比方说表达式“ab+”那么它能匹配到“abbbbb”，但是不能匹配到"a"，它要求你必须得有个b，多了不限，少了不行。你如果问我有没有那种“有没有都行，有多少都行的表达方式”，回答是有的。

*跟在其他符号后面表达可以匹配到它0次或多次

比方说我们在王叶内遇到了链接，可能既有http://开头的，又有https://开头的，我们怎么处理？

输出

2.比方说我们有这么一个字符串"cat hat mat qat"，你会发现前面三个是实际的单词，最后那个是我胡编乱造的。如果你本来就知道"at"前面是c、h、m其中之一时这才构成单词，你想把这样的匹配出来。根据已经学到的知识是不是会想到写出来三个正则表达式进行匹配？实际上不需要。因为有一种多字符匹方式

[]代表匹配里面的字符中的任意一个

还是举个栗子，我们发现啊，有的程序员比较过分，，在<html></html>这对标签上，大小写混用，老害得我们抓不到想要的东西，我们该怎么应对？是写16*16种正则表达式挨个匹配？no

输出

我们既然有了范围性的匹配，自然有范围性的排除。

[^]代表除了内部包含的字符以外都能匹配

还是cat,hat,mat,qat这个例子，我们想匹配除了qat以外的，那么就应该这么写：

输出

3.介绍到这里，我们可能已经掌握了大致的正则表达式的构造方式，但是我们常常会在实战中遇到一些匹配的不准确的问题。比方说：

输出结果

呦呵！你咋能多了呢？我理想的结果是@hit.，你咋还给我加量了呢？这是因为正则表达式默认是“贪婪”的，我们之前讲过，“+”代表是字符重复一次或多次。但是我们没有细说这个多次到底是多少次。所以它会尽可能“贪婪”地多给我们匹配字符，在这个例子里也就是匹配到最后一个“.”。

我们怎么解决这种问题呢？只要在“+”后面加一个“？”就好了。

输出结果