正则表达式的效率与优化

爱音乐的程序员小新人 07-26 143

前言：

现在看官们对“egphp”大体比较看重，兄弟们都需要剖析一些“egphp”的相关内容。那么小编也在网络上收集了一些对于“egphp””的相关资讯，希望兄弟们能喜欢，同学们快快来了解一下吧！

一、使用字符组代替分支条件

eg. 使用[a-d]表示a~d之间的字母，而不是使用(a|b|c|d)

function regTest($pattern,$str,$cnt){

$start=microtime(true);

for ($i=0;$i<$cnt;$i++){

preg_match($pattern,$str);

}

echo 'waste time(s): ',number_format(microtime(true)-$start, 10),' ';

}

$cnt=15;//最好设大数，eg.1000

$str='';

for ($i=0;$i<$cnt;$i++){

$str.='abababcdefg';

}

//方案1：分支条件

regTest("/^(a|b|c|d|e|f|g)+$/",$str,$cnt);

//方案2：字符组

regTest("/^[a-g]+$/",$str,$cnt);

//方案3：同方案2

regTest("/^[abcdefg]+$/",$str,$cnt);

123456789101112131415161718

可以看出使用字符组比使用分支条件速度快很多。这是由于在匹配单个字符的时候，引擎会把[abc]这样的字符组视为一个元素，而不是3个元素（a、b、c）。整个元素作为匹配迭代的一个单元，不需要进行三次迭代，从而提高匹配效率。

二、优化选择最左端的匹配结果

对于传统NFA引擎来说，因为引擎一旦找到匹配结果就会停下来，而不会去尝试正则表达式的每一种可能（PHP中的preg函数就属于传统型NFA引擎）。

三、标准量词是匹配优先的

若用量词约束某个表达式，那么在匹配成功前，进行的尝试次数有下限和上限。eg.

preg_match('/\w*(\d+)/','copy2003y',$match);

这条正则表达式匹配的$1结果应该是3。解释如下：当正则引擎用“\w*(\d+)”匹配字符串copy2003y时，会先用“\w*”匹配字符串copy2003y。而“\w*”会匹配字符串copy2003y的所有字符，然后再交给“\d+”匹配剩下的字符串，而剩下的没有了。这时，“\w*”规则会不情愿地吐出一个字符，给“\d+”匹配。同时，在吐出字符之前，记录一个点，这个点就是用于回溯的点。然后“\d+”匹配y，发现不能匹配成功，此时会要求“\w*”再吐出一个字符；“\w*”先记录一个回溯的点，再吐出一个字符。这时，“\w*”匹配结果只有copy200，已经吐出3y。“\d+”再去匹配3，发现匹配成功，会通知引擎，并且直接显示出来。所以，“(\d+)”的结果是3，而不是2003。

如果改为非贪婪模式呢？“\w*?(\d+)”匹配的结果就应该是2003。由于“\w*?”是非贪婪，正则引擎会用表达式“\w*?”每次仅匹配一个字符串，然后再将控制权交给后面的“(\d+)”匹配下一个字符，同时记录一个点，用于匹配不成功时，返回这里再次匹配。

尽量以组为单位进行匹配，使用固话分组就能避免无休止的匹配。

四、谨慎用点号元字符，尽可能不用星号和加号这样的任意量词

只要能确定范围（eg.“\w”），就不要用点号；只要能够预测重复次数，就不要用量词。假设一条微博消息的XML正文部分结构如下：

...

正文中无尖括号，写法如下：

[^<]{1,200}

或者：

.*

上述第一种代码的思路要好于第二种，原因如下：

1、使用“[^<]”，保证了文本的范围不会超过下一个小于号所在位置

2、明确长度范围{1,200}，依据是一条微博消息大致的字符长度范围是固定的，现在微博字数长度限制是140个字。