龙空技术网

常用正则表达式汇总整理——HTML篇

PrvtSite 1142

前言:

现在姐妹们对“c正则html标签”大约比较关注,大家都需要学习一些“c正则html标签”的相关资讯。那么小编在网络上网罗了一些关于“c正则html标签””的相关资讯,希望姐妹们能喜欢,你们一起来了解一下吧!

1、匹配HTML开始标签及结束标签

这段正则,为什么比网上搜索的复杂一些呢?主要是加了匹配特测情况的问题,避免BUG。

举例:<div debug=">" ></div>

const reg_tags = /<((["'])+.*?\2|[^>])+>/g;

开始和结束

2、匹配HTML开始标签

const reg_tag_start = /<[^\\\/]((["'])+.*?\2|[^>])+>/

开始

3、匹配HTML结束标签

const reg_tag_end = /<[\\\/]+[^<>]*>*/

结束

4、匹配HTML标签属性

const reg_tag_attrs = /(?<=\s)[\w:-]+(=(["']).*?\2)*/g;

标签属性

5、获取HTML标签属性名与值

const reg_tag_attr_info = /(^[^=]+|(?<=(['"])).*?(?=\2))/g;

属性名与值

6、获取HTML标签的名称

const reg_tag_name = /(?<=<[\/\s]*)\w+(?=(\s+(?![\s=])|>))/;

标签名称

7、匹配HTML文档类型声明

const reg_doctype = /<!doctype[^<>]*>*/i

声明

8、匹配HTML文档注释

const reg_tag_note = /<\!.*?>/

注释

9、匹配HTML文本内容

const reg_text = /(?<=<[\w]+.*?>)[\s\S]*?(?=</[\w]*?>)/

文本

10、其它

//g 正则表达式后面加g,表示全局匹配。

//i 正则表达式后面加i,表示不区分大小写。

[\u4e00-\u9fa5],表示匹配中文。

中文

[^\x00-\xff\u4e00-\u9fa5],表示匹配中文符号

中文符号

以上正则表达式,是在写一个生成HTML抽象语法树的工具时,不断摸索出来。如果您有更好的写法,欢迎交流。

人人为我,我为人人,欢迎您的浏览,我们一起加油吧。

标签: #c正则html标签