前言:
如今姐妹们对“html读取xml”都比较关切,大家都需要学习一些“html读取xml”的相关资讯。那么小编同时在网络上搜集了一些关于“html读取xml””的相关内容,希望看官们能喜欢,小伙伴们一起来了解一下吧!XML,全称为ExtentsibleMarkup Language,即可扩展标记语言,是用来定义其它语言的一种元语言,使用自定义的标签对文档内容进行描述。被设计用来传输和存储数据。
XML和HTML类似,都是一种文本标记语言,与HTML不同的是,XML是一种可扩展标记语言,它极其简单易于掌握和使用。XML的简单使其易于在任何应用程序中读写数据,这使XML很快成为数据交换的唯一公共语言。
XML文档的语法要求非常严格,要求每一个标记都必须匹配一个结束符,每一个标记的出现次数也有严格的要求,规则制定者可以编写相应的DTD或Schema文件来限制XML文档的组成。
在程序开发中,经常使用xml文件作为配置文件,本文重点介绍xml.etree.ElementTree读写xml文件的方法。
xml.etree.ElementTree读写xml文件
Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。
(1)Python3.3版本以前
下面例子是一个让Python不同的库使用相同API的一个比较常用的办法。
#Python3.3版本以前,try: import xml.etree.cElementTree as ET except ImportError: import xml.etree.ElementTree as ET
(2)Python3.3版本以后
从Python3.3开始,ElementTree模块会自动寻找可用的C库来加快速度,所以只需要import xml.etree.ElementTree就可以了。
#Python3.3版本以后,import xml.etree.ElementTree as ET
(3)解析的xml文件
解析的xml文件(demo.xml),具体内容如下:
<?xml version="1.0"?> <data> <table name="table"> <num>8</num> <tablename> cs_forecast</tablename> </table> <url name="city"> <urlstr>;/urlstr> <citystr>北京,武汉,合肥,南京</citystr> </url> </data>
读配置文件demo.xml里面的四个参数,num、tablename、urlstr、citystr
import xml.etree.ElementTree as ET tree = ET.parse("demo.xml") #打开xml文档 root = tree.getroot() #获得root节点 for table in root.findall('table'): #找到root节点下的所有table节点, 其实配置文件里只有一个节点 num = table.find('num').text #子节点下节点rank的值 table = table.find('tablename').text #子节点下属性name的值 print(num, table) #8 cs_forecastfor city in root.findall('url'): #找到root节点下的所有url节点, 其实配置文件里只有一个节点 urlstr = city.find('urlstr').text #子节点下节点rank的值 citystr = city.find('citystr').text #子节点下属性name的值 print(urlstr, citystr) # 北京,武汉,合肥,南京
上面例子使用findall查找所有节点,上例中配置文件里只有一个节点,如果是多个节点,可以按照数组的方式进行处理。
可以采用下面的方法:
# 查找table里面的num和tablename标签,找第一个table = root.find('table')num = table.find('num').texttablename = table.find('tablename').text# 查找url里面的urlstr和citystr标签,找第一个url = root.find('url')urlstr = url.find('urlstr').text)citystr = url.find('citystr')
还可以采用下面的方法:
#也可以下面表达num = root.find('table').find('num').texttablename =root.find('table').find('tablename').texturlstr = root.find('url').find('urlstr').texttablename =root.find('url').find('citystr).text
(4)修改xml文件、保存
#修改xml文件 for table in root.findall('table'): num = int(table.find('num').text) if num > 5: root.remove(table) #删除节点#保存修改后的xml文件 output.xmltree.write('output.xml')
(5)修改和删除节点
修改和删除内容只在内存中修改,没有存到文件中,都要重新保存文件
修改节点内容
#修改节点内容 root.find('url').find('urlstr').text = ";tree.write('output.xml')
修改节点属性
#修改节点属性root.find('url').find('urlstr').set('update', '2022-11-11')tree.write('output.xml')
修改节点属性
#删除节点root.remove( root.find('table') )tree.write('output.xml')
标签: #html读取xml