龙空技术网

从零之055 网页代码中提取文字(去除style和script的内容)

编程和中文 133

前言:

目前咱们对“css清除样式”大约比较讲究,看官们都想要知道一些“css清除样式”的相关文章。那么小编同时在网络上汇集了一些对于“css清除样式””的相关资讯,希望大家能喜欢,大家快快来学习一下吧!

在本章中,我们注重具体问题具体分析,通用部分合并处理。通过学习,也可以对网页代码进行一定的了解。了解了特性才能解决问题。

在网页文件中的代码形式下,还包含着两种内容,一种是CSS内容,用于控制网页的样式,没有我们所需要的内容,用这个符号标注<style>...</style>。另外一种是javascript脚本,他们用于控制网页的动作,也没有我们所需要的内容,用这个符号标注<script></script>。

对于这两部分内容,去除它们的方法基本一样,因此,我们放到了一个专题来研究。

于是我们编写了下面的主程序

上一章说过的这一章不重复,新的内容如下

第17行,从body中去除样式内容

第18行,从body中去除脚本内容

上面两行内容中,我们看到,我们又新做了一个函数,名字叫做去除脚本代码

下面我们来研究这个函数

第6行,假如我们去除的是style,用它的结束符 </style 对字符串进行拆分,拆分完后放到列表中

第7行,我们设定一个回收结果的变量

第8行,开始遍历拆分后所有列表中的元素

第9行,对元素进行二次拆分,纷纷的标记符是开始符<style

第10行,开始符前面的内容,实际上就是非脚本内容,这时,我们把它收纳回来。

第11行,我们返回收纳的结果。

我们发现,我们使用的分隔符,都没有包含右尖括号,原因是有些脚本是可以带些其他参数的,这样设计是为了提高兼容性。将来在内容中孤立右尖括号,我们可以统一去除。

下面我们上完整的程序

从上图中,我们发现,以前定义的函数在这个程序看不见了,主要原因是我们把出现过的内容全部放到了通用函数库中,在本程序中,只列出我们需要研究的函数,在下一章中,这个函数我们还会把它放到通用函数库中。

针对一段网页代码,运行后的结果如下图

可以看的出来,这些代码中基本上都包含了有内容了。以后我们再研究,如何进一步把文字提取出来。路是需要一步一步走的。

标签: #css清除样式 #java去掉html脚本