前言:
此时朋友们对“jsoup爬虫框架”大致比较注重,大家都想要知道一些“jsoup爬虫框架”的相关内容。那么小编同时在网上搜集了一些关于“jsoup爬虫框架””的相关内容,希望小伙伴们能喜欢,大家快快来了解一下吧!Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。
Jsoup主要有以下功能:
1. 从一个URL,文件或字符串中解析HTML
2. 使用DOM或CSS选择器来查找、取出数据
3. 对HTML元素、属性、文本进行操作
基本步骤:
//下载网页String URL="输入网址";Document document=Jsoup.cnnect("URL");
//在下载的document里进行检索的语句elements test=document.select("#div_JK").select("div.item_list").select("div:nth-child(1)").select("div.dTit.tracking-ad").select("a");
//这样test标签就是我们最开始右键单击检查的标签String Str=test.toString();
//将标签转化成字符串String text=test.text();
//将标签里的文本提取出来
实例演练
Jsoup在解析html方面还有很多功能,这里就不一一列举了。Jsoup的中文api地址:
Jsoup在做爬虫方面,有着非常大优势。后续会选择一些现有开源的爬虫框架进行分析,与大家共享。欢迎大家拍砖。
标签: #jsoup爬虫框架