龙空技术网

java简单爬虫----Jsoup

浪里飞石 1107

前言:

此时朋友们对“jsoup爬虫框架”大致比较注重,大家都想要知道一些“jsoup爬虫框架”的相关内容。那么小编同时在网上搜集了一些关于“jsoup爬虫框架””的相关内容,希望小伙伴们能喜欢,大家快快来了解一下吧!

Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。

Jsoup主要有以下功能:

1. 从一个URL,文件或字符串中解析HTML

2. 使用DOM或CSS选择器来查找、取出数据

3. 对HTML元素、属性、文本进行操作

基本步骤:

//下载网页String URL="输入网址";Document document=Jsoup.cnnect("URL");

//在下载的document里进行检索的语句elements test=document.select("#div_JK").select("div.item_list").select("div:nth-child(1)").select("div.dTit.tracking-ad").select("a");

//这样test标签就是我们最开始右键单击检查的标签String Str=test.toString();

//将标签转化成字符串String text=test.text();

//将标签里的文本提取出来

实例演练

Jsoup在解析html方面还有很多功能,这里就不一一列举了。Jsoup的中文api地址:

Jsoup在做爬虫方面,有着非常大优势。后续会选择一些现有开源的爬虫框架进行分析,与大家共享。欢迎大家拍砖。

标签: #jsoup爬虫框架