使用JSOUP实现网络爬虫:使用DOM方法来遍历一个文档
问题
你有一个HTML文档要从中提取数据,并了解这个HTML文档的结构。
方法
将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码:
view plain copy print?
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
说明
Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:
查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key)
(and related methods)- Element siblings:
siblingElements()
,firstElementSibling()
,lastElementSibling()
;nextElementSibling()
,previousElementSibling()
- Graph:
parent()
,children()
,child(int index)
attr(String key)
获取属性attr(String key, String value)
设置属性attributes()
获取所有属性id()
,className()
andclassNames()
text()
获取文本内容text(String value)
设置文本内容html()
获取元素内HTMLhtml(String value)
设置元素内的HTML内容outerHtml()
获取元素外HTML内容data()
获取数据内容(例如:script和style标签)tag()
andtagName()
append(String html)
,prepend(String html)
appendText(String text)
,prependText(String text)
appendElement(String tagName)
,prependElement(String tagName)
html(String value)
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
data:image/s3,"s3://crabby-images/a8209/a8209b304fc92c07c96a4ef5d1141e5e2b6df1b9" alt="公众号"
随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 长江的美丽变奏 7981158
- 2 中央一号文件:推进农村高额彩礼治理 7949918
- 3 DeepSeek预测《哪吒2》最终票房 7891959
- 4 小包裹折射中国经济澎湃动能 7711949
- 5 不允许城镇居民到农村买农房、宅基地 7654733
- 6 王曼昱4比0胜孙颖莎 首夺亚洲杯冠军 7533899
- 7 马库斯被北京的空气质量震惊了 7426993
- 8 终于有部剧还原了我的高清童年 7340817
- 9 王楚钦亚洲杯夺冠 排名重回世界第1 7215453
- 10 95后情侣夜市摆摊卖麻糍日入4000元 7193258