使用JSOUP实现网络爬虫入门:解析和遍历一个HTML文档
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
1. 从一个URL,文件或字符串中解析HTML; 2. 使用DOM或CSS选择器来查找、取出数据; 3. 可操作HTML元素、属性、文本;如何解析一个HTML文档:
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。比如它可以处理:
- 没有关闭的标签 (比如:
<p>Lorem <p>Ipsumparses to<p>Lorem</p> <p>Ipsum</p>) - 隐式标签 (比如. 它可以自动将
<td>Table data</td>包装成<table><tr><td>?) - 创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
- 文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package tree).
- 其继承结构如下:Document继承Element继承Node. TextNode继承 Node.
- 一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 《求是》发表习近平总书记重要文章 7904534
- 2 销售直言不建议买35万玛莎拉蒂 7809182
- 3 警方通报老人坐门口吃橘子被打倒 7713001
- 4 明年经济工作政策取向确立这八个字 7618586
- 5 柬军士兵猛烈扫射 一只鸡意外抢镜 7522926
- 6 曝iPhone20将搭载无开孔屏 7424006
- 7 泰柬冲突急转直下 世界三个没想到 7329799
- 8 9天涨粉400万的“蛋神”发声 7233004
- 9 金建希被曝曾深夜激烈怒斥尹锡悦 7139870
- 10 如何让你我的钱袋子鼓起来 7045234


![萬子月kiyo 咦今年过得好快呀[月亮] ](https://imgs.knowsafe.com:8087/img/aideep/2021/12/22/6efca91868e101eec33aa331ee039f90.jpg?w=250)




程序猿
