使用JSOUP实现网络爬虫:从一个URL加载一个Document
存在问题
你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据。你可以使用下面解决方法:
解决方法
使用 Jsoup.connect(String url)方法:
view plain copy print?
Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
说明
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。
Connection 接口还提供一个方法链来解决特殊请求,具体如下:
view plain copy print?
Document doc = Jsoup.connect("http://example.com")
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(3000)
.post();
这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载,可以使用 parse(File in, String charsetName) 代替。关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习主席的韩国APEC时间 7904900
- 2 卫星图揭美军舰载机南海坠毁真相 7808259
- 3 印航空难唯一幸存者无法与妻儿说话 7714580
- 4 9组数字速览第八届进博会 7619199
- 5 收纳团队90%是宝妈 月入过万还自由 7521306
- 6 男子15年内6结6离 5任前妻都成债主 7423917
- 7 “一觉醒来 导航都变了” 7327982
- 8 26元深夜上门开锁被收1300 商家回应 7232988
- 9 别因一根淀粉肠背离教育初心 7142606
- 10 中方延长对多国免签政策 名单来了 7044270







程序猿
