Jsoup使用概览
最近小伙伴们用Java做爬虫比较多。Jsoup 是一个小巧,实用的http客户端,提供简洁明了的DOM析取方法。详细的实用教程见Jsoup的cookbook。
与Scrapy不同,Jsoup提供的只是简单http客户端的功能,对于HTTP请求链接详见这里。
- Jsoup Connect Options
- data data客户端请求参数,必须是键值对的形式
- userAgent 客户端代理,CHROME F12中可以查询相关内容
- cookie 键值对cookie
- method
- header 键值对
- postDataCharset
- Jsoup Runtime METHOD()
- html()析取当前匹配标签下的html子文本,(子html)
- toString()析取当前匹配标签下的文本,(本html)
- text()析取当前匹配标签下的文本,(子text)
- Element Selector Syntax
- get method. 如getElementById(), getElementByClass(), getElementContainText(),getElementMatchingText()..etc.
- select. 如select(“div.class >div >div >h1”),select(“img[src$=.png]”),select(“img[src^=.png]”), select(“img[src*=.png]”),select(“div[attr~=regex]”)。 点击查看更具体的。