scrapy使用技巧

scrapy是一款网络爬虫利器,集合了多种网络客户端开发工具包,支持的协议拓展了http,是一款非常好用的http客户端和网络爬虫工具。 使用非常简单,如下:

from scrapy import Spider, Item, Field
class Post(Item):
    title = Field()
class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']
    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]

####1. 安装

简易安装如下:

$sudo pip install --upgrade pip
$sudo pip install scrapy 
$sudo pip install scrapy --upgrade

完成上述两步,您应该能够成功的使用scrapy了。 BUT~~~~~

gcc error exit with 1

那应该是gcc以来的python编译包不够,输入下面命令:

$sudo apt-get install libxml2-dev libxslt1-dev libffi-dev

BINGO~~~~~

####2. 使用

使用如下:

$sudo apt-get install
$sudo apt

Published: June 04 2015

  • category: