scrapy
scrapy 是python家族中最负盛名的爬虫框架,其他比较好使的是 urllib,urllib2,requests,pyquery等,scrapy在 github 上有10455颗star,其热门程度可见一斑(django才15000多),另外,scrapy的操作很django有些很相似的地方,很方面有python的django经验的人上手。
scrapy分为以下几个部分:
-
引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心)
-
调度器(Scheduler): 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
-
下载器(Downloader): 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
-
爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
-
项目管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。
-
下载器中间件(Downloader Middlewares): 位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
-
爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。
-
调度中间件(Scheduler Middewares): 介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
而scrapy的流程如图,并且可归纳如下:
-
首先下载器下载request回执的html等的response
-
然后下载器传给爬虫解析
-
接着爬虫解析后交给调度器过滤,查重等等
-
最后交给管道,进行爬取数据的处理
实战:用scrapy爬取豆瓣新片榜
首先下载安装scrapy:
在python3与ubuntu中安装scrapy还是有些麻烦,需要一些依赖和条件,详情参见:install scrapy
然后启动一个爬虫:
scrapy startproject douban_new_movie
scrapy便会帮你初始化一个项目,项目文件包括:items.py(定制需要储存的文件的域,类似于orm),pipelines.py(scrapy的定制管道), settings.py(设置相关参数)和一个 spider文件夹(定制你的爬虫)
首先,编辑items.py 文件:
# -*- coding: utf-8 -*-
import scrapy
class DoubanNewMovieItem(scrapy.Item):
movie_name=scrapy.Field()
movie_star=scrapy.Field()
movie_url=scrapy.Field()
-
首先引入scrapy
-
接着创建一个类,继承自scrapy.item,这个是用来储存要爬下来的数据的存放容器,类似orm的写法,
-
我们要记录的是,1.电影的名字,2.电影的评分,3.电影的链接
好,这个时候我们可以在 spider文件夹下创建一个 douban_new_movie_spider.py的文件,我们来编写我们的第一个爬虫,
在我们编写爬虫之前,先了解一下scrapy的爬取机制,scrapy和绝大多数的爬虫喜欢用繁琐的正则表达式不同,他更喜欢使用xpath和css的class来搜索他要的信息,笔者试过很多正则表达式的框架,首先正则表达式本来就是个很繁琐的东西,而且经常会出错,重写正则表达式就会耗去大量的开发时间,而xpath本就是为了解析html和xml而做的,非常方便,
不懂xpath的同学可以点这里: xpath教程
然后我们再来分析一下网页的源代码:
我们可以看到他们的xpath的组成,可以写出爬虫代码douban_new_movie_spider.py如下:
from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapy.http import Request
from douban_new_movie.items import DoubanNewMovieItem
class DoubanNewMovieSpider(Spider):
name="douban_new_movie_spider"
allowed_domains=["www.movie.douban.com"]
# start_urls=[
# 'http://movie.douban.com/chart'
# ]
headers = {
"Accept": "*/*",
"Accept-Encoding": "gzip,deflate",
"Accept-Language": "en-US,en;q=0.8,zh-TW;q=0.6,zh;q=0.4",
"Connection": "keep-alive",
"Content-Type": " application/x-www-form-urlencoded; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36",
"Referer": "http://www.movie.douban.com/"
}
def start_requests(self):
return [Request("http://movie.douban.com/chart", headers=self.headers)]
def parse(self,response):
sel=Selector(response)
movie_name = sel.xpath("//a[@class='nbg']/@title").extract()
movie_url=sel.xpath("//div[@class='pl2']/a/@href").extract()
movie_star=sel.xpath("//div[@class='pl2']/div/span[@class='rating_nums']/text()").extract()
item=DoubanNewMovieItem()
item['movie_name']=[n for n in movie_name]
item['movie_star']=[n for n in movie_star]
item['movie_url']=[n for n in movie_url]
yield item
print(movie_name,movie_star,movie_url)
-
首先我们先从scrapy中获得所需要的通用的 spider和 selector
-
接着把我们的“储存容器”的items拿过来
-
创建一个爬虫,scrapy的爬虫必须要有以下几个参数:name(爬虫的名字,scrapy需要这个来找到所需要的爬虫),start-urls(这个是启动事的url,是一个python的list),parse(用来对response进行处理的方法)
-
可以看到我们的name叫做 douban_new_movie_spider,我们的start_urls是直接从这个页面开始的,
-
接着我们来看我们的parse方法,首先我们使用scrapy内置的selector搜索器,用搜索器的xpath进行搜索,
-
注意:seletor的方法返回后一定要用它的 extract()方法,来返回一个列表
-
接着,我们把得到的数据保存在我们的items容器中
-
最后,我们来返回我们的items,他会交给pipelines处理
好了,其实到现在,一个基础的爬虫就已经写好了,现在,我想把这些保存成json格式的数据。怎么做呢?当然是处理我们的数据啦,在哪里处理呢?当然是在我们的管道(pipelines)里处理啦,好我们来写一个处理程序—— pipelines.py:
# -*- coding: utf-8 -*-
import json
import codecs
import sys
import importlib
importlib.reload(sys)
class DoubanNewMoviePipeline(object):
def __init__(self):
self.file=codecs.open('douban_new_movie.json',mode='wb',encoding='utf-8')
def process_item(self, item, spider):
line='the new movie list:'+'\n'
for i in range(len(item['movie_star'])):
movie_name={'movie_name':str(item['movie_name'][i]).replace(' ','')}
#print(movie_name)
movie_star={'movie_star':item['movie_star'][i]}
movie_url={'movie_url':item['movie_url'][i]}
line=line+json.dumps(movie_name,ensure_ascii=False)
line=line+json.dumps(movie_star,ensure_ascii=False)
line=line+json.dumps(movie_url,ensure_ascii=False)+'\n'
self.file.write(line)
def close_spider(self,spider):
self.file.close()
好,这个就是我们的管道程序:
-
首先,我们把我们的json包和codecs包引进,codecs包使用来处理中文的
-
接着,因为linux下对中文的支持的问题,如果你现在直接处理会报错,因为linux操作系统对中文的储存问题,而在windows和mac下则没问题
-
好的,我们先打开一个 douban_new_movie.json文件,我们将把数据储存在这个文件内,注意他的编码
-
scrapy的pipeline一般包括startspider,proessitem,closespider方法,其中processitem最为重要,我的程序写的很清楚啦,唯一要提醒的是,这个是由spider返回的item来处理,你可以向处理字典一样处理他们
-
这里,因为电影名,电影评分和电影链接是一一对应的,所以,我直接使用了电影列表的长度来调控他们
-
接着你需要把一些东西写进settings.py来告诉scrapy你将用什么pipeline:
在settings.py后面加上一句:
ITEM_PIPELINES={
'douban_new_movie.pipelines.DoubanNewMoviePipeline':300,
}
好,我们的爬虫就算完成了,我们来启动他,见证奇迹的时刻吧!!
在终端输入,就可以进行爬取:
scrapy crawl douban_new_movie_spider
你就会发现同文件夹下出现了一个新文件 douban_new_movie.json
源码地址
pythoncode/douban_new_movie at master
参考链接