90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

科技 06-29 来源：疯狂的肉丝面

前面花了几期的时间说了下python的爬虫的事情，今天来介绍一下python中的scrapy框架，看看他是如何来做爬虫的。

架构

在开始动手之前先引入一下架构的知识。这里主要介绍极大组件完成哪些功能，他们是如何写作的。

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

准备工作

安装scarpy，我这里使用的是mac上安装直接运行

sudo pip install scrapy

我的开发环境用的是pycharm，在preference中选择如下，安装即可。

通过控制台命令建立第一个srcapy项目

scrapy startproject demo01

生成项目以后直接打开，如图所示

建立一个爬虫

这里还是通过命令行来建立爬虫。先进入刚才建立的项目demo01

再运行生成爬虫的例子

scrapy genspider baidu baidu.com

第一个baidu是爬虫的名字，第二个baidu.com是需要爬取的url地址。

此时会生成爬虫对应的文件

先去设置setting文件

把user agent配置起来，就是配置浏览器。这里的ROBOTSTXT文件会定义哪些数据需要爬取，哪些是不让爬取的。我们做测试暂时就不用这个规则文件。

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

设置完毕以后回到爬虫的spiders文件，在解析的位置加上一行代码。

def parse(self, response):
 print(response.text)

测试结果

通过命令行执行命令，查看爬虫结果。

scrapy crawl baidu

这里baidu就是爬虫的名字。查看结果发现返回的百度的html。

如果需要打端点用命令行的方式就不行了，需要建立一个python文件。加入以下的内容。

然后右键运行python文件。同样也可以看到结果。

喜欢的关注一下。谢谢

爬虫程序员并不难

发表评论

留言与评论（共有 0 条评论）

程序员常用的学习资源网站大全

爬虫老手教初学者Python爬虫scrapy

做好这4点，与产后抑郁说再见，其实并

Java程序员必备的50道Kafka面试题

北京大佬推荐Java学习曲线资料，助你

资深程序员雷军为何不再写代码了？

网友投稿普通会员

我还没有学会写个人说明

1500005 篇文章

50531651 次浏览

最近文章

90%程序员都可以掌握，从0开始，其实并不难，scrapy爬虫实践(1)

架构

准备工作

建立一个爬虫

测试结果

相关文章

推荐文章

最热点击文章

热门标签