爬虫老手教初学者Python爬虫scrapy教程(内附python教程分享)

在cmd 或者 在 Window PowerShell 中输入命令:

pip install scrapy

过程中可能会问你是否安装其他扩展包选 按y 回车就好了

安装完成后在看看是否安装成功

输入以下命令:

创建爬虫项目

scrapy startproject (projectName)

我创建的项目名称为AIQuery

scrapy startproject AIQuery

用IDE打开项目可以看到目录结构如下

1.根目录有个scrapy.cfg是他的配置文件

2.spiders用来存放你的爬虫文件

3.__init__.py我就不做解释了

4.items.py存放集合

5.middlewares.py中间件用来自定义插件(在这里咱们用不到这玩意)

6.pipelines.py用来存储数据

7.settings.py这个还用解释吗?(你可以在scrapy.cfg中看到这个)

在你的spiders目录下创建自己第一个爬虫项目,我我这儿命名为AiquerSpider.py

然后编辑文件

以上是我所需要导入使用的包,你也可以自定义别的包.

接下来咱们创建类:

在写代码之前呢咱们要去做点大事,具体看下面,嘿嘿!

咱们要首先定义集合就是items.py中用来存放的数据

咱们看看网页吧,在具体说需要哪些东西.

上面呢我们需要网站地址\用户名称\视频图片\视频地址

下载视频的话我这儿就不做讲解了我们就获取这几个参数为例子

首先,我们需要爱奇艺网站用户地址做分析

http://www.iqiyi.com/u/141242...

http://www.iqiyi.com/u/用户ID 这一段是找到用户网站首页

/v 这个是该用户下的视频

这样我们就了解到了如何去手动指定用户并且爬取他下面的视频了

废话不多说,先上items的代码

我们的items就写完了

再回到咱们的爬虫上面,具体解释都在里面的注释中了

有同学肯定会问('//div[@class="site-piclist_pic"]//a/@href')这是啥玩意

Xpath:

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。

起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。

如何去启动,scrapy是使用cmd命令行去启动的

咱们用scrapy的cmdline去启动

命名point.py

这个文件放在项目根目录下

我的前面的步骤写完的话可以用这个去测试一下(把部分代码注释去了),你会发现有好多神秘的蓝色链接,

直接贴代码

在运行这个东西之前是要注册的,回到settings.py里面找到Configure item pipelines,将下面的注释去掉就行了,咱们没有具体需求所以不用改优先级别

# Configure item pipelines# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = { 'AiQuer.pipelines.AiquerPipeline': 300,}

AiQuer.pipelines.AiquerPipeline是为你要注册的类,右侧的’300’为该Pipeline的优先级,范围1~1000,越小越先执行。

最后,想学习Python的小伙伴们!

请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!

pytyhon学习资料

python学习资料

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();