用最短的从零虫速成时间写一个最简单的爬虫,可以抓一些简单的开始论坛、帖子、的萌网页。爬爬虫
1.准备工作
安装Python 安装scrapy框架 一个IDE或者可以用自带的南本2.开始写爬虫
在spiders文件夹中创建一个python文件,比如miao.py,文受来作为爬虫的众没脚本。
代码如下:
3.运行一下
如果用命令行的写过新话就这样:
1.试试神奇的网站模板xpath
2.看看xpath的效果
在最上面加上引用:
from scrapy import Selector把parse函数改成:
我们再次运行一下,你就可以看到输出“坛星际区”***页所有帖子的从零虫速成标题和url了。
完整的开始代码如下:
现在是对已抓取、解析后的的萌内容的处理,我们可以通过管道写入本地文件、爬爬虫数据库。南本
1.定义一个Item
在miao文件夹中创建一个items.py文件
这里我们定义了两个简单的服务器租用文受class用来描述我们爬取的结果。
2. 处理方法
3.在爬虫中调用这个处理方法。众没
4.在配置文件里指定这个pipeline
可以这样配置多个pipeline:
1.Middleware的配置
2.破网站查UA, 我要换UA
这里就是一个简单的随机更换UA的中间件,agents的内容可以自行扩充。
3.破网站封IP,我要用代理
看懂了吗 ?是不是超简单!亿华云计算