基于 Scrapy 框架的微博评论爬虫实战-益强资讯全景

IT科技: 基于 Scrapy 框架的微博评论爬虫实战
时间：2010-12-5 17:23:32  作者：IT科技   来源：人工智能  查看：  评论：0
内容摘要：文末本文转载自微信公众号「志斌的python笔记」，作者志斌。转载本文请联系志斌的python笔记公众号。大家好，我是志斌~之前志斌写过的微博爬虫是基于Requests的，今天来跟大家分享一下，基于S
文末本文转载自微信公众号「志斌的基于python笔记」，作者志斌。框架转载本文请联系志斌的博评python笔记公众号。
大家好，论爬我是虫实志斌~
之前志斌写过的微博爬虫是基于Requests的，今天来跟大家分享一下，基于基于Scrapy的框架微博爬虫应该怎么写。
之前分享过一个Requests对微博评论的博评爬虫，已经对页面进行了全面的论爬分析，本文主要注重对数据采集、虫实存储和文件配置进行分析讲解。基于
一Scrapy简介
首先，框架我们需要对Scrapy框架有一个简单的博评了解，不然在你书写代码的论爬时候会非常的麻烦。
01安装
使用pip对Scrapy进行安装，虫实代码如下：
pip install scrapy
02创建项目
安装好Scrapy框架之后，我们需要通过终端，来创建一个Scrapy项目，命令如下：
scrapy startproject weibo
创建好后的项目结构，如下图：
这里我们来简单介绍一下结构中我们用到的部分的站群服务器作用，有助于我们后面书写代码。
spiders是存放爬虫程序的文件夹，将写好的爬虫程序放到该文件夹中。items用来定义数据，类似于字典的功能。settings是设置文件，包含爬虫项目的设置信息。pipelines用来对items中的数据进行进一步处理，如：清洗、存储等。
二数据采集
经过上面的简单介绍，我们现在对Scrapy框架有了简单的了解，下面我们开始写数据采集部分的代码。
01定义数据
首先，我们对数据存储的网页进行观察，方便我们对获取数据进行定义
通过对网页中数据存储的形式进行观察后，items.py中对数据的定义方式为：
data = scrapy.Field()
02编辑爬虫
接下来我们在spiders文件夹里面创建一个weibo.py爬虫程序用以书写请求的爬虫代码
代码如下：
import scrapy class WeiboSpider(scrapy.Spider):    name = weibo  #用于启动微博程序    allowed_domains = [m.weibo.cn]  #定义爬虫爬取网站的域名    start_urls = [https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id_type=0]  #定义起始网页的高防服务器网址   for i in res[data][data]:      weibo_item = WeiboItem()      weibo_item[data] = re.sub(r<[^>]*>, , i[text])      # start_url = [https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&+str(max_id)+&max_id_type=0]      yield weibo_item  #将数据回传给items
03遍历爬取
学过Requests对微博评论进行爬虫的朋友应该知道，微博评论的URL构造方式，这里我直接展示构造代码：
max_id_type = res[data][max_id_type] if int(max_id_type) == 1:    new_url = https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id= + str(        max_id) + &max_id_type=1 else:    new_url = https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id= + str(        max_id) + &max_id_type=0
三数据存储
光爬取下来数据是不行的，我们还需要对数据进行存储，这里我采用的是csv文件，来对评论数据进行存储，代码如下：
class CsvItemExporterPipeline(object):    def __init__(self):        # 创建接收文件,初始化exporter属性        self.file = open(text.csv,ab)        self.exporter = CsvItemExporter(self.file,fields_to_export=[data])        self.exporter.start_exporting()
四程序配置
光写上面的代码是无法爬取到评论的，因为我们还没有对整个程序进行有效的配置，下面我们就在settings.py里面进行配置。
01不遵循robots协议
需要对robts协议的遵守进行修改，如果我们遵循网页的robots协议的话，那无法进行爬取，代码如下：
# Obey robots.txt rules ROBOTSTXT_OBEY = False
02使用自定义cookie
我们知道，想要爬取微博评论，需要带上自己的cookie用以信息校验，因为我们的cookie是在headers中包裹着的，源码下载所以我们需要将COOKIES_ENABLED改为False，代码如下：
# Disable cookies (enabled by default) COOKIES_ENABLED = False
03打开管道
想要进行数据存储，还需要在配置中，打开通道，用以数据传输，代码如下：
# Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = {    weibo.pipelines.CsvItemExporterPipeline: 1,   weibo.pipelines.WeiboPipeline: 300, }
五启动程序
我们在spiders同级的的目录下创建一个wb_main.py文件，便于我们在编辑器中启动程序，代码如下：
from scrapy import cmdline #导入cmdline模块,可以实现控制终端命令行。 cmdline.execute([scrapy,crawl,weibo]) #用execute（）方法，输入运行scrapy的命令。
六总结
1. 本文详细的介绍了，如何用Scrapy框架来对微博评论进行爬取，建议大家动手实操一下，便于理解。
2. 本文仅供学习参考，不做它用。
为什么说注册域名注意细节？哪些我们不能忽视？
公司和个人选域名方法一样吗？有什么不同？