详解向scrapy中的spider传递参数的几种方法(2种)

#代码知识发布时间： 2026-01-12

有时需要根据项目的实际需求向spider传递参数以控制spider的行为，比如说，根据用户提交的url来控制spider爬取的网站。在这种情况下，可以使用两种方法向spider传递参数。

第一种方法，在命令行用crawl控制spider爬取的时候，加上-a选项，例如：

scrapy crawl myspider -a category=electronics

然后在spider里这样写：

import scrapy

class MySpider(scrapy.Spider):
  name = 'myspider'

  def __init__(self, category=None, *args, **kwargs):
    super(MySpider, self).__init__(*args, **kwargs)
    self.start_urls = ['http://www.example.com/categories/%s' % category]
    # ...

也就是在spider的构造函数里加上带入的参数即可。

第二种方法，在用scrapyd控制spider的时候，可以向schedule.json发送-d选项加入参数，同样的，也需要在spider的构造函数里如上写法。例如：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

另外，如果需要在scrapy发出的request上加入参数，可以使用request的meta参数，然后就可以相应的在返回的respose对象中获得传入的参数。这在某些情况下相当有用，比如说需要确定这个url是哪个用户请求爬取的，可以先用上面两种方法之一将信息传递给spider，spider就可以把这个信息加入到request中，然后在相应的reponse中就可以将这个信息与从url的页面中获得的信息一起存入数据库。例如：

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request

def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

代码知识SEO

上一篇 : Eclipse创建tomcat实现过程原理详解

下一篇 : Scrapy中如何向Spider传入参数的方法实现

首页

关于我们

SEO服务

品牌推广

优化学院

联系我们

详解向scrapy中的spider传递参数的几种方法(2种)

SEO公司

SEO套餐

SEO教程

SEO资源

SEO建站

推荐阅读

docker容器中切换用户,提示权限不足

Python下载的11种姿势(小结)

Python监听键盘和鼠标事件的示例代码

Java序列化常见实现方法代码实例

Springboot mybatis p

Vue如何循环提取对象数组中的值

vue在图片上传的时候压缩图片

Opencv python 图片生成视频

C++17中的折叠表达式实现

Vue +WebSocket + Wav

微信小程序实现多张图片上传功能

springsecurity 基本使用详

解决Mybatis-plus找不到对应表

WIN10系统和Docker内部容器IP

calendar在python3时间中常

Java object wait not

Python 远程开关机的方法

如何在Express4.x中愉快地使用a

Linux上定位后台服务偶发崩溃的解决方

IDEA中用maven连接数据库的教程