Scrapy_shell

发表于 2021-01-13 更新于 2022-05-30 分类于爬虫阅读次数： Changyan：

Windows命令之令符中输入指令自动进入Scarpy_shell

1	--scrapy shell

scrapy shell url #进入网站
#在网页检查中找到目标之后copy所在html超文本语言的copy xpath
response.xpath('''copy xpath''').extract()  #extract()方法用于输出列表形式的数据
#python在Windows命令指令符中的换行先输入\再敲回车
#复制先用光标拖动，然后ctrl+insert

/html/body/div[5]/div/div/div[1]/div[1]/section[1]/div[2]/h2/a/
#这是复制的某一个xpath，如果要获取文本格式，只需要
/html/body/div[5]/div/div/div[1]/div[1]/section[1]/div[2]/h2/a/text()
#如果要获取该页面多所有文本标题，需要
/html/body/div[5]/div/div/div[1]/div[1]/section/div[2]/h2/a/text()

如果通过xpath无法找到爬取的内容，说明403禁止访问

需要用scrapy模拟浏览器，模拟登陆，要在network中找到

response head响应头
request head请求头，我们需要在请求头里寻找。
首先没有登陆的页面，cookie一般是没有用的。经过测试，大多数是user-agent，拷贝user-agent

1	scrapy shell -s USER_AGENT='' url