Scrapy_shell

Windows命令之令符中输入指令自动进入Scarpy_shell

1
--scrapy shell
1
2
3
4
5
6
7
8
9
10
11
12
scrapy shell url #进入网站
#在网页检查中找到目标之后copy所在html超文本语言的copy xpath
response.xpath('''copy xpath''').extract() #extract()方法用于输出列表形式的数据
#python在Windows命令指令符中的换行先输入\再敲回车
#复制先用光标拖动,然后ctrl+insert

/html/body/div[5]/div/div/div[1]/div[1]/section[1]/div[2]/h2/a/
#这是复制的某一个xpath,如果要获取文本格式,只需要
/html/body/div[5]/div/div/div[1]/div[1]/section[1]/div[2]/h2/a/text()
#如果要获取该页面多所有文本标题,需要
/html/body/div[5]/div/div/div[1]/div[1]/section/div[2]/h2/a/text()

如果通过xpath无法找到爬取的内容,说明403禁止访问

需要用scrapy模拟浏览器,模拟登陆,要在network中找到

response head响应头
request head请求头,我们需要在请求头里寻找。
首先没有登陆的页面,cookie一般是没有用的。经过测试,大多数是user-agent,拷贝user-agent

1
scrapy shell -s USER_AGENT='' url