HTTP代理 >
定制IP池 >
Socks5代理 >
支持 >
改成self.parse_item试试
这样吗
这是通用爬虫,不是普通爬虫
也不行
网上找了好几个 都是这么写的 但是就是不调用callback里面的函数
因为你规则没有匹配到
link = LinkExtractor(allow=r page/\d+\.html ) 这个没有匹配到?
你不用crawlspider这个模型,
不要用crawlspider
大部分网站都用起来不方便
还是用LinkExtractor,提取打印出来看看
创建普通爬虫就行