注册
登录
查看:512 | 回复:11
天道法海
老哥们,请教一下,我爬腾讯新闻的时候,为啥有些url明明可以手动打开,但是抓不到东西呢?
发表于 2021/9/13 18:55:41
楼主

QQ图片20210913205620.jpg


爬不到的这些url都是没有.html后缀的,我起初是认为后缀问题,结果加上后缀也没内容

赵云
发表于 2021/9/13 18:59:45
沙发

异步加载的吧?

天道法海
发表于 2021/9/13 19:03:31
板凳

没有异步

多线程都没用

嚣张的小恐龙
发表于 2021/9/13 19:05:09
4楼

HTML是静态网页

jsp的话是动态加载的,不是一次申请

天道法海
发表于 2021/9/13 19:08:26
5楼

奇怪的是,它一部分能抓到,一部分抓不到,抓不到的都是没有 html后缀的

我在url后面加上.html还是可以打开

嚣张的小恐龙
发表于 2021/9/13 19:09:04
6楼

那些链接有可能是服务器的代码请求操作

比如xxx/service

天道法海
发表于 2021/9/13 19:11:26
7楼

你的意思……有可能这个页面post发送了别的数据到后端,然后后端给了别的页面?

嚣张的小恐龙
最佳答案 发表于 2021/9/13 19:12:16
8楼

会定位到服务器里面的一段代码,然后代码操作完了转发到其他页面显示

天道法海
发表于 2021/9/13 19:14:28
9楼

哦,明白了,谢谢,我还在吃饭,等会儿去看看状态码

嚣张的小恐龙
发表于 2021/9/13 19:15:17
10楼

我也不是很清楚,刚刚学了点web编程,感觉你请求的可能是一些服务器里面定义的一些类

一般这些是不给直接请求的,会加检验

天道法海
发表于 2021/9/13 19:15:51
11楼

嗯嗯,我明白你的意思,类似flask后端路由,做了处理之后再给到其他页面

服务器端重定向,会给前端302的状态码

立即注册站大爷用户,免费试用全部产品
立即注册站大爷用户,免费试用全部产品