注册
登录
查看:338 | 回复:16
大鹏
求教:抓取的页面乱码如何解决?
发表于 2021/10/6 13:19:29
楼主

10.6.1.jpg

10.6.2.jpg

爬取结果乱码怎么办
大鹏
发表于 2021/10/6 13:24:26
沙发

这是正常的内容


10.6.3.jpg

Python
发表于 2021/10/6 13:27:01
板凳

输出的时候

转码

冰绿踏青云
发表于 2021/10/6 13:29:17
4楼

右键查看网页源代码,看前几行的charset编码是什么方式,

然后在你的response那一行下面加一行,resopnse.encoding = 编码方式

大鹏
发表于 2021/10/6 13:31:00
5楼

加过,感觉不像编码的问题,因为英文也是乱码

这个是json文件,没有charset

……
发表于 2021/10/6 13:34:53
6楼

可能是反爬了

大鹏
发表于 2021/10/6 13:35:35
7楼

经过fiddler代理是没有问题的


10.6.4.jpg

冰绿踏青云
发表于 2021/10/6 13:36:27
8楼

我这里看着没啥问题呀


10.6.4.png


大鹏
发表于 2021/10/6 13:40:32
9楼

fiddler如果选择


10.6.5.jpg


这个,就可以正常解析了,在代码中应该如何体现呢?

冰绿踏青云
发表于 2021/10/6 13:45:13
10楼

这个网站有对浏览器做识别

不加请求头的话就是我上面的结果

加了头,就正常显示了

冰绿踏青云
发表于 2021/10/6 13:47:58
11楼

有可能是你的pycharm默认编码不是utf-8

你解决了吗,我这正常显示,没办法处理你那种问题

headers = {
     Connection :  keep-alive ,
     Pragma :  no-cache ,
     Cache-Control :  no-cache ,
     sec-ch-ua :   Chromium ;v= 92 ,   Not A;Brand ;v= 99 ,  Google Chrome ;v= 92  ,
     sec-ch-ua-mobile :  ?0 ,
     Upgrade-Insecure-Requests :  1 ,
     User-Agent :  Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 ,
     Accept :  text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 ,
     Sec-Fetch-Site :  same-origin ,
     Sec-Fetch-Mode :  navigate ,
     Sec-Fetch-User :  ?1 ,
     Sec-Fetch-Dest :  document ,
     Referer :  
https:    //so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D pd=atlas source=search_subtab_switch dvpf=pc aid=4916 page_num=1 image_keyword=%E8%A1%97%E6%8B%8D image=https%3A%2F%2Fp3-search.byteimg.com%2Fobj%2Fmosaic-legacy%2Fcff00012769874e3048 rawJSON=1 search_id=202110052258490102121920453AFAB408 ,
     Accept-Language :  zh-CN,zh;q=0.9 ,


立即注册站大爷用户,免费试用全部产品
立即注册站大爷用户,免费试用全部产品