求教：抓取的页面乱码如何解决？ - 互助问答

互助问答 » 求教：抓取的页面乱码如何解决？

我要提问 / 分享返回列表

查看：448 | 回复：16

大鹏

求教：抓取的页面乱码如何解决？

发表于 2021/10/6 13:19:29

楼主

10.6.1.jpg

10.6.2.jpg

爬取结果乱码怎么办

大鹏

发表于 2021/10/6 13:24:26

沙发

这是正常的内容

10.6.3.jpg

Python

发表于 2021/10/6 13:27:01

板凳

输出的时候

转码

冰绿踏青云

发表于 2021/10/6 13:29:17

4楼

右键查看网页源代码，看前几行的charset编码是什么方式，

然后在你的response那一行下面加一行，resopnse.encoding = 编码方式

大鹏

发表于 2021/10/6 13:31:00

5楼

加过，感觉不像编码的问题，因为英文也是乱码

这个是json文件，没有charset

……

发表于 2021/10/6 13:34:53

6楼

可能是反爬了

大鹏

发表于 2021/10/6 13:35:35

7楼

经过fiddler代理是没有问题的

10.6.4.jpg

冰绿踏青云

发表于 2021/10/6 13:36:27

8楼

我这里看着没啥问题呀

10.6.4.png

大鹏

发表于 2021/10/6 13:40:32

9楼

fiddler如果选择

10.6.5.jpg

这个，就可以正常解析了，在代码中应该如何体现呢？

冰绿踏青云

发表于 2021/10/6 13:45:13

10楼

这个网站有对浏览器做识别

不加请求头的话就是我上面的结果

加了头，就正常显示了

冰绿踏青云

发表于 2021/10/6 13:47:58

11楼

有可能是你的pycharm默认编码不是utf-8

你解决了吗，我这正常显示，没办法处理你那种问题

headers = {
     Connection :  keep-alive ,
     Pragma :  no-cache ,
     Cache-Control :  no-cache ,
     sec-ch-ua :   Chromium ;v= 92 ,   Not A;Brand ;v= 99 ,  Google Chrome ;v= 92  ,
     sec-ch-ua-mobile :  ?0 ,
     Upgrade-Insecure-Requests :  1 ,
     User-Agent :  Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 ,
     Accept :  text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 ,
     Sec-Fetch-Site :  same-origin ,
     Sec-Fetch-Mode :  navigate ,
     Sec-Fetch-User :  ?1 ,
     Sec-Fetch-Dest :  document ,
     Referer :  
https:    //so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D pd=atlas source=search_subtab_switch dvpf=pc aid=4916 page_num=1 image_keyword=%E8%A1%97%E6%8B%8D image=https%3A%2F%2Fp3-search.byteimg.com%2Fobj%2Fmosaic-legacy%2Fcff00012769874e3048 rawJSON=1 search_id=202110052258490102121920453AFAB408 ,
     Accept-Language :  zh-CN,zh;q=0.9 ,

共有16条回复，每页10条 1 2 刷新

返回列表