爬取结果乱码怎么办
这是正常的内容
输出的时候
转码
右键查看网页源代码,看前几行的charset编码是什么方式,
然后在你的response那一行下面加一行,resopnse.encoding = 编码方式
加过,感觉不像编码的问题,因为英文也是乱码
这个是json文件,没有charset
可能是反爬了
经过fiddler代理是没有问题的
我这里看着没啥问题呀
fiddler如果选择
这个,就可以正常解析了,在代码中应该如何体现呢?
这个网站有对浏览器做识别
不加请求头的话就是我上面的结果
加了头,就正常显示了
有可能是你的pycharm默认编码不是utf-8
你解决了吗,我这正常显示,没办法处理你那种问题
headers = { Connection : keep-alive , Pragma : no-cache , Cache-Control : no-cache , sec-ch-ua : Chromium ;v= 92 , Not A;Brand ;v= 99 , Google Chrome ;v= 92 , sec-ch-ua-mobile : ?0 , Upgrade-Insecure-Requests : 1 , User-Agent : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 , Accept : text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 , Sec-Fetch-Site : same-origin , Sec-Fetch-Mode : navigate , Sec-Fetch-User : ?1 , Sec-Fetch-Dest : document , Referer : https: //so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D pd=atlas source=search_subtab_switch dvpf=pc aid=4916 page_num=1 image_keyword=%E8%A1%97%E6%8B%8D image=https%3A%2F%2Fp3-search.byteimg.com%2Fobj%2Fmosaic-legacy%2Fcff00012769874e3048 rawJSON=1 search_id=202110052258490102121920453AFAB408 , Accept-Language : zh-CN,zh;q=0.9 ,