注册
登录
查看:386 | 回复:20
妹见过猪跑
抓取猫眼电影top100的信息,请问怎么爬取所有的评论
发表于 2021/9/17 11:32:25
楼主

我用python的request库和正则表达式爬取了猫眼电影top100的信息,请问怎么爬取所有的评论,并且对应放进我爬取信息创建的文件夹里呢

katharsis
发表于 2021/9/17 11:32:59
沙发

open path写进去啊

katharsis
发表于 2021/9/17 11:36:45
板凳

QQ图片20210917133355.png


我没加sleep是这样

妹见过猪跑
发表于 2021/9/17 11:38:50
4楼

100个网页的评论也可以吗,而且src没有规律

妹见过猪跑
发表于 2021/9/17 11:43:14
5楼

QQ图片20210917133445.png

这个数没有规律

katharsis
发表于 2021/9/17 11:45:31
6楼

先爬排名,从排名爬取到各个电影url后,再用url进一步爬评论

你说的没有规律这个事,一般用xpath爬取

1024
发表于 2021/9/17 11:46:31
7楼

把href取出来,然后遍历

远方很远
发表于 2021/9/17 11:51:19
8楼

@katharsis 你这还打印了子进程,我这完全不打印

katharsis
发表于 2021/9/17 11:55:58
9楼

@妹见过猪跑 我爬小说一般从小说目录进去,爬取各个章节的url,再从url爬小说内容

katharsis
发表于 2021/9/17 11:58:19
10楼

一般就
from lxml import etree
from bs4 import BeautifulSoup


正则这玩意太复杂的玩不转

妹见过猪跑
发表于 2021/9/17 12:00:34
11楼

数学专业的已经看不懂了

立即注册站大爷用户,免费试用全部产品
立即注册站大爷用户,免费试用全部产品