我用python的request库和正则表达式爬取了猫眼电影top100的信息,请问怎么爬取所有的评论,并且对应放进我爬取信息创建的文件夹里呢
open path写进去啊
我没加sleep是这样
100个网页的评论也可以吗,而且src没有规律
这个数没有规律
先爬排名,从排名爬取到各个电影url后,再用url进一步爬评论
你说的没有规律这个事,一般用xpath爬取
把href取出来,然后遍历
@katharsis 你这还打印了子进程,我这完全不打印
@妹见过猪跑 我爬小说一般从小说目录进去,爬取各个章节的url,再从url爬小说内容
一般就
from lxml import etree
from bs4 import BeautifulSoup
正则这玩意太复杂的玩不转
数学专业的已经看不懂了