注册
登录
查看:326 | 回复:12
佚名
多个url同时爬取并写入同一个txt文件,如何在写入的过程中去重
发表于 2022/11/3 13:52:29
楼主

多个url同时爬取并写入同一个txt文件,如何在写入的过程中去重

可见即可爬
发表于 2022/11/3 13:54:52
沙发

你爬一个不就行了

佚名
发表于 2022/11/3 13:58:07
板凳

我需要同时爬3个

奶疼
发表于 2022/11/3 14:00:13
4楼

那你在写入时读取文本内容进行判断不就行了

佚名
发表于 2022/11/3 14:02:22
5楼

那就要频繁打开文件判断

遍历一次打开一次

奶疼
发表于 2022/11/3 14:06:51
6楼

那你实在不行运行时候给一个缓存列表

不过这样第二次打开就是没用了

佚名
发表于 2022/11/3 14:07:43
7楼

难道要写去到3个文件,然后再文件之间去重吗

正解
发表于 2022/11/3 14:10:16
8楼

你爬的量有多大?

佚名
发表于 2022/11/3 14:13:34
9楼

几十万吧

正解
发表于 2022/11/3 14:17:22
10楼

去重是内容去重还是url去重?

佚名
发表于 2022/11/3 14:22:09
11楼

内容去重

立即注册站大爷用户,免费试用全部产品
立即注册站大爷用户,免费试用全部产品