HTTP代理 >
定制IP池 >
Socks5代理 >
支持 >
多个url同时爬取并写入同一个txt文件,如何在写入的过程中去重
你爬一个不就行了
我需要同时爬3个
那你在写入时读取文本内容进行判断不就行了
那就要频繁打开文件判断
遍历一次打开一次
那你实在不行运行时候给一个缓存列表
不过这样第二次打开就是没用了
难道要写去到3个文件,然后再文件之间去重吗
你爬的量有多大?
几十万吧
去重是内容去重还是url去重?
内容去重