注册
登录
查看:428 | 回复:11
无常
求个方法,提取任意html内容中任意正文
发表于 2022/11/22 12:07:23
楼主

求个方法,提取任意html内容中任意正文

啦啦
发表于 2022/11/22 12:10:51
沙发

可以看看xpath

无常
发表于 2022/11/22 12:15:26
板凳

感觉xpath只适合固定格式且已知内容的html,如果面临几十万完全未知内容格式的,好像不太行啊,

乌鸦坐飞机
发表于 2022/11/22 12:17:48
4楼

那把所有标签全部删除,正文以空格隔开可以吗?

可以直接用正则

无常
发表于 2022/11/22 12:18:57
5楼

正则把标签直接替换成分隔符?

乌鸦坐飞机
发表于 2022/11/22 12:23:05
6楼

是的

无常
发表于 2022/11/22 12:26:19
7楼

那如果标签有属性值,就墨迹了

乌鸦坐飞机
发表于 2022/11/22 12:27:03
8楼

属性值你要不要?

不要也可以一次性清除

无常
发表于 2022/11/22 12:31:26
9楼

要啊,而且只要指定的

如果直接用正则,怎么写这个?

这个破问题,折磨我挺久了

乌鸦坐飞机
发表于 2022/11/22 12:34:14
10楼

你这个是要提取所有正文或者对应属性值吗

属性值也要的话麻烦了点,不想浪费这个时间

乌鸦坐飞机
发表于 2022/11/22 12:38:07
11楼

你自己看有没有兴趣吧


KHCPQQ3TVV7F`NI_~QM(O6F.png



%WVHF$$X3{VTQ[1LM5NEV12.png

立即注册站大爷用户,免费试用全部产品
立即注册站大爷用户,免费试用全部产品