求个方法，提取任意html内容中任意正文 - 互助问答 | 代理IP知识问答 - 站大爷

注册: 登录

互助问答 » 求个方法，提取任意html内容中任意正文

我要提问 / 分享返回列表

查看：560 | 回复：11

无常

求个方法，提取任意html内容中任意正文

发表于 2022/11/22 12:07:23

楼主

求个方法，提取任意html内容中任意正文

啦啦

发表于 2022/11/22 12:10:51

沙发

可以看看xpath

无常

发表于 2022/11/22 12:15:26

板凳

感觉xpath只适合固定格式且已知内容的html，如果面临几十万完全未知内容格式的，好像不太行啊，

乌鸦坐飞机

发表于 2022/11/22 12:17:48

4楼

那把所有标签全部删除，正文以空格隔开可以吗？

可以直接用正则

无常

发表于 2022/11/22 12:18:57

5楼

正则把标签直接替换成分隔符？

乌鸦坐飞机

发表于 2022/11/22 12:23:05

6楼

是的

无常

发表于 2022/11/22 12:26:19

7楼

那如果标签有属性值，就墨迹了

乌鸦坐飞机

发表于 2022/11/22 12:27:03

8楼

属性值你要不要？

不要也可以一次性清除

无常

发表于 2022/11/22 12:31:26

9楼

要啊，而且只要指定的

如果直接用正则，怎么写这个？

这个破问题，折磨我挺久了

乌鸦坐飞机

发表于 2022/11/22 12:34:14

10楼

你这个是要提取所有正文或者对应属性值吗

属性值也要的话麻烦了点，不想浪费这个时间

乌鸦坐飞机

发表于 2022/11/22 12:38:07

11楼

你自己看有没有兴趣吧

KHCPQQ3TVV7F`NI_~QM(O6F.png

%WVHF$$X3{VTQ[1LM5NEV12.png

共有11条回复，每页10条 1 2 刷新

立即注册站大爷用户，免费试用全部产品

立即注册站大爷用户，免费试用全部产品

快速咨询热线：

024-31823261

国家高新技术企业证书编号：GR202321001563
增值电信经营许可证：辽B2-20180026
互联网虚拟专用网业务许可证：B1-20181940
公司地址：沈阳市浑南区上深沟村沈阳国际软件园F7座

产品

支持

文档

关于

声明：本站不搜集数据不存储数据，也不买卖数据，所有资源仅用作数据传输通道。禁止利用本平台资源从事任何违反本国（地区）法律法规的活动，用户所有操作行为均有日志存档并保留6个月。

站大爷 - 专业的大数据基础服务平台 Copyright@2012-2025 | 辽B2-20180026