求个方法,提取任意html内容中任意正文
可以看看xpath
感觉xpath只适合固定格式且已知内容的html,如果面临几十万完全未知内容格式的,好像不太行啊,
那把所有标签全部删除,正文以空格隔开可以吗?
可以直接用正则
正则把标签直接替换成分隔符?
是的
那如果标签有属性值,就墨迹了
属性值你要不要?
不要也可以一次性清除
要啊,而且只要指定的
如果直接用正则,怎么写这个?
这个破问题,折磨我挺久了
你这个是要提取所有正文或者对应属性值吗
属性值也要的话麻烦了点,不想浪费这个时间
你自己看有没有兴趣吧