通用网站内容爬虫抓取工具,可批量抓取任意站点的小说、论坛内容等并保存为TXT文档
< 脚本怠惰小说下载器的反馈
大大,请教一个问题,对于分页的带有>>的分页标题,如何不输出或者在输出后批量删除?现在很多小说网站都是章节内分页的,下载后在阅读器上又会自动索引标题后分成两个章节,阅读起来多有不便。尝试过删除重复段落,但是这样会将正文的一些合理的重复段也一并删除,因此无法解决,求帮助。
有范例网站吗?
我是在axeslide.com碰到这个问题的,不过在笔趣阁的翻页倒是自动合并了。研究了很久,发现分页标题还是可以通过word进行批量删除的。此外,m.529c.com试了很多种解析方式,好像都抓不到正文的内容?不过都是些小站,纯粹是萌新瞎折腾,哈哈。
登录(不可用)以发表回复。
土豆服务器,请按需使用
镜像地址随时可能被墙,建议加群获取最新地址
QingJ © 2025
镜像随时可能失效,请加Q群300939539或关注我们的公众号极客氢云获取最新地址
大大,请教一个问题,对于分页的带有>>的分页标题,如何不输出或者在输出后批量删除?
现在很多小说网站都是章节内分页的,下载后在阅读器上又会自动索引标题后分成两个章节,阅读起来多有不便。
尝试过删除重复段落,但是这样会将正文的一些合理的重复段也一并删除,因此无法解决,求帮助。