关于杰奇采集的自动校对和自动更正,欢迎各大站长交流

背景:

去年互联网朋友带入行, 站做起来以后就一直在更新校对

一开始只要把最后一章更正上.

后来要往上翻几张把可能是错误的(少字, 重复章节等等更正成功)

关关采集器不在更新. C# 版本的去修改成本很高

就自己用php写了一套关于自动校对和自动更正的程序.

应用版本:

  • - 主源: Jieqi17
  • - 辅助程序: Laravel 8x
  • - 一库多站: 船说4.2 (没有tag版:ac01:)
  • - php 5.2 / php 7.4
  • - 关关采集器 10.0.1
  • - supervisorctl 3.0.4
  • 成果展示:
    修复错误章节![修复错误章节](https://i.ibb.co/qY1nMLM/QQ-20240416155813.png)

    自动校对![自动校对](https://i.ibb.co/94nfXBv/QQ-20240416155817.png)

    过程:
    关关采集器在校对或者替换30章时产生的120对比错误 => logs
    同步至linux服务器. 定时任务处理至supervisorctl 分发到不同的队列
    队列qd1
    队列qq2
    入队后获取远程站点链接, 检测本站最后30章错误章节(重复章节, 少字章节)
    不同队列获取不同远程站点的章节组成对应数组.
    qd1 本地 远程
    [
    第一章 dyz => 第一章 dyz
    ...
    ]
    qq2 本地 远程
    [
    第一章 dyz => 01 qyz
    ]
    采集目标站点
    判断内容是否错误,
    正常 => 排版替换
    错误 => 记录错误数. 跳出

    其他的小逻辑比如说连续错误多次跳出. 该章节错误数跳出.. 就不叙述了

    有想法或者思路的站长可以留言或者飞机
    https://t.me/honourfuture

    关关不是有自动纠错么。

    @“[未知用户]”#p23000 不太好用. 字数限制的会少一些请假章节或者后补章节.

    字数多的可能是重复章节比如说"灵魂契约" 这章. 应该是一部分源做的防采集

    采集器还是关关用着顺手

    @“[未知用户]”#p23004 我是说自动修复,对比不上的时候自动找最近可以匹配的章节,自动修复后面的章节。

    @“[未知用户]”#p23004 不过这个主要看实现思路,感觉你做的这个也是蛮不错的。

    @“[未知用户]”#p23005

    关关还是进行更新,采集

    自己写的自动校对, 其实也是基于关关的log做的.

    @“[未知用户]”#p23006

    这个我不知道哎. 我晚一点去看看呢

    @“[未知用户]”#p23007

    谢谢老哥的50能量.

    不发布么?只是概念么?老詹打赏的50能量干啥的

    @“[未知用户]”#p23010 关关的自动修复功能就是这样的,对比不上自动往前找章节替换。这样的好处就是搜索引擎不会出现404

    @“[未知用户]”#p23015

    没做成一个合格的产品. 现阶段在个人使用

    所以没有发布.

    @“[未知用户]”#p23017

    好的. 我确实没有研究过.

    不过我好像有关关9.0的源代码. 有时间看一下.

    @“劳资蜀道山”#p23015

    因为James老哥打赏的50能量, 我把过程简单的描述了一下

    支持大佬,关关建议坛子出个关关规则教程,新手表示网上教程很少

    @“有雨”#p59117 规则可以直接淘宝闲鱼买一些, 很便宜, 看一看就会, 其实就是正则的使用, 规则里面最重要的其实是适合自己的"源"