Skip to content

禁止抓取错字重定向的标题 #42

Open
@DeepChirp

Description

@DeepChirp

目前该词库似乎会抓取重定向页面的标题。中文维基百科上存在错字重定向的模板,感觉此类页面不应该抓取。若重定向页面中含有此模板,能否禁止抓取呢?

示例:知识份子

个人思考的实现方案有二:

  1. 直接检测目标页面中是否含有{{错字重定向}},若有,则不加入词库中。
  2. 在词库中剔除含有{{错字重定向}}的条目,可在链入页面或是错字重定向分类中获取。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions