维基百科:标注/revscoring doc

维基百科,自由的百科全书

可见https://github.com/wikimedia/revscoring/blob/master/revscoring/languages/english.py

基于python的正则规则,准备用于Special:最近更改内破坏倾向和质量评判过滤器,效果见en:Special:RecentChanges。注意:r表示不转义,可能用到的元字符为*+?[]()

本页面内的所有规则均为手动制造,来源为以下列出的文章和之前机器学习的数据。目前,规则尚未被使用,您可以自行补充或修改以下规则,可能需要简单学习使用正则表达式,或将要添加的内容简单描述并注释。

(In a nutshell, ENG) These rules are made by humans, not robots.

参见:

目前的问题:

  • 简体与繁体转换是否需要?

badword_regexes[编辑]

不应出现的词语,可以是脏话或明显破坏

# r""
# English
r"[fF]uck",

# 
r"妈屄",
r"妈逼",

# 宣传与广告
r"本台",
r"本公司",
r"代[刷练抢]",
r"强势回归",
r"超值",
r"一条龙",
r"一夜情",
r"(世界|国际)一流",
r"用户(第一|满意|至上)",
r"核心(价值|团队|宗旨)",
r"服务(小姐|范围|项目|理念)",
r"时彩",
r"总代理",
r"[偷盗破窃][qQσ扣]",
# 仍可扩充

# 歧视
r"小日本",
r"台湾狗",
r"五毛",
r"共产中国",
r"流氓国家",
r"支那",
r"人渣",
r"我去",

# 翻译与文言
r"提出的在",
r"据报",
r"曰",

informal_regexes[编辑]

不应出现在条目,但在讨论中经常出现的词语

# r"",
r"互煮",
r"23+",
r"em+",
r"谢谢",
r"提删",
r"求助",

words_to_watch_regexes[编辑]

需要关注的词语,可能是违反方针指引或用语过于主观

# r"",
# 地域中心
r"[我外]国",
r"[本外][港地]",
r"当局",

# 时间
r"最近",
r"[今去前昨上近]几?个?[天日周月年]",
r"过去.*[天周月年]",
r"刚+",
r"刚才",
r"一会儿",

# 情绪化
r"强烈",
r"只不过",
r"只是",
r"就算",
r"尽管如此",
r"[实本]质[上地]",
r"基本[上地]",
r"显然",
r"显而易见",
r"可笑",
r"指出",
r"有感",

# 主客体模糊
r"专家",
r"(部分|一些|许多|少部分)(人|学者|声音)",
r"(有些|一些|局部|大部分|少部分)(国家|地区|省份|州)",

# 华而不实
r"最(重要|关键|特别|好|坏|完美|出色|突出)",
r"最.*影响力",
r"荣获",
r"[高多低]达",
r"据.*称",

# 破坏嫌疑
r"官方网[址站]",