跳转到内容

维基百科讨论:机器人建立条目小组/存档1

页面内容不支持其他语言。
维基百科,自由的百科全书

无标题

这个应该属于专题吧?--百無一用是書生 () 2012年3月30日 (五) 13:22 (UTC)

瑞典语、乌克兰语、越南语都在采用机器人

我希望让大家能够跟踪一下最近其他各语言维基百科的增长情况。在两个月内,越南语维基增加了将近15万的条目,大概很多都是生物物种的。我们曾经在将近一年时间中,和挪威语保持胶着上升状态;但越南语在极短的时间内就超过了挪威,而且非常快就逼近加泰罗尼亚语。我们按照现有的速度,应该在这一年内超过瑞典语,无论是否采用机器人(一次机器人操作可能会扩建5000新条目的编辑,可能需要我们用50天时间消化赶上,但也就是延缓我们赶超的时间而已)。在过去的三年里,我们花费大量力气去追赶拉近和它们的差距,现在在三万左右,这是好事。但我所关心的是越南语和我们随后的乌克兰语都在采用机器人以加紧编辑速度,他们超过中文维基的可能性存在,但因为人口基础太少(活跃编辑不足我们的1/3),它们编辑速度更多取决于那些操作机器人的数据库容量。我们曾经在去年险些被加泰罗尼亚语超过,但也没有采用机器人去保持差距,后来证明它们仍然没有足够的数据库以支持它们进度。越南语的情况是否雷同,尚不得知。--Walter Grassroot () 2012年3月5日 (一) 20:56 (UTC)

我会在接下的一些时间内用Subst半自动地加速扩建一些外交官条目,在数据库支持的情况下,我能够制作将近20-50个/天(周末可以做到100个/天),总量将近2000个,期间我也学习改善模型,所以这段时间也是一种尝试摸索,也弥补由于其他语种采用机器人,而使得我们落后的差距。如果一切合适的话,我考虑以机器人方式去创建中国古代人物条目(以职务先后为序)。当然模型化的操作也意味着条目本身内容趣味性的减少,这种方式也是容易招致批评的,但这个是我个人意愿,如果编辑次数和资历在我之下的用户,就请不要劝阻或增麻烦了;但我非常欢迎各种建议和数据库提供。如果保持一个高水平的增长速度,会能够吸引大量用户参与到编辑,而人物条目的扩建自然是最容易让新用户着手的。--Walter Grassroot () 2012年3月5日 (一) 20:56 (UTC)
最主要的是中文能够提供自由版权内容的来源太少--百無一用是書生 () 2012年3月6日 (二) 02:14 (UTC)
中科院的那些数据库不能用?乌拉跨氪 2012年3月6日 (二) 04:03 (UTC)
把其他语言的翻译过来不可?他们写什么我们也写什么?--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月6日 (二) 10:22 (UTC)
那岂不是机器翻译?乌拉跨氪 2012年3月6日 (二) 11:46 (UTC)
其他语言编写的是地域条目,因为他们语系都是采用拉丁文或者英文命名,则制作出数据库和操作就很容易,但我们却不能直接采用了,唉。Walter Grassroot () 2012年3月6日 (二) 14:34 (UTC)
我贊同上面有人建議說的用機器人編輯小行星條目,現成的數據庫沒有版權問題,至於古代人物的數據庫是要從哪裡入手? --九紫離火很高興認識你o(∩_∩)o 2012年3月6日 (二) 05:34 (UTC)
古代人物的条目是用方志。某一地方上都会写明一个县或者府的行政长官名字、出身、籍贯、以及任期、余事,这样就可以制作数据库,并用机器人操作。Walter Grassroot () 2012年3月6日 (二) 14:38 (UTC)
只要沒有版權問題,我很贊成你這樣做,希望能早日看到你的機器人編修古代人物條目成果 --九紫離火很高興認識你o(∩_∩)o 2012年3月8日 (四) 09:46 (UTC)
只要是沒有侵權疑慮,我個人很歡迎大家寫機器人建立適當的條目,畢竟這種方式效率很高,在中文維基也已經實作過了(菲菇有用過生物資料庫),我只有比較好奇同名之類的條目要怎麼處理。--章·安德魯留言2012年3月6日 (二) 09:58 (UTC)
菲菇做的那个生物的,我已经发现过10几个重复的了,估计还有重复的没发现--百無一用是書生 () 2012年3月6日 (二) 12:25 (UTC)
重复也不算是错误吧。后来人再查就可以了。乌拉跨氪 2012年3月6日 (二) 14:01 (UTC)

我认为:机器条目应该有个底线,就是‘不对生物现实和种群上的个体或整体进行价值判断’,作为非生命体,机器不应站在生物主体的角度,那样的话必然都只能是胡说了,胡说对生命和wiki有任何意义吗?--User:lgj

NASA JPL的数据库有几十万个小行星的数据,比如100000号(需翻墙 囧rz...)。希望讨论出个关注度标准吧?英文版貌似是六七千以前都是全的。--MakecatTalk 2012年3月9日 (五) 12:21 (UTC)

如果能查到英文的机器人条目,我们可以把所有格式性的文字翻译过来,之后关键词设定翻译表,可以达到半自动化处理。--达师218372 2012年3月9日 (五) 17:38 (UTC)

我发现了一个越语版上面写二裂果蝇的条目(vi:Drosophila_bifurca),机器人建的,全英文,到现在都没人译成越南语。这个条目还并不是唯一的例子。这种条目数排名与流量排名极其不相称。荷兰语版就是用机器人飙到第四的(本来它的社群好像还雄心勃勃想超越德语版),实际上其条目素质根本不行,其特色条目的质量很可能是前十名里最差的-综合征与一万年~facebook~twitter~微博 2012年3月10日 (六) 15:14 (UTC)
越南语那些条目基本都只有一句话,而且生物学分类和条目分类都是好多红链……--MakecatTalk 2012年3月13日 (二) 13:03 (UTC)
我已经在这十天内增加了800余条目外交官,可是这个数据库已经被我用尽。唉,瑞典语用机器人刷法国99个省下的镇市,现在刷到第13个省,下面他们可以创制的还有将近20000至50000条目;乌克兰语用小行星数据,可以有将近100000条目可建。这两个数据库最大的弊病就是他们没有对应的中文名,难道就是这样眼看着他们超过么?--Walter Grassroot () 2012年3月11日 (日) 03:00 (UTC)
法國的市鎮數量好像有36785個。(市镇 (法国))--Alexchris留言2012年3月11日 (日) 09:34 (UTC)
也许,小行星条目先不用中文名,先保证有简单中文内容,创建了再说?-综合征与一万年~facebook~twitter~微博 2012年3月11日 (日) 03:03 (UTC)
我们有Category:中华人民共和国行政区划列表。乡级行政区有4万,中西部省份的基本都是红字,起码能增加3万条目。--Gilgalad 2012年3月11日 (日) 10:03 (UTC)
中国科学院院士中国工程院院士加起来得有两千人,官方网站上有全部名单和介绍。现在维基条目大概只有五六百,这也是个可以发掘的资源。--Gilgalad 2012年3月11日 (日) 10:20 (UTC)
行政区划和院士的条目如果能够开动机器人,最重要的是要有数据库,一个很简明,但是信息对应变量的数据库。可是暂时这两类都没有。--Walter Grassroot () 2012年3月11日 (日) 16:05 (UTC)

越南語維基百科條目數量於2012年3月11日超越加泰羅尼亞語維基百科。--Alexchris留言2012年3月11日 (日) 16:25 (UTC)

行政区划的数据库还是有的:http://cn.quhua.org 。--Symplectopedia留言2012年3月11日 (日) 16:29 (UTC)

既然所有百科都在使用機器人,那我們也要用,不用就會落後,而且也不公平。 --九紫離火很高興認識你o(∩_∩)o 2012年3月11日 (日) 18:38 (UTC)

是啊。英语、法语、荷兰语、波兰语、俄语、葡萄牙语、加泰罗尼亚语和乌克兰语维基百科都曾经用机器人创建了数以万计甚至十万计的条目。前十大语言版本中唯一没有用机器人创建条目的是日语版,所以你们看,日语维基的条目数量排名才会从2005年初的第三位骤降至现在的第九位。
前面User:Walter Grassroot说到大部分语言都是使用拉丁字母,因此如果某个语言版本用机器人创建了条目,其他语言版本不需将条目名称进行翻译,直接照搬过来就行;但中文使用汉字,因此必须翻译,不能直接照搬,这样就大大增加了利用机器人创建条目的难度。他说的有一定的道理,但事情并非如他所说的那么严重。首先,把一个条目名称进行翻译并不是那么难的事,我们有《世界人名翻译大辞典》、《世界地名翻译大辞典》,还有Category:外语译音表;其次,我们可以用机器人创建中国的事物(行政区划、人物、公路、铁路等),不一定非要创建其他国家的条目,中国的事物也够多了,乡级行政区划就有四万个。
那么我们现在就具体分析一下,有哪些类型的条目可以用机器人创建,可以写些什么内容,条目名称如何翻译,以及其他需要注意的问题:
  1. 第一是生物类条目。
    生物的学名是拉丁文,中文译名一般用意译而不是音译,而且译名又无规则可循,因此不能使用机器人进行翻译。我们只能用机器人创建已经有中文译名的生物。User:P-botUser:WebBot在2009年曾经创建了大约25,000个动物和植物条目,条目名称和内容来自《中国动物物种编目数据库》和《中国高等植物数据库全库》。这两个数据库共收录了大约六万种动物和植物,但User:P-botUser:WebBot只创建了25,000个条目,也就是说,还有大约35,000个条目没有创建。现在我们可以创建这些剩下的动物和植物条目。
  2. 第二是行政区划类条目。
    前面我已经说到了,中国的乡级行政区划有四万个,并且有一个数据库http://cn.quhua.org 。条目内容方面,我们可以写这个乡级行政区划属于哪个市哪个县,下辖哪些村和社区。至于其他国家的行政区划,美国有大约3万个城市和城镇,法国有大约4万个德国1万个意大利8千西班牙7千巴西5千捷克5千匈牙利罗马尼亚斯洛伐克各三千左右。这些地名的译名可以参考《世界地名翻译大辞典》(中国工具书网络出版总库中有收录,也可以从这里下载)。如果世界地名翻译大辞典中没有,可以按照Category:外语译音表进行音译(英国和美国的地名除外,因为英语的拼写很不规则,一个字母可以有很多种不同的读音,因此,英国和美国的地名最好不要按照Category:外语译音表进行音译)。条目内容方面,我们可以写人口、面积、海拔、地理位置等,这些数据一般在其他语言版本的条目中可以找到。
  3. 第三是天文学条目(小行星、恒星等)。
    目前英文维基百科有大约14,000个小行星条目。条目名称的翻译不是问题,因为中文里的小行星命名一般只用编号,不像英语同时用编号和昵称,如en:11352 Koldewey,中文只要翻译成“小行星11352”就行了。小行星的各项数据如离心率、轨道周期等可以参考这个数据库http://ssd.jpl.nasa.gov/sbdb.cgi 。但是,很不幸的是,英文维基百科有不少小行星条目都被挂上了关注度不足的模板:en:Category:Articles with topics of unclear notability from February 2012。我不确定这些条目的关注度是否足够,它们似乎不符合英文维基中的天体关注度指引。为了保险起见,建议还是不要用机器人创建这些小行星条目。
    除了小行星以外,还有恒星。乌克兰语维基百科最近就用机器人创建了许多恒星条目:[1]。这些条目的关注度如何,也很难说。
  4. 第四是交通运输类条目,包括铁路和道路等。
    目前唯一收录大量铁路条目的语言版本是日语维基百科,共收录了约12,000个日本铁路车站的条目。其他语言版本都只有数百个车站条目。如果我们用机器人创建这些条目,需要注意一定要把日本汉字转换成标准中文汉字。此外中国也有五千多个铁路车站,但目前为止还没有一个可以使用的中国铁路车站数据库。虽然在网上可以找到大量查询火车时刻表的网站,但这不是维基百科应该收录的内容,维基百科应该收录的是车站的兴建日期、每日载客量、与邻近车站的距离等信息,而这些通常在网上都找不到。
    此外还有道路。跟铁路一样,目前也是只有日文维基收录了大量日本道路的条目。但是,这些条目的关注度很低,而且en:Wikipedia:Notability (highways)#Japan明确说了日本的都道府县道一般都关注度不足。
  5. 第五是歌手、演员、电影、电视剧、音乐专辑等娱乐类条目。
    http://data.ent.sina.com.cn 收录了8000多个明星、5000多部电影、5000多部电视剧和四万多张音乐专辑。如果用机器人创建这些条目,一个可能出现的问题是会创建重复条目。许多外国电影、电视剧都有两个以上译名,如果用机器人创建,很容易跟中文维基原有的条目重复。因此,最好只创建中国大陆、香港和台湾的明星(约3000个)、电影(约1700个)、电视剧(约3700个)和音乐专辑(约7700个)条目。大中华地区的电影和电视剧一般都有一个确定的官方名称,除此以外不会有其他名称,因此不需担心会出现重复条目。
最后我们计算一下,不计那些关注度可能不足的条目,我们可以用机器人创建35,000个生物条目、四万个中国行政区划条目、八万个外国行政区划条目、12,000个日本铁路车站条目、3000个明星条目、1700个电影条目、3700个电视剧条目、7700个音乐条目,总共约18万个条目,还是很多的。现在越南语维基百科已经有37万条目了,要是我们还不赶快用机器人创建条目,估计再过不到一个月就会被越南语超过。那么越南语维基现在创建的都是些什么条目呢?看一看vi:Special:Log/import就可以知道,越南语正在从荷兰语版大量导入条目。荷兰语维基百科去年10月至12月用机器人创建了约25万个生物条目。越南语从荷兰语大量导入条目之前,大约有22万个条目,如果把荷兰语用机器人创建的条目全部导入越南语,越南语就会增加到47万条目。而我们现在有40万个条目,所以,这意味着我们至少要创建7万条目左右,才能摆脱越南语的追赶。就看有没有人愿意创建了。--Symplectopedia留言2012年3月12日 (一) 08:13 (UTC)
恒星是很难弄的,很多有重要性的恒星中国古代就有命名,但是不太好查。--MakecatTalk 2012年3月13日 (二) 13:13 (UTC)
我支持补全中国乡级行政区划的4万个条目,但是翻译美国法国的市镇条目意义不大。首先,欧美市镇规模很小,法国市镇人口的中位数只有600多人,重要性关注度普遍很低,对比一下中国乡级行政区平均人口是3万人。第二,欧美市镇条目在其他语言的百科里已经存在了,再翻译过来意思不大,而中国乡级行政区是整个维基百科都没有的内容。第三,虽然中国乡级行政区没有一个格式化的数据库,但我觉得发动整个zhwp的人力是可以人工完成的。比如,中国地级行政区有300多个,以现在中文维基的活跃用户人数,可以做到每个人认领一个地级市(家乡,现住在地,等等),一个人用一到两个月的时间完全可以完成一个地级市下设的乡级行政区条目。甚至,因为这类条目编写的门槛很低,可以发动新用户参与进来写一写自己的家乡,兴趣也是足够的。--Gilgalad 2012年3月12日 (一) 10:02 (UTC)
(!)意見:宁缺毋滥。我认为应该在确保质量的基础上追求数量,像那些小语种维基,就算排名靠前了,可有意思吗?有几个人会看?中文维基应本着为全球14亿多中文用户服务的原则,以改善条目质量为第一要务。——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月12日 (一) 08:26 (UTC)
现在中文维基百科的条目质量已经很不错了,有843篇优良条目。而日语、葡萄牙语和瑞典语分别只有616篇284篇369篇优良条目,均少于中文版。而且,中文维基只有240个条目需要维基化4个条目需要清理。看看其他语言版本,英文版有21478个条目需要维基化22384个条目需要清理;俄语有22648个条目需要维基化6263个条目需要清理;法语有2574个条目需要维基化2764个条目需要清理;日语有744个条目需要维基化895个条目需要清理。--Symplectopedia留言2012年3月12日 (一) 11:17 (UTC)
(:)回應:如果取得这么一点小小的成绩就满足的话,中文维基是没有希望的。汉语文是世界第一大语文,取得如此成绩并不稀罕。我们的目标应该是所有语言版本中质量最高的,不一定要数量最多,多不代表好。——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月13日 (二) 06:38 (UTC)
完全不同意你的说法。为什么条目数量多不代表好?条目数量多,提供的信息就多,这样读者就更容易查找到想寻找的信息;而且条目数量多,在搜索引擎上被搜索到的机会就大,浏览量就更多。为什么百度百科、互动百科的参与人数和浏览量大大高于中文维基?就是因为他们条目数量多的缘故。反过来质量差一点,缺少参考资料、没有维基化等,并不是大问题,只要没有明显错误,读起来基本通顺就行;质量再好,顶多是多赢得一些赞美而已,用处不大。--Symplectopedia留言2012年3月13日 (二) 07:36 (UTC)
(:)回應:拿百度、互动来和维基作比较,维基果然堕落了啊。无所谓,谁爱开机器人谁开(我是不会用的)。我反正是以抓质量为第一要务,等到什么时候中文维基特色、优良条目变成第一了,基本上差不多了,赶数量交给机器人好了。另外,怕被越南、瑞典、乌克兰等赶超,堂堂世界第一语文,不觉得跌身价么?——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月13日 (二) 08:56 (UTC)
(!)意見。拿中文的優良和特色條目的數量來比較,對應到現在所謂的投票和檢查的過程,毋寧是自曝其短,邏輯矛盾。既然要拼數量,那就拿數量來說,還偏偏要用品質極度不穩定,在外界批評甚多的所謂優良和特色條目當理由,真的要說是搞不清楚狀況嗎?連中文的資料都掌握不好,只會計較多幾個,少幾個條目,有什麼幫助?數量多,語法亂七八糟,用詞不知所云,頂多就是會出現在搜尋引擎的結果上,但是,可讀性很差的東西可以被很多人找到的時候,留下的印象是什麼呢?就是現在普遍可以聽到的:中文維基的內容不好(這已經算是比較客氣的用詞)。老在用搜尋引擎的數量當佐證,而不是真的去閱讀一些內容和消化,看到的就只能是表面。-199.83.40.32留言2012年3月23日 (五) 14:16 (UTC)
(!)意見,有些东西有了也不是坏事,比如说外国城镇什么的,我能查到这个地名就行。至少这段时间我已经用到好几个这种地名了,比如比利比诺拉利貝拉 etc.--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月12日 (一) 10:11 (UTC)
這類條目在查地名時確實很有幫助。--Alexchris留言2012年3月12日 (一) 12:53 (UTC)
可以考虑利用中文维基现有的一些列表,比如:
每个省的省级文物保护单位少则几百多则上千,总计这类红字条目应该上万了。而且列表里已经给出了名称、编号、地点等基本信息,有的还附图。像这类既有数量又符合关注度要求的列表,值得利用。--Gilgalad 2012年3月12日 (一) 10:40 (UTC)
話說回來,菲菇那個生物機器人為什麼突然停掉了,記得當初好像就是靠那個機器人突破30萬大關的,我當時還說了句”超瑞趕俄,可立而待“,突破40萬大關時候居然還是這句話。。。。。。--九紫離火很高興認識你o(∩_∩)o 2012年3月12日 (一) 12:14 (UTC)
日语版排名的下降,不一定完全是因为没用机器人,记得过去上alexa上看日语版的流量占全站的14%多,现已降至7.08%,被西班牙语超越,有一段时间甚至被俄语版超越。俄语版的上升与瑞典语、越南语性质不同,不全是因为机器人的缘故。至于重复条目,有一点儿似乎也无妨,即使不用机器人也肯定存在许多重复。-综合征与一万年留言2012年3月12日 (一) 14:06 (UTC)
我可以最近加快大陆行政条目的建设,但编辑仍然需要仰赖数据库。行政条目有四万,我就算达到自己的极限,一天制作500条,也需要80天时间做完。而根据皇帝所说的越南语所复制的荷兰语生物库的容量,他们仍有将近十二万的容量,而且他们的机器人复制容易,每天平均创建2000条,在60天内就可以完成。换句话说,在现有数据库条件基础下,他们超越中文维基在60天就可以完成,而我所做的顶多是能够勉强超过瑞典语的机器人效率。越南语的数据库到47万就是关卡,他们无法逾越那个;只要我们能够顺利度过47万,就可以说暂时一年内不会担忧有被超越的可能。不用机器人,我们不仅无法超过瑞典语,就连后面的乌克兰语和越南语,也很轻易把我们甩掉五万以上。--Walter Grassroot () 2012年3月12日 (一) 16:58 (UTC)
他们能用的数据库是有限的,而我们自然的条目增长是无限的,所以我觉得不必在意一时名次的得失。每个人业余时间有限,你也不必勉强自己一个人挑这么重的担子。我认领南京市所属的乡级条目,大概七八十个吧,慢慢来用十来天时间总归能完成。--Gilgalad 2012年3月12日 (一) 20:48 (UTC)
尝试了一下,效率太低。行政区划同名的几乎近一半。建两个条目就得手动建造一个消歧义。--Walter Grassroot () 2012年3月13日 (二) 00:07 (UTC)
能否先创建条目,同时把需要建消歧义的条目记录下来,最后大家一起手动创建?—Snorri留言2012年3月13日 (二) 00:36 (UTC)
干脆直接加上县市后缀消歧义,比如乌江镇 (南京市)或者乌江镇 (浦口区)。--Gilgalad 2012年3月13日 (二) 01:50 (UTC)

@Symplectopedia:这有个不记得从哪个网站存下来的铁路车站数据表,可以写一些车站小作品,只是格式不规整不很方便机器处理,然后还有缺少可靠来源的嫌疑,同时数据有些老还有部分错误(好像还是六提前的)。

站名	站址	邮编	建设时间	里程	等级	客货运情况
天津站	天津市河北区海河东路	300010	1888年	137	特等站	客运:办理旅客乘降;行李、包裹托运;货运:办理整车、零担、集装箱货物发到;办理整车承运前保管;不办理危险货物发到

Liangent (留言) 2012年3月13日 (二) 04:51 (UTC)

关于小行星条目,我想技术上是没什么问题的,建立到一万左右应该大部分人都没意见。那么如果想其他语言一样弄了几万甚至十万以上(数据库完全够,关注度明显不足),各位意见是什么?--MakecatTalk 2012年3月13日 (二) 13:45 (UTC)

意見很簡單,別的語言有多少,我們也要搞多少,不落後也不讓別人說閒話 --九紫離火很高興認識你o(∩_∩)o 2012年3月13日 (二) 14:21 (UTC)
上面某人领会错我的意思了,我并不反对增加条目数量,只是更注重条目质量。如果能在保证条目质量的基础上增加条目质量,我自然乐见其成。——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月14日 (三) 01:52 (UTC)
@ Liangent,目前我和AddisWang正在做内地的火车站。由于需要整理数据库,一天可能有300左右条目。内地有资料的火车站数量可能在数千个吧。--达师218372 2012年3月15日 (四) 04:39 (UTC)
做了哪些线路了?Liangent (留言) 2012年3月15日 (四) 05:28 (UTC)
@ WG:现在连41万都还没有,什么时候才能到达47万呢?--达师218372 2012年3月15日 (四) 04:39 (UTC)

@ Makecat: 反对学习外语刷小行星。至于小行星条目,我的底线是有反照率数据。这个比英文版严很多,但是是唯一有效而且有道理的限制手段,否则和不限制没有任何区别。--达师218372 2012年3月15日 (四) 04:48 (UTC)

@ Liangent :已经刷了京九、陇海、兰新、滨洲、通霍、大秦,大概。以前已经补满了的有青藏(格拉段)、凤上、滨绥、京包。个人所知,很可能不全,而且不包括高速线和部分特别短的线。--达师218372 2012年3月15日 (四) 12:55 (UTC)

已经开始刷行政了,到41万了。越南语的速度太快,每天4000谁也受不了,直接复制波兰语的,连数据库整理都省了。--Walter Grassroot () 2012年3月17日 (六) 06:37 (UTC)
谢谢您,Walter Grassroot。另外纠正一下,越南语不是每天4000,是每隔三、四天创建4000左右。也就是说,他们平均每天只增加1000多个条目。--Symplectopedia留言2012年3月17日 (六) 07:31 (UTC)
也谢谢你,大家都很努力地写条目。其实编写速度,完全取决于两个人:越南语的Cheers!和瑞典语的Nasko。如果没有这两个人开动机器人,我们就根本不需要这次讨论和现在的努力。他们应当也在盯着中文维基的动态,以随时改变策略。--Walter Grassroot () 2012年3月18日 (日) 06:43 (UTC)
Cheers!创的条目有很多根本不是越南语,整篇都是荷兰语,这种情况即使在一些最小语种的维基百科都会被速删,可越南语社群却对其放任不管。这可怎么办呢……-综合征与一万年留言2012年3月18日 (日) 09:03 (UTC)
是啊,越南语维基百科有不少条目都完全没有翻译,搜索speciesgenusasteroidsoort(荷兰语“物种”的意思)等词就可以找到一大堆未翻译和未完全翻译的条目。我们可以到vi:Wikipedia:Thảo luận对越南语社群作出警告。如果他们还是不听我们的劝告,仍然不肯删掉没有翻译的条目,继续用机器人创建未完全翻译的条目,那我们就可以提报至元维基meta:Requests for comment。--Symplectopedia留言2012年3月18日 (日) 09:17 (UTC)
复制了那么多外文条目……根本不可能有足够的人去翻译啊。--MakecatTalk 2012年3月18日 (日) 09:19 (UTC)
为什么他们不先把荷兰语的条目翻译成越南语,然后再用机器人创建?为什么他们明知不可能有足够的人去翻译,还要复制那么多外文条目?在哪个语言版本创建条目就要用哪种语言,这是最基本的原则不是吗?要不然越南语维基百科干吗要叫越南语维基百科?我们坚决反对他们用这种不正当、不公平、甚至可以称为作弊的手段,使条目数量超过中文维基。我已经在vi:Wikipedia:Thảo luận#Stop using bots to create articles, immediately!对越南语社群作出了警告。--Symplectopedia留言2012年3月18日 (日) 09:49 (UTC)

等了这么多天,还是没有人回覆菲菇那個生物機器人為什麼突然停掉了,也罢,當初就是靠那個機器人突破30萬大關,后面还有35000多个生物条目没有创建,该数据库是现成的,不利用一下太可惜。将该机器人重新开动起来,至少可以和越南语,瑞典语形成互角之势。--九紫離火很高興認識你o(∩_∩)o 2012年3月18日 (日) 09:08 (UTC)

我前几天问了User talk:PhiLiP#请问您是否有兴趣用机器人创建生物条目?,他仍然没有回应。--Symplectopedia留言2012年3月18日 (日) 09:18 (UTC)
刚才仔细回想了一下,如果没记错的话,那个机器人好象是因为会重复创建条目还是什么别的原因,导致我们的条目暴增,担心被上头发现,所以才停掉的,我当时还坚决反对过停止该机器人运行。後来过了这么长时间,当初创建的那么多条目,也没有被上头发现删掉,正好趁这个机会再度开动,把剩余的35000生物条目补完,反正其他语种都在大用特用机器人,不是就我们独此一家。--九紫離火很高興認識你o(∩_∩)o 2012年3月18日 (日) 09:23 (UTC)

(~)補充:如果有数据但不会用机器人的可参见User:Makecat/使用机器人创建条目。--MakecatTalk 2012年3月18日 (日) 09:12 (UTC)

有数据也可以贴到用户页下,之后找我(如果不能贴就别找了)--达师218372 2012年3月18日 (日) 09:54 (UTC)

我测试了一下AWB的CSVLoader插件,经过调试以后基本可以全自动运行,效果大概是这样(不用管编辑历史,那时测试时没设置好造成的)。--MakecatTalk 2012年3月18日 (日) 13:05 (UTC)

@九紫離火,上头是什么?--百無一用是書生 () 2012年3月19日 (一) 02:19 (UTC)
既是中文維基百科的上層組織,如維基媒體基金會,當然時隔多年,也可能是我記錯了,所以才會在這裡詢問。--九紫離火很高興認識你o(∩_∩)o 2012年3月19日 (一) 02:46 (UTC)
(:)回應補充,於2011年台灣冬聚Tilman Bayer(基金會的員工)明確表示,基金會是絕對不會涉入維基計畫的編輯作業,這屬於管理員階層的自我約束,也許是擔心Bot創建過多條目會影響品質觀感。--安可與我對話 ☺) 2012年3月24日 (六) 18:33 (UTC)
感谢大家的努力,人多了力量就大,效率高。现在已经到达41.4万条目,如果机器人能开动生物类,就能够达到47万,我们应该可以摆脱越南维基的追赶。谢谢S帝的警告,希望越南语内部有所争议和顾虑,就算是机器人仍然我行我素,但至少给我们争取了几天时间。--Walter Grassroot () 2012年3月19日 (一) 05:22 (UTC)
这件事可以考虑贴到m:RfC,不过这样扩大化不知道是否合适。--达师218372 2012年3月19日 (一) 08:24 (UTC)
建议不要,Cheers!也算是越南维基的元老级编辑,如果他能用机器人创建,也可以用机器人修改。他的修改本身就为我们赢得时间。盲目请求上级裁断,会让其他维基轻视我们中文没有度量。--Walter Grassroot () 2012年3月19日 (一) 15:01 (UTC)
我们不是在进行条目数量比赛,没有必要赢得时间。我想没有人会因为中文维基多创建几个条目而认为中文维基“没有度量”的。--王小朋友留言2012年3月20日 (二) 11:17 (UTC)
看来Cheers!并没有打算照我所说的去做。虽然他昨天友善地回应了我的警告,可是他今天仍然继续用机器人创建条目:vi:Special:Log/import。我已经对他发出了最后警告
我们这几天的条目增长速度快了不少,但仍然不足以摆脱越南语的追赶。也许是因为中文维基会使用机器人的人太少的原因,现在只有我、User:StevenliuyiUser:Walter Grassroot每天创建数百条目。
我现在教大家一种不用机器人,又能快速创建条目的方法。我这两天就是用这种方法手动创建了两千多个中国行政区划条目。首先,要想好创建哪个地级市的乡级行政区划条目。下面以成都市为例。
1. 打开http://cn.quhua.net ,点击“四川”,再点击“成都市”。
2. 点击“锦江区”,进入http://cn.quhua.net/51/510104000000.htm 。然后把“村级以上行政区划一览”一段复制到记事本(Notepad)。
督院街街道办事处: 青石桥社区 滨江路社区 督院街社区
盐市口街道办事处: 学道街社区 青年路社区
……
三圣街道办事处: 江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
3. 在记事本中点“编辑”(Edit),再点击“替换”/“取代”(Replace),将“: ”(冒号加空格)替换成“|锦江区|”。替换后的文字如下:
督院街街道办事处|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道办事处|锦江区|学道街社区 青年路社区
……
三圣街道办事处|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
4. 将记事本中的这段文字复制到Microsoft Word。
5. 回到http://cn.quhua.net/51/510100000000.htm ,点击下一个区/县(青羊区),重复以上步骤(复制到记事本,替换,再复制到Microsoft Word)。再点击第三个区/县,以此类推,直到最后一个区/县为止。
6. 以上步骤做完了以后,回到Microsoft Word,现在Microsoft Word中的内容应该是这样:
督院街街道办事处|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道办事处|锦江区|学道街社区 青年路社区
……
三圣街道办事处|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
太升路街道办事处|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社
草市街街道办事处|青羊区|文殊院社区 玉带桥社区 双眼井社区
……
集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
7. 好了,现在开始就要在Microsoft Word中进行一系列的替换了。
第一步,点击“编辑”(Edit),再点击“替换”/“取代”(Replace),将“街道办事处”替换成“街道”。因为中文维基的街道条目名称通常不加“办事处”。
督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道|锦江区|学道街社区 青年路社区
……
三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区
草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区
……
集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
第二步(最关键的一步):将“^p”替换成“}}^p{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|”。这里“^p”是换行的意思。
督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区 青年路社区 }}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区 }}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
当然,最前面和最后面也要分别加上“{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|”和“}}”。
第三步,将“ }}”(空格加}})替换成“}}”。也就是把“}}”前面的空格去掉。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区 青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村}}
第四步,将“ ”(两个空格)替换成“、”。注意是两个空格,不是一个。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|锦江区|青石桥社区、滨江路社区、督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区、青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区、太升南路社区、德盛路社区、小关庙社区、玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区、玉带桥社区、双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区、华兴村、梁景村、山泉村}}
最后一步,将“街道|”替换成“街道|街道|”,“乡|”替换成“乡|乡|”,“镇|”替换成“镇|镇|”。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|街道|锦江区|青石桥社区、滨江路社区、督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|街道|锦江区|学道街社区、青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|街道|锦江区|江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|街道|青羊区|鼓楼南街社区、太升南路社区、德盛路社区、小关庙社区、玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|街道|青羊区|文殊院社区、玉带桥社区、双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|乡|崇州市|文锦社区、华兴村、梁景村、山泉村}}
好了!全部替换完毕了。现在,回到维基百科,打开四川省乡级以上行政区列表,开始一个一个创建吧。
用我所说的办法,可以在半小时之内创建一百多个条目,大家不妨尝试一下。也许第一次会慢一些,多做几次就熟练了。如果不会使用机器人,可以用这种办法创建条目。会使用机器人的用户,也可以一边用机器人创建条目,一边用我所说的办法手动创建条目。--Symplectopedia留言2012年3月20日 (二) 13:18 (UTC)
感謝Symplectopedia提供創建行政區條目的方法,不過在對於同名鄉級行政區,消歧異條目後的括號是要放置地級行政區還是縣級行政區,例如凤凰路街道 (红塔区)凤凰路街道 (玉溪市),目前在維基上的條目好像兩種方式都有。--Alexchris留言2012年3月21日 (三) 04:10 (UTC)
随便,消歧义括号中放置地级行政区还是县级行政区都可以,这算什么问题,芝麻大的小事,现在首要的任务是创建条目,避免被越南语追上,消歧义的问题可以以后再慢慢讨论。--Symplectopedia留言2012年3月21日 (三) 10:39 (UTC)
我括號內會填入縣級行政區,不過製作消歧異頁面的確需要些時間。--Alexchris留言2012年3月22日 (四) 12:08 (UTC)

用AWB和CSV Loader創建中國行政區條目

使用AWB創建條目的效率較高,也可以不用該很多分頁來創建條目,不過需要申請AWB的使用權限;不過在消歧異頁方面可能需要先手動創建,並需要修改消歧異條目所在的導航模板,似乎是比較麻煩的地方。

第一步:請至Wikipedia_talk:AutoWikiBrowser/CheckPage申請AWB使用權限,已經獲得認可者可略過此步驟,當然也不要忘了從AWB上的下載連結下載AWB。
第二步:請至Wikipedia:CSV下載CSV Loader,並按照該頁上的方法安裝
第三步:進入http://cn.quhua.net/(行政區劃網),下以四川省成都市锦江区為範例,從網站上複製下來的資料到Word上應該會呈現這樣。
• 督院街街道办事处: 青石桥社区 滨江路社区 督院街社区

• 盐市口街道办事处: 学道街社区 青年路社区
• 春熙路街道办事处: 总府路社区 华兴街社区 岳府街社区
• 书院街街道办事处: 福字街社区 天涯石社区 东较场社区
• 合江亭街道办事处: 大慈寺路社区 东升街社区 合江亭社区
• 水井坊街道办事处: 水井坊社区 交子社区
• 牛市口街道办事处: 得胜路社区 水碾河路南社区 华成路社区
• 龙舟路街道办事处: 河滨社区 龙舟社区 顺江社区
• 双桂路街道办事处: 牛沙路社区 五福桥社区 东大路社区
• 莲新街道办事处: 海椒市社区 莲花社区 九眼桥社区
• 沙河街道办事处: 塔子山社区 沙河社区
• 东光街道办事处: 东怡社区 新莲新社区 五桂社区 永兴社区
• 狮子山街道办事处: 四川师大社区 万科城花社区 菱窠社区 花果村
• 成龙路街道办事处: 金象花园社区 皇经社区 花香苑社区 国槐路社区 棬子树村 金像寺村 皇经楼村 大观村 粮丰村 华新村
• 柳江街道办事处: 柳江社区 生研所社区 锦馨社区 包江桥村 祝国寺村 潘家沟村

• 三圣街道办事处: 江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
第四步:把內容按Ctrl+A全選後複製到記事本,再按Ctrl+H取代功能,
將「• 」取代為無內容。
將「 」(兩個空白)取代為「、」(全形頓號)。
將「: 」(全形冒號+一格空白)取代為「,成都市,锦江区,」(半形逗點+地級市+半形逗點+縣級行政區+半形逗點),CSV就是以逗號分隔各項參數。
將「街道办事处」取代為「街道」(如果有街道行政區的情況)。

應該會有以下的結果

督院街街道,成都市,锦江区,青石桥社区、滨江路社区、督院街社区

盐市口街道,成都市,锦江区,学道街社区、青年路社区
春熙路街道,成都市,锦江区,总府路社区、华兴街社区、岳府街社区
书院街街道,成都市,锦江区,福字街社区、天涯石社区、东较场社区
合江亭街道,成都市,锦江区,大慈寺路社区、东升街社区、合江亭社区
水井坊街道,成都市,锦江区,水井坊社区、交子社区
牛市口街道,成都市,锦江区,得胜路社区、水碾河路南社区、华成路社区
龙舟路街道,成都市,锦江区,河滨社区、龙舟社区、顺江社区
双桂路街道,成都市,锦江区,牛沙路社区、五福桥社区、东大路社区
莲新街道,成都市,锦江区,海椒市社区、莲花社区、九眼桥社区
沙河街道,成都市,锦江区,塔子山社区、沙河社区
东光街道,成都市,锦江区,东怡社区、新莲新社区、五桂社区、永兴社区
狮子山街道,成都市,锦江区,四川师大社区、万科城花社区、菱窠社区、花果村
成龙路街道,成都市,锦江区,金象花园社区、皇经社区、花香苑社区、国槐路社区、棬子树村、金像寺村、皇经楼村、大观村、粮丰村、华新村
柳江街道,成都市,锦江区,柳江社区、生研所社区、锦馨社区、包江桥村、祝国寺村、潘家沟村

三圣街道,成都市,锦江区,江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村
第五步:把記事本存檔,不過編碼方式務必點選UTF+8。
第六步:開啟AWB和外掛程式CSV Loader後,在CSV Loader Setting中輸入設定
Column headers欄位中填入「##name##,##city##,##region##,##in##」(代表剛剛建立的txt檔案資料庫內容分別是名稱地級市行政區縣級行政區下轄村級行政區)
Append/Prepend/Replace tex欄位中填入以下內容(不過省份方面需要跟著行政區所在的省份修改,分別是模板中的上级行政区、本文中和小作品模板三處需要更改)
{{中国乡级行政区

| 行政区全称 = ##name##
| 景观照片文件名 =
| 景观照片描述 =
| 汉语拼音 =
| 通用拼音 =
| 注音符號 =
| 其它标音类型1 =
| 其它标音1 =
| 其它标音类型2 =
| 其它标音2 =
| 其它语言类型1 =
| 其它语言地名1 =
| 其它语言类型2 =
| 其它语言地名2 =
| 上级行政区 = [[四川省]][[##city##]][[##region##]]
| 行政区类别 = [[乡镇]]
| 行政区划代码 =
| 地理坐标 =
| 总面积 =
| 户籍人口 =
| 户籍人口年份 =
| 常住人口 =
| 常住人口年份 =
| 人口密度 =
| 行政区划 =
| 官方网站 =
| 政府驻地 =
| 邮政编码 =
| 毗邻行政区 =
| 位置图文件名 =
| 位置图描述 =
}}
'''##name##''',是[[中华人民共和国|中国]][[四川省]][[##city##]][[##region##]]下辖的一个[[乡镇]]级行政单位。

== 行政区划 ==
'''##name##'''共辖以下地区:

##in##。

{{四川小作品}}
{{##region##行政区划}}
[[Category:##region##]]

第七步:設定完成後,在從AWB→Plugins→CSV Loader Plugin開啟先前儲存的txt檔案,即可進行匯入。
第八步:建議將AWB中的Skip設定改為Don't careExist,以利發現消歧異頁的存在,並將匯入內容剪下從該行政區的導航模板(Navbox)連結中手動創建條目,然後再Skip該條目,繼續創建下一條再從編輯框上的Logs按鈕查看Skip頁面。
  • Add by Justincheng12345-設定為Exist,完成某一輪後從Log獲取Skip了甚麼。

希望以上步驟對於各位用戶有所幫助,上述方法如有更好的改進方式也歡迎提供意見,各位辛苦了。--Alexchris留言2012年3月26日 (一) 16:17 (UTC)

行政区划网我包了吧,都别建了,看了一下这个数据库结构貌似不错。Liangent (留言) 2012年3月26日 (一) 16:45 (UTC)
你说你包了可以,你不能让别人都别建了啊。Alexchris,没关系,别听Liangent的,继续创建。--Symplectopedia留言2012年3月26日 (一) 16:55 (UTC)
建的话那保证消歧义正确,不然机器人全部跑过之后还得手工修。Liangent (留言) 2012年3月26日 (一) 16:58 (UTC)
另外请教消歧义页的格式怎么写?Liangent (留言) 2012年3月26日 (一) 17:15 (UTC)
@Alexchris,還是Skip了好,一不小心編輯了就慘了,而Skip了的話可以從Log看出Skip了甚麼。Justincheng12345留言2012年3月26日 (一) 23:26 (UTC)
@Liangent:

XXX可以指:

{{Disambig}} (ABC非必要)

(ABC非必要)。Justincheng12345留言2012年3月26日 (一) 23:31 (UTC)
@Liangent:请阁下用机器人建造,这样我们就可以做别的数据库了。--Walter Grassroot () 2012年3月26日 (一) 23:36 (UTC)
@Liangent:希望閣下用機器人創建條目,消歧異頁面格式大概已如Justincheng12345所述,但是其中YYY、ZZZ的標題,如果是EE市(地級市)FF區(市轄區),YYY以「YYY (FF區)」為標題,如果是EE市(地級市)FF縣(縣級行政區),YYY以「YYY (FF縣)」為標題,好像是這樣,也請WG兄確認一下,謝謝。--Alexchris留言2012年3月27日 (二) 01:15 (UTC)
@Liangent:
消歧义标题,给些具体例子吧。然后ABC写什么内容?Liangent (留言) 2012年3月27日 (二) 02:15 (UTC)
@Liangent:例如:四川省成都市青羊區下轄的光華街道以光華街道 (成都市)作為標題名稱,而不是光華街道 (青羊區),括號中填入成都市(地級市行政區)。另外,例如貴州省六盤水市水城縣下轄的董地鄉則以董地鄉 (水城縣)作為標題名稱,括號中填入縣級行政區名稱,縣級市、縣、自治縣、特區皆是以此方式處理。--Alexchris留言2012年3月27日 (二) 13:57 (UTC)

有一些不太“正常”的名字,看看怎么处理:

  • 管庄地区办事处
  • 北京经济技术开发区虚拟社区 110115403498

Liangent (留言) 2012年3月27日 (二) 03:20 (UTC)

虚拟社区是不存在,请跳过去不要建造。通常都是地方给上级申报的一些开发区,但是并没有实际运作或开发。--Walter Grassroot () 2012年3月27日 (二) 04:07 (UTC)
这样的虚拟社区还是被写到了条目里面。Liangent (留言) 2012年3月27日 (二) 04:54 (UTC)
  • '土山花社区园居委会','120101004006'
  • '金盾里社区家委会','120102007021'
  • '红旗农场虚拟生活区','120113500598'
  • '东于庄村农工商公司(村)','120113100209'

……不想一个个看了,太多了,有谁创建过程中看到的特殊情况列举一下吧。Liangent (留言) 2012年3月27日 (二) 04:46 (UTC)

  • 区划网 » 中国行政区划 » 云南省 » 西双版纳傣族自治州 » 景洪市 » 西双版纳州渡假区管理委员 » 曼弄枫虚拟村

Liangent (留言) 2012年3月27日 (二) 09:10 (UTC)

(参考资料)http://www.jssb.gov.cn/zdbz/tjbz/201109/P020110906388497492673.doc :类似乡级单位(@Hat600:兵团在这里面)、类似居民委员会、类似村民委员会以及提到的198,398,498,598代码的处理?@Alexchris:Hat600解释,是说街道用地市级,其他用县级,是这样吗?Liangent (留言) 2012年3月27日 (二) 15:01 (UTC)

(?)疑問:运行AWB和CSV Loader的最后一步(點選已經儲存成txt檔案的資料庫,即可執行)究竟是如何执行?我点选txt文件后,只能看见[make list]方框下面显示要创建的条目名单,如何具体执行创建呢?--敢為天下先留言2012年3月29日 (四) 04:56 (UTC)

请确定括号和“办事处”怎么处理(不只是有“xx街道办事处”)。Liangent (留言) 2012年3月29日 (四) 05:37 (UTC)

User:Liangent/prcadmin 这个列表是完成(1)结尾的“地区办事处”->“地区”(2)结尾的“街道办事处”->街道 的替换后,剩下的含有“办事处”的条目。

加一小段

我认为Symplectopedia的警告只会让那个越南语的机器人编辑会勃然大怒,加速进程也说不定。我仔细想了一下,如果越南语强行释放所有的数据库,这样就会导致届时47万的条目中,只要随即刷新就能找到50%的小小条目以及其中没有翻译本土化的作品,这样必定减损了越南维基自己的质量形象。我倒是觉得越南语如果加速,只会自取其辱,但建议S皇克制自己,不要激怒;除非你认为这样的激怒,反而有助于问题更易在元维基得到重视、以及更易促使他们对越南语进行惩罚。--Walter Grassroot () 2012年3月21日 (三) 00:13 (UTC)

越南机器人可能会觉得我们在这个“竞赛”里心虚了,更变本加厉也说不定。另外我发现那个区划数据库有点老,似乎是2010年以前的,使用之前最好先核对一下最近的区划变动。--Gilgalad 2012年3月21日 (三) 00:55 (UTC)
变本加厉意味着他们才是心虚了吧,自然增长的差距就很明显,何况我们也在刷。--达师218372 2012年3月21日 (三) 08:52 (UTC)
我是说越南机器人可能会以为我们“弹药”不够,这对他反而是种鼓舞。--Gilgalad 2012年3月23日 (五) 03:48 (UTC)
越南语那边已经开始讨论起来了:vi:Wikipedia:Thảo luận#Stop using bots to create articles, immediately!。这里有会越南语的吗?我看不懂他们在说什么,用Google翻译也没能完全看懂。似乎有支持删掉未翻译内容的,也有反对的。
建议大家一起向越南语维基百科施压,人多了力量就大,目前只有我一个人跟越南语几个人争论,难免势单力薄。--Symplectopedia留言2012年3月21日 (三) 10:32 (UTC)
各位怎么都那么小气,好像比我还小朋友。--王小朋友留言2012年3月21日 (三) 11:49 (UTC)
@ Symp: 不要都过去施压,压力过大会引起反弹。让他们自己想通。想不通那我们就刷,不就是比谁刷得快么。我们从41万开始刷,四万乡镇就45万,大家再都出点力刷点别的,就过47万了。--达师218372 2012年3月21日 (三) 12:01 (UTC)
在越南语维基历史上,除了他外还有其他人用机器人刷么?我认为对他们这种自然生长率30条每天的维基语种而言,拥有个那么高效率的机器人和数据库不用,似乎诱惑太高。此外另一个事情,S皇此前手动编辑的大量条目,我现在发现有出现同义的情况,可能需要花点时间进行消歧义调整。--Walter Grassroot () 2012年3月22日 (四) 00:49 (UTC)
你能查歧义?那就先把所有消歧义建起来…… --达师218372 2012年3月22日 (四) 01:49 (UTC)
技术上不难做,问题就是比较耗时,而且如果一些省份没有建立乡镇一级的模板,我是没法查出来的。只能一个个地移动。用AWB时候,可以点"what's link to/from"那一项,可以追踪所有连入的模板,如果有两个以上就可能意味着是存在两个同名的。--Walter Grassroot () 2012年3月22日 (四) 02:24 (UTC)
那先至少把这套模板做齐吧……(不过应该基本不缺……)那还是边刷边建消歧义好了。--达师218372 2012年3月22日 (四) 04:38 (UTC)
暂时粗略看,模板尚未建造完成的是黑龙江省,其余都建立。我的策略是在编辑某省前,先看他们的“乡级以上行政区列表”中的已经变蓝的条目,如果其中现实是指向错的,那就建立消歧义,如果没有的话就直接刷。这样遇到新的再去补过去旧的就好,效率应该最快。其中北京、上海、山东、山西、福建的基本全部建立,我计划这周内刷完河南省的。--Walter Grassroot () 2012年3月22日 (四) 04:49 (UTC)
要检查有多个页面(模板)链入同一个条目的话可以直接去查询数据库。Liangent (留言) 2012年3月22日 (四) 05:16 (UTC)
还有云南省--lavixcanvas M T C 2012年3月22日 (四) 07:26 (UTC)
(~)補充,如果会使用的AWB的话可以用上面和Symplectopedia类似的方法做成用逗号分隔的文本文件,然后用CSVLoader来自动创建(机器人可以自动保存)。使用步骤图解。--MakecatTalk 2012年3月22日 (四) 09:22 (UTC)
现在发现用symp的方式建的部分条目不查是否歧义,只要是蓝字,不管是否正确,直接跳过,这个补救起来需要些时间……--达师218372 2012年3月22日 (四) 11:41 (UTC)
我是来慰问各位的= =--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月22日 (四) 12:29 (UTC)
刷的時後方便同時弄參考資料嗎?--靖天子~北伐抗戰軍統局/真菌條目大躍進 2012年3月22日 (四) 14:47 (UTC)
@Hat600: 稍后我会列出所有存在歧义但条目内容不是消歧义的页面。Liangent (留言) 2012年3月27日 (二) 06:44 (UTC)

對手也在時刻注意著我們

就好比我們在關注對方的一舉一動,對方也在時刻著注視我們這裡的討論,Cheers!的用戶頁,這次中越維基之戰,結局勢必更加撲朔迷離。--九紫離火很高興認識你o(∩_∩)o 2012年3月22日 (四) 16:38 (UTC)

我不認為這是一場戰爭,只不過是維基編輯各自為戰而已。我最初提醒大家,是希望每個人意識到我們從2008年以來,一直為縮小與瑞典語維基的差距而努力,這四年來相信以上很多人為此傾注了大量精力與感情;而這一努力在接近實現時,遇到了一些變數。而我定量越南維基,就是這種變數的代表。Cheers!的舉動可謂偉大,既然他願意引用我語,我當然欣然接受;但我希望他仔細想想,越南維基這幾個月的增長,如果排除他一個人的努力外,又會如何?越南語有他,則奇強;無他,則極弱。一個維基百科的一半條目是一個人寫的,那本身就是一種悲哀。越南語仍然保持在30條每天的自然增長速度;但相反,我們經過此事后,增加技能加速編輯的,已經不下十人。6670名活躍用戶,這個才是中文維基更彌足珍貴的財富和資本。此事就算越南維基超過中文維基數萬,我想我們比以往更團結,協作、互助等等維基百科應該提倡的精神,得到了變化。從此意義上,我們已經達到了目標。--Walter Grassroot () 2012年3月23日 (五) 00:39 (UTC)
在Cheers的討論頁上,你可以看到Symplectopedia的警告起到了反效果。。。You wanna advice me? but the way you do, the way you said that make me do inversely, even i can give up to be continue a sysop in Vietnamese wikipedia.--Cheers! (thảo luận) 13:26, ngày 20 tháng 3 năm 2012 (UTC), 我在想要不要加入越南語的爭論,幫助Symplectopedia說話,但就像你說的,那樣可能會讓對方惱羞成怒。--九紫離火很高興認識你o(∩_∩)o 2012年3月23日 (五) 02:05 (UTC)

Hi there. I am a member of Vietnamese wikipedia. I have worked in this Vi. wikipedia for many years and I have never seen any people who want to make war with other wikipedias. The "wikipedia war" that you zh.wiki creates is a completely new concept to us. So please stop imagining about unreal things, please, because it is very harmful for your mental health. We vi.wikipedians just have our own way to do things, and WE NEVER WANT TO MAKE WAR WITH ZH.WIKIPEDIA OR ANY OTHER WIKIPEDIAS, BECAUSE IT IS MEANINGLESS. Is that clear ? 137.132.236.175留言2012年3月23日 (五) 05:55 (UTC)

(把上面的留言移下来)@Symp: 所以如果你要tell stewards about this, 那我可以跟你说这个真的是他们社群自己的事情⋯⋯ @All: So can we leave each other's community alone? It's up to every individual if they consider this a race, and it is really viwp's business how they treat (un)translated articles. Leaving a reminder/opinion is fine, but there is indeed no point interfering or even provoke each other('s community). Be nice. And fix caplock please :) 所以我们能不能尽量不要到别人的社群里去干涉别人?如果作为个人将其视为是条目竞赛,当然没有问题,你也可以提出你的看法但是真的请不要用这样的语气和态度。如果他们都认为先保留不翻译完全的条目,以后慢慢更改,这是他们的决定,别人没啥权力干涉。Ben.MQ 2012年3月23日 (五) 00:53 (UTC)
无趣。故意以中文回答那位“实名”用户(再说一遍,这个词是shizhao说的)(话说你连什么叫实名都不能理解吧,更何况还是比喻义),如果你连用户名都不敢使用的话我们没有必要把你的话,尤其是很无礼的措辞和大写放在眼里。请任何人都不要把这段话主动翻译成其他文字。大家散了吧,有这时间都刷条目去。--达师218372 2012年3月23日 (五) 06:39 (UTC)
(!)意見:我早说过了,跟那些没几个人看的小语种有什么好争的,别跌了我们的身价了。别把时间浪费在这上面,还是脚踏实地,多写几个条目吧!——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月23日 (五) 07:19 (UTC)
再一次去Alexa看了流量,“没几个人看”的语种与中文版的差距,并不比中文与英语版的差距大。英语版流量是中文的30倍,而中文与越南语的差距只有10倍而已。越南语的情况还不算最绝的,有个Winaray语(菲律宾的一个极小语种)的百科(条目数排第38),109726的条目居然有100000多条全为一个叫JinJian的维基人所建,很多完全是机器人式的地理条目。-综合征与一万年留言2012年3月23日 (五) 11:02 (UTC)
各語言的瀏覽量可以參見內部統計[2],英語版約中文版的30多倍,中文版約越南語版的5倍左右。--Alexchris留言2012年3月23日 (五) 13:20 (UTC)
仔細的看了下數據,越南語的瀏覽量就和2008年時期的我們差不多,而我們上個月的瀏覽量高達2億3800萬,比總條目數排名第4位的荷蘭語的1億9900萬瀏覽量還要多。--九紫離火很高興認識你o(∩_∩)o 2012年3月23日 (五) 16:07 (UTC)
(:)回應以上各位,中文维基现在大陆有很多竞争对手,比如百度和互动,所以现在浏览量比较的结果是正常的,我们也因此在努力中,总有一天让中文维基成为最棒的在线中文百科,甚至全世界最棒的百科。说“没几个人看的小语种”云云没有看不起其他语种的意思,只是想提醒大家,中文维基再不济,也是用世界第一语文写就的,而且只有给看得懂中文的人看才有意义(英语文是世界通用语文,看的人多不奇怪),和其他语文版本的维基比较,既没意义,也无必要。与其在这里争吵,不如多编辑几个条目,大家说对吧?——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月26日 (一) 08:56 (UTC)

像S用戶這樣用居高臨下的命令式口氣去教導人家應該如何做實在……多此一舉,那討論下面沒幾人用你看得懂的文字回應你是因為那些回覆基本都是他們為將行為合理化而進行的無力狡辯而已,S的留言只是使那邊同樣有的如Trongphu之輩只會嚷嚷的用戶愈發感到自豪感被激發出來,因為中文版有人被越南人的“高超的造條目技術”威脅到了,因為他們著急到自找上門來氣急敗壞地發命令了。Cheers!倒還通情達理,終究講了他會如何處理未譯和半譯的夾雜外文條目的問題,希望其他人幫他一併處理爛攤子。ɧ留言2012年3月23日 (五) 12:44 (UTC)

恫吓从来都没有用,只会被人理解为内心的恐惧和虚弱。--Gilgalad 2012年3月23日 (五) 13:16 (UTC)

中文維基的用戶是何德何能,用居高臨下的態度去對其他語言版發表意見?丟臉丟到外面去了。不過,看看這位用戶自己的頁面,看來他對於壓制不同意見的幅度和廣度進一步的提升到其他語言版去了。想想看,法語或者是德語版跑到這裡來講這種話,各位的感受是什麼?所謂己所不欲,勿施於人,有些人的基本禮貌還真是慘烈啊。-199.83.40.32留言2012年3月23日 (五) 14:19 (UTC)

什么叫丢脸丢到外面去了?我看到别人做错了事,不管是中文维基的人也好,外文维基的人也好,我一定会直言不讳地指出,这是我一贯的做法,难道连这也不可以吗?还有什么叫压制不同意见?指出别人的错误也叫压制不同意见?而且这又不是像某些其他的事情,比如是否开放IP创建条目的权限,或者是否要罢免Shizhao的管理员权限,正反方都有很多论点,很难说哪一方是最正确的,创建大量未翻译的条目无论在哪个语言版本都肯定是不对的,这就好比杀人在哪个国家都是犯罪的一样,难道连这也不能指出?要是在现实当中有哪个国家杀了很多人,比如卢旺达大屠杀,或者斯雷布雷尼察大屠杀,那肯定是要受到其他国家谴责的,为什么越南语维基创建了大量未翻译的条目我就不能谴责一下?
如果法语或者德语版跑到中文维基指出这里的错误,那我们也要看情况,如果他们说得对,我们就应该虚心接受,如果他们说得不对,我们就反驳他们,或者干脆不理他们也可以,千万不可以用令人反感的口气叫他们滚开,不要干涉中文维基百科。这样才是正确的态度。--Symplectopedia留言2012年3月23日 (五) 15:20 (UTC)
我看到别人做错了事,這句話就足夠描寫你的心態和你的問題。你何德何能告訴其他語言用戶他們做的是錯誤的,而你卻不能接受你自己可能是錯誤的。這也說明所謂的壓制是怎麼出自你的思想和行動。會不會思考,夠不夠成熟,由此可看出差異。-199.83.40.32留言2012年3月23日 (五) 17:48 (UTC)
别以为你用IP我就不知道你是谁。中文维基的条目有一两句话不通顺你都会在Wikipedia:优良条目候选投反对票,对编者大加指责,现在越南语维基百科创建了大量未翻译的条目,你反而不让我指出他们的错误,真是双重标准啊。
你如果想继续指责我,请便。但如果你想改变我,想让我对别人的错误不管不问,不将它们指出,那我送你三个字:不 可 能。--Symplectopedia留言2012年3月23日 (五) 19:35 (UTC)
Cobrachen,仔细看苏州兄的对话,此事争议无意义,解决问题方法才是上策。--Walter Grassroot () 2012年3月23日 (五) 19:56 (UTC)

中文維基要怎麼作,是中文維基社群的意向,越南語要怎麼作,也是他們的社群來決定,跑到人家家裡說三道四,先不說懂不懂基本禮儀,這種不成熟的動作,以後要是形成反效果可是要整個社群承擔,搞出這種飛機可不是說個我負責(一個沒肩膀的人說再多也扛不起來)就可以了事的。不想要爭議,那就讓引起這個爭議的人去解決,而不是讓社群來滅火。別人的錯,不是另外一個人可以犯錯的理由和藉口。有人的例子殷鑑不遠啊。-199.83.40.32留言2012年3月24日 (六) 14:24 (UTC)

那你说我要怎么做?难道要对越南语维基创建大量未翻译的条目不管不问吗?难道要眼睁睁地看着越南语版就用这样极其不公平的方法超过中文维基吗?人家有错我们就有权指出。想想现实社会中,要是哪个公司用不公平的方法来牟取暴利,比如出售黑心商品,那任何其他公司都是可以告它的。没错,到越南语维基“说三道四”是会让别人觉得反感、不舒服,但能不能做某件事要看整体的利弊,不是只看会不会让人反感,不然的话,学校老师惩罚顽皮的学生会让学生反感,于是就不惩罚了?公司的老板斥责不守规则的员工会让员工反感,于是就不斥责了?--Symplectopedia留言2012年3月24日 (六) 23:00 (UTC)
超越又怎麼樣了?天塌了?海嘯了?還是你愛的AV女優都不出片了?不公平?誰的角度,誰的標準?這個世界又有幾件事情是公平的?自比於公司的老版,你是哪個維基的老板?你又是哪個社群的老師?為了幾個數字跳上跳下,你是把這當作期貨還是股票在玩了。不懂得三思而後行的,也就是這樣了。-71.246.222.20留言2012年3月25日 (日) 16:01 (UTC)
插一句,Symplectopedia作为一个维基人(这里或许称为wikimedian更为合适)在越南语维基百科提出问题,发起讨论很正常啊,至少我没觉得有什么不可以。维基百科各语言之间最缺乏的就是这种跨语言之间的沟通,这是好事情,而不是坏事情。只是不要以某语言维基社群的名义说话就没啥问题--百無一用是書生 () 2012年3月26日 (一) 01:57 (UTC)

继续回到编辑中

请各位克制情绪,不要把以前的个人恩怨再重新泛到水面。我和Symplectopedia此前的种种仇雠,不比你们以上的很多人少,现在讨论的如何充分利用数据库创建条目的情况。Symplectopedia说的那些数据库,我们尚可利用的并不多,现在做个小总结,这是集思广益解决问题的场所,不是讨论过去争议的地方。

  1. 中国大陆乡镇及行政区:已经建立将近15000;尚有30000可建
  2. 生物:尚有35000可建
  3. 小行星:尚有15000可建
  4. 中文明星:3000可建
  5. 中文电影:1700可建
  6. 中文电视剧:3700可建
  7. 中文音乐专辑:7700可建
  8. 日本铁路站:12000可建
  9. ??,请补充~ 谢谢

现在我先自作主张、按照大家最近负责的,希望能够大家分工明确、协力合作。我个人会继续用AWB去加速编写。

  • Symplectopedia兄,请将您写的那个行政区方法制作成一个单独手册,或作为一个个人陈述。你可以继续加速扩建,消歧义事情,由我负责纠正。谢谢。
  • Makecat兄,请将CSV使用方法进行本土化;这点非常重要。谢谢。
  • 达师兄、Dinger兄,请继续用你们的机器人扩建条目。此前扩建的消歧义事情,由我负责纠正。谢谢。
  • Stevenliuyi兄,请继续用AWB创建,非常感谢!
  • Alexchris兄,以及所有想学用AWB的朋友,请电邮联系我,我会亲自教你们使用AWB,希望增快你们的效率。
    • add by Justincheng12345-請先查看WP:AWB/UM
  • Angnation兄,请协助调查以及完善那些未建的乡镇区划模板,非常感谢!
  • Gilgalad兄,请帮助研究一些其他可以拓宽的数据库。谢谢。
  • 九紫離火兄,请抽空观察其他维基对此的态度和对策。谢谢。
  • Snorri兄,如阁下所说,有空帮忙协助创建消歧义的,有一些简单方法可以帮助查询,但需要手工。谢谢。
  • 乌拉兄及其他主要负责巡查的朋友,请抽空随机查询我们的机器人以及半机器人的编辑是否维基化,并及时提醒。谢谢。
  • 书生兄以及其他管理员,请及时查阅AWB和机器人的申请以及批准,方便我们快速上手,加速效率。谢谢。

希望大家能够齐心协力去做这个事情,非常感谢!GO TEAM! --Walter Grassroot () 2012年3月23日 (五) 17:02 (UTC)

大家加油!恕在下時間心力有限,又有既定的編輯計畫要執行,暫時不敢冒然參與;但也趁這個勢頭調整作法:儘量新增條目,稍緩添加內容。希望其他版面的朋友多來這裡關切,是否有必要與「捍衛戰士」(只捍衛自己的條目、自已的原則者)耗時間,值得省思。-Kolyma留言2012年3月24日 (六) 01:03 (UTC)
会使用AWB应该能看懂图解步骤吧。小行星条目需要做程序下载数据并处理成所需的格式,手动不太现实,我得过几个月才有空做。--MakecatTalk 2012年3月24日 (六) 02:56 (UTC)
關於CSV Loader的使用方式可以參見Wikipedia:CSV,能夠增加條目創建的效率,而Wikipedia:CSV的內容需要各位多加關注,如有錯誤麻煩修正,感謝。--Alexchris留言2012年3月24日 (六) 04:56 (UTC)
此外如果有人想创建恒星条目,中国古代的命名可参考中西对照恒星图表。--MakecatTalk 2012年3月24日 (六) 02:56 (UTC)
感謝各位。還有船隻資料庫的說。Justincheng12345留言2012年3月24日 (六) 03:34 (UTC)
虽然不懂怎么用机器人编辑但是我支持,单是深度我们的百科算是不错的了,是时候扩充一下条目也方便菜鸟们编辑,想一想他们有一些资料又看到不完整的条目他们会如何?所以又数量是很重要的,还有就是一些街道,看到一些人说同名问题干脆直接添加括号也是不错的方法,要是一些城市的马路都有我可以去拍拍照写东西多方便啊!Qa003qa003留言2012年4月23日 (一) 15:45 (UTC)

中国科学院院士数据库

我从中科院网站抓了全部院士的资料,一共1200左右,已有条目400多,还有700多可建。我觉得简介部分应该属于“事实新闻”,不受版权保护可以直接抄,我先处理了数学物理学部放在这里,可以发现这些资料还是很容易格式化的。唯一问题是已故院士那部分没有给出对应的学部。--Gilgalad 2012年3月24日 (六) 03:43 (UTC)
基本整理完毕,不包括外籍院士共544条。--Gilgalad 2012年3月24日 (六) 18:02 (UTC)
是否能做成EXCEL数据库,分列姓名、生、卒、地、领域、简介、链接、模板,这样机器人可以批量操作。此外中科院院士均有模板链接,已故院士应当在维基中有对应的模板。譬如Template:中国科学院数学物理学部院士,不妨可以用链入页面查询。--Walter Grassroot () 2012年3月24日 (六) 18:50 (UTC)
学部问题解决,出生日期已经模板化。但出生地、籍贯地的地名维基化还是不太好弄。--Gilgalad 2012年3月25日 (日) 02:20 (UTC)

小行星数据库建造讨论

消歧义的讨论

魚類資料庫的採用

該資料庫的中文首頁有清楚註明:「本網站採用 Creative Commons 條款作為資料使用的依據 使用的授權標章 CC-BY-NC-ND」。維基媒體計劃不接受自由度偏低的「姓名標示─非商業性─禁止改作」授權。--章·安德魯留言2012年3月25日 (日) 01:34 (UTC)
(:)回應感謝章·安德魯的熱心提醒,惟「CC-BY-NC-ND授權條款允許使用者重製、散布、傳輸著作,但不得為商業目的之使用,亦不得修改該著作。使用時必須按照著作人指定的方式表彰其姓名。」不得修改該著作是指 此即為在使用時必須清楚列明來源。維基百科也已經有相當龐大數量條目採用此一CC授權的來源,因此並非如章·安德魯所述「不接受」,亦歡迎其他高手釋疑。--安可與我對話 ☺) 2012年3月25日 (日) 02:26 (UTC)
(~)補充,依照以往經驗,再多行補充一些資料以避免誤解擴大,這邊有中央研究院民族學研究所的引用須知以及 空中大學全球資訊網的 「姓名標示-非商業性-禁止改作」範例,雖然是2.5版,但使用方式相差無幾,況且創用CC之精神就是希望能散布的各式內容資源,嘉惠自己與其它眾多的使用者,還望章公明鑑。--安可與我對話 ☺) 2012年3月25日 (日) 02:46 (UTC)
很抱歉,但是安可兄,这个不可以转移。请看Wikipedia:版权常见问题解答,里面明确说CC-by-nc-nd不能复制到维基百科。此数据库不能使用。--Walter Grassroot () 2012年3月25日 (日) 04:36 (UTC)
可以用作参考资料,不可以直接移动或者稍作修改加入。另,部分有版权的内容,由于里面净是些表格(单纯事实),著作权人只是有整理的著作权,而对数据本身没有权利,这样的内容可以用来做数据的。--达师218372 2012年3月25日 (日) 06:06 (UTC)

停止条目数比赛

中文维基可以抓取数据库大量创建条目,但请停止与其它语言维基百科比赛条目数而进行的一切讨论。比拼条目数而进行大量讨论是幼稚、可笑的。--王小朋友留言2012年3月24日 (六) 11:16 (UTC)

+1,但此討論並非全部皆為比賽,因此可繼續。Justincheng12345留言2012年3月24日 (六) 11:31 (UTC)
我认为应该停止关于越南语的讨论,虽然支持导入合适的数据库。--王小朋友留言2012年3月24日 (六) 12:09 (UTC)
請恕我冒昧,這並非編輯戰,故我改了標題,至於此討論是有益而非一昧地比較條目數量,敝人也在思籌如何在不失條目品質情況下,進行大量新增條目。--安可與我對話 ☺) 2012年3月24日 (六) 12:52 (UTC)
这样只需要提出如何大量新增條目,无需提到越南语。--王小朋友留言2012年3月24日 (六) 13:56 (UTC)
同感。建議將以上討論盡快存檔,停止與其他語言作比較的討論,並且另開一個Wikipedia:利用數據庫建立條目工作小組作為統籌工作的地方。--Hargau留言2012年3月24日 (六) 14:36 (UTC)

中文維基的條目數量,成長速率,參與人數等等,這些都是屬於社群內部的事情,也是社群本身決定的事情,要怎麼作,有什麼資源可以使用,這些和其他語言一點關係都沒有。所以,討論之後分配工作就好了。

可是,有需要把其他語言當作是一種對手,甚至有些壓力或者是威脅在其中嗎?更有甚者,是把這種敵意傳送出去,帶到其他語言環境中,這樣的用意是什麼?對中文維基有什麼好處,或者是壞處?一個人的獨斷獨行也很有可能破壞整個團體的形象,評價或者是作為,引發不必要的爭議,消耗已經很少的資源,到頭來,社群得到的是什麼正面性的價值或者是幫助呢?一件很簡單的事情弄得像是要打仗,有必要嗎?跑去別人家的地方說三道四,我們有這個資格嗎?上面也有不少人提出同樣的問題,或許,應該有更多人在熱血之前,考慮一下為什麼,才是對中文維基有正面的幫助。很多事情,大環境的壓力會讓一個人一定要改變,儘管社群不夠大也沒有這種壓力就是了。-199.83.40.32留言2012年3月24日 (六) 14:52 (UTC)

沒錯,越南語大量未翻譯條目等討論已經離題,應該回歸正題。這邊是想人工方式大量創建條目,若未使用機器人,手工方式大量創建條目是頗有可行,或許未能即刻有幾百條出現,但若各位能一同將已知的資料庫或者百科類型叢書著手來寫,大約在50字左右搭配英文版添加輔助資料,快速建個幾十條也應該沒問題,也建議使用子頁面來追蹤,待有餘空再行加強。--安可與我對話 ☺) 2012年3月24日 (六) 15:12 (UTC)
可是半自动创建的条目都没参考资料的说……--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月25日 (日) 08:31 (UTC)
来源就是参考资料吧。--王小朋友留言2012年3月25日 (日) 11:53 (UTC)
刚点了几下越南语维基的随机条目,基本两三下就会出来一个植物条目。这样的跛脚鸭,多么可悲,四十万的浮夸数字根本无法和中文维基百科比拟,我们何必大动肝火呢?何况中文维基虽然条目数进不了前十,还是能出现在www.wikipedia.org首页的最上方,这不就说明一切了嘛。余兮留言2012年3月26日 (一) 14:19 (UTC)
刚去点了20下,最长的条目是这个 囧rz...--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月26日 (一) 14:25 (UTC)
  • 對於曾瘋狂創建條目的我,對於這次討論有著「保持中庸」的個人看法。以我為經驗,我曾利用「半機器人」在大量創建「中日戰爭」小戰役及臺灣歷屆首長過程中,獲得「許多」批評,但只要符合三大支柱並超越小條目,個人以為使用任何方式書寫都無妨;畢竟「條目數量」也是種績效表徵。對了,離題一下,還有位管理員(?)因為宗教條目欠我個道歉,到現在還沒還--Winertai留言2012年3月30日 (五) 06:30 (UTC)
  • 的确一味最求数量是不对的,但是很多编者都不回做复杂的编辑和编辑新条目,机器人能解决这些问题,我最初就是在一些已有条目上做小编辑的,除了一些我们可能有译名的星系,日本的一些小街道(可以创建大陆港澳台的街道啊),我们可以用机器人创建日韩越泰的艺人以及电视剧,韩剧和泰剧在国内的流行译名的问题不大。至于街道吗可以借用谷歌地区、谷歌地图(不知道技术能不能做的到),吧主要城市的道路都添加上去,还能写上坐标。以上说的很多都不错!注意维基百科编辑对菜鸟比较困难,只有有了数量才能让他们更好的编辑!Qa003qa003留言2012年4月21日 (六) 09:14 (UTC)

數據庫/資料庫

類別 名稱 仍可創立數量 內容評價/備注 網址 現況
生物 《中國動物物種編目數據庫》 35,000 未知 monkey.ioz.ac.cn/division/species1.html 回:服务器错误
《中國高等植物數據庫全庫》 未知 無法進入
中国经济真菌多媒体数据库 1300 内容表格化 http://www1.im.ac.cn/jjzj/index.htm 未开始
罕見遺傳疾病一點通 200左右 需人工處理 http://www.genes-at-taiwan.com.tw/genehelp/dbindex.asp?kid=A 已開始,新來者建議從CD倒過來輸入
台灣魚類資料庫 3087 http://fishdb.sinica.edu.tw/chi/fishlist.php 未開始
行政區劃 行政区划网 约40,000 http://cn.quhua.org/ 進行中
天文學 JPL 100,000 http://ssd.jpl.nasa.gov/sbdb.cgi 暫停
娛樂 新浪娛樂互動資料庫 30,000以上 未知 http://data.ent.sina.com.cn 未開始
鐵路車站 未知 未統計 格式不規整、缺少可靠來源、
部分錯誤\過時
User:Liangent
人物 广州亚运会运动员 7000多 需要人工整理;
亚洲最高水平运动员,知名度足够
官方数据库 卡巴迪,现代五项和棒球已有人做
地理 中国大中型水库基本特征数据库 < 1622 格式化数据 http://brim.ihb.ac.cn/12/CN/12.asp User:Stevenliuyi进行中
中国河流基本特征数据库 350 格式化数据:河流名称,河流长度,流域面积,年均流量,自然落差,水能理论蕴藏量,所属水系。使用{{Geobox/river}}。 中国河流基本特征数据库,User:MtBell/F 未开始
中国湖泊基本情况数据库 < 865 表格 http://www.data.ac.cn/zrzy/BA21.asp?name=%CE%DE&pass=&danwei=%CE%DE 未开始
名稱 仍可創立數量 內容評價/備注 網址 現況
饲用植物数据库 940 内容表格化。描述较长,可能有版权问题。基本信息可能可用 http://www.agridata.gov.cn/web/DataBaseVisit.aspx?DataBase=%E9%A5%B2%E7%94%A8%E6%A4%8D%E7%89%A9%E6%95%B0%E6%8D%AE%E5%BA%93 未开始
兽类资源数据库 58 内容表格化。描述较长,可能有版权问题。基本信息可能可用 http://www.agridata.gov.cn/web/DataBaseVisitDetail.aspx?DataBase=%E5%85%BD%E7%B1%BB%E8%B5%84%E6%BA%90%E6%95%B0%E6%8D%AE%E5%BA%93&SysId=58&order=Insert_Date&SearchWord= 未开始

北京农业数字信息资源中心还有更多数据库。--王小朋友留言2012年4月10日 (二) 10:31 (UTC)

今天怎么没人创建条目?

前几天每天都有许多人用AWB或机器人创建大量行政区划条目,但昨天只剩下我跟User:AddisWang,今天更是一个人都没有。User:StevenliuyiUser:Walter GrassrootUser:AlexchrisUser:AngnationUser:Bot600都哪里去了?

虽然越南语维基听从了我的建议,从上星期二就开始删除未翻译的条目,并且没有再用机器人创建大量条目,但这只是暂时的,过一两个星期等把所有未翻译的条目删除了,很可能还会再开始用机器人创建条目。因此,我们千万不可以松懈下来,一松懈就会落后,像龟兔赛跑中的兔子那样。

就算不会用AWB或机器人也没关系,我上面介绍了一种不用机器人又可以快速创建条目的方法,大家不妨尝试一下。我们现在已经创建了大约1万5千个行政区划条目,还剩两万个左右,大家再加把劲,尽快把它们全部创建。创建完中国行政区划条目之后,我们再讨论一下还有没有什么别的可写,再写两万条左右,这样基本上就可以摆脱越南语的追赶了。加油!--Symplectopedia留言2012年3月27日 (二) 12:57 (UTC)

保证质量。行政区划我准备处理,但需要先下载他们的全站数据以处理消歧义。现在下载到江苏了(页面上面的顺序)。Liangent (留言) 2012年3月27日 (二) 13:05 (UTC)
给我推荐一些能自动处理的吧,我可以同时并行处理多个(开着它自动运行就行)。Liangent (留言) 2012年3月27日 (二) 13:07 (UTC)
说实话,当时Symplectopedia、Stevenliuyi君处理的都是出现消歧义的问题,当初山东和辽宁是谁刷的?和这两个省的交织的消歧义最多。如果Liangent能解决消歧义纳最好。--Walter Grassroot () 2012年3月27日 (二) 13:37 (UTC)
私心等Liangent兄的機器人,不過希望有人寫一下其他資料庫創建條目的流程,方便大家共同創建,不過Symplectopedia和AddisWang繼續創條目當然也很歡迎,當然也要感謝提供資料庫的相關網站。--Alexchris留言2012年3月27日 (二) 14:26 (UTC)
对啊,Liangent都说做机器人了,我顿时觉得我们这些都算是小巫见大巫了。不如我们还是老实地写自己的领域,到时候看Liangent演大戏好了。--Walter Grassroot () 2012年3月28日 (三) 00:24 (UTC)
我真的没时间,手抓数据库……明天大概有一个地级市……--达师218372 2012年3月27日 (二) 15:11 (UTC)

我今天已经整理好了一个新数据库中的数据[6],明天起可以开始创建中国境内水库的条目了,大约可以新建1000多条。--Stevenliuyi留言2012年3月27日 (二) 15:21 (UTC)

这个不需要消歧义,又能在一页中列出来(名称直接搜索一个半角的百分号,另外此搜索表单貌似存在SQL注入漏洞),挺适合CSVLoader刷的。Liangent (留言) 2012年3月27日 (二) 15:52 (UTC)
直接用水库作為關鍵字已經找到1618條,還有4個名稱沒有水庫?Justincheng12345留言2012年3月27日 (二) 23:29 (UTC)
广东金龙低库、广东金龙高库、湖北付家河一库、湖北回龙一库。Liangent (留言) 2012年3月28日 (三) 01:37 (UTC)
哈。另建議Liangent先拿User:MtBell/D的玩一下好了....Justincheng12345留言2012年3月28日 (三) 09:35 (UTC)
咕~~(╯﹏╰)b这个格式我还得处理一下,剩下来的还没有完全格式化。我刚发现一个中国经济真菌数据库,可惜只有200多条,Liangent可以牛刀小试。--Gilgalad 2012年3月28日 (三) 12:41 (UTC)
给一个样板页面吧。Liangent (留言) 2012年3月28日 (三) 13:19 (UTC)
已经按照cvs格式处理了信息学部和技术学部,格式为:姓名,职业,出生年,出生月日,出生地,籍贯地,毕业学校,简介。具体条目组成请看翟明国这个例子。另外,怎么才能让AWB自动运行呢,必须要bot权限?--Gilgalad 2012年3月29日 (四) 06:31 (UTC)
是的。Justincheng12345留言2012年3月29日 (四) 15:09 (UTC)
话说,加入是某县知县。。。有没有关注度(有来源)。--AddisWang (留言)协作计划 2012年3月28日 (三) 13:17 (UTC)
我觉得有关注度,但暂时是存在争议或反对意见。不妨先去做其他的,知府、布政使肯定没有关注度问题吧。--Walter Grassroot () 2012年3月29日 (四) 06:12 (UTC)
其实是因为知县的来源是现代汉语,古代汉语的资料倒不是看不懂,主要是不好辨认。--AddisWang (留言)协作计划 2012年3月29日 (四) 14:21 (UTC)

應移到專頁討論

我上面已經提過一次,但沒人理會,現在只好另開一小段再重覆一次。以上討論已經嚴重偏離了「互助客棧 - 消息」的主題強烈建議另開一個Wikipedia:利用數據庫建立條目工作小組(名稱待議)作為統籌工作的地方。 --Hargau留言2012年3月28日 (三) 14:19 (UTC)

(&)建議:請不要急著移動。本議題原本即符合「消息」要件,後面的發展是也是良性的、對中文維基發展有利的。況且「消息」版面向來冷清,目前更沒有其他「實質」議題,不會造成排擠作用。若冒然由關注度高的「互助客棧」移至關注度低的「專題」,反而不是好事。建議遵守版面規矩:「x月xx日之後沒有新留言內容的議題應移動至相應頁面的討論頁或者存檔至x月存檔」,或掛個 saveto 模板即可。--Kolyma留言2012年3月29日 (四) 10:16 (UTC)
完成 {{saveto}}模板已掛,待14天無人討論讓機器人自動存檔。--安可與我對話 ☺) 2012年3月29日 (四) 14:18 (UTC)
建议将#数据库/资料库存入Wikipedia:机器人建立条目小组以便指导添加工作——路过围观人士路过进来留个爪2012年3月29日 (四) 14:20 (UTC)

野人獻曝

  • 因為「機器人申請」現規基本上是需要維基社群同意,「如果真要不記質、以改寫方式來將合乎版權資料庫擴充中文維基條目」,我個人有個方法,就是以資料庫目錄貼至excel,再以「制式word」SQL連結到那個EXCEL。例如魚類資料庫[7]改寫成條目版式風格就是:『中文名(欄位)為臺灣常見魚類之一,其正式屬科為「科中文名(欄位)」,英文科名稱則為「科名(欄位)」,正式學名則為「學名(欄位)」。<分段>資料來源:臺灣魚類資料庫<網址>,category:臺灣魚類』;這樣方式就輕鬆達到小條目標準。我曾實做類似這樣方式,一分鐘最快可以創建兩條目。

最後重申,若以重質量立場,我對此方式並不特別推薦。除此再插個題外話,殊近「越文」百科如此瘋狂,讓我聯想到被中文維基永久封禁的一位老朋友。--Winertai留言2012年3月30日 (五) 07:04 (UTC)

可以申请AWB权限,而且这个网站有资料导出,可以转变成相应的导入资料用AWB来创建条目,上面有AWB和CSV的教程,最近更改最近超多这些新建条目——路过围观人士路过进来留个爪2012年3月30日 (五) 07:14 (UTC)
嚴格上,如果「不改寫」在版權上是有些問題,例如魚類資料庫是不可用於「非營利」上的。--Winertai留言2012年3月30日 (五) 07:23 (UTC)
問題是資料庫沒有要求相同方式分享......Justincheng12345留言2012年3月30日 (五) 09:43 (UTC)
这个应该查不出copyvio吧?--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月30日 (五) 12:43 (UTC)
頁面有註明「不可用於營利」的標誌。--Winertai留言2012年3月30日 (五) 14:01 (UTC)
如果有不可盈利的话,对应CC的话就有nc了,这样可能不能使用这个数据库了——路过围观人士路过进来留个爪2012年3月31日 (六) 14:29 (UTC)
是的,我也想起了影武者,要是他沒被封禁會對此事抱持什麼立場,要知道他可是鐵桿越南死忠捍衛者。--九紫離火很高興認識你o(∩_∩)o 2012年3月31日 (六) 14:22 (UTC)
那个,如果是“台湾鱼类”的话未免有地域中心之嫌,除了特有鱼类之外,其余很多都是广泛分布于东亚的吧。--达师218372 2012年4月1日 (日) 04:05 (UTC)
赶英超美,指日可待!超光速是真理留言2012年4月1日 (日) 12:55 (UTC)

越南语维基百科又开始用机器人创建条目了

今天越南语维基百科又开始用机器人创建条目了:[8]

我们这几天创建条目的速度仍然太慢,每天只增加几百个条目。希望大家再加快一些速度,不要被越南语追上。加油!--Symplectopedia留言2012年4月2日 (一) 15:07 (UTC)

越南人创建的条目太差劲了,就模板加一句话,貌似模板都没有完全翻译。这种比百毒还差啊。Merphisto留言2012年4月3日 (二) 09:05 (UTC)

简直比我写的某些条目都差 囧rz...--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年4月3日 (二) 09:25 (UTC)
  • 他们弄出那些条目超级浮夸,其实越南语门纲目科属种也有自己的名字,不都是照着拉丁语乱读的,那些物种名称也一样,许多是可以翻译的,他们竟然为了凑数直接把学名当做条目名称,我们可不能学这个,丢死人了。余兮留言2012年4月3日 (二) 11:21 (UTC)
  • 不要管越南人了,我们还是做好自己的条目。其实我们新建的这批区划条目质量也不高,人口、面积之类的必要信息一概没有。--Gilgalad 2012年4月3日 (二) 15:14 (UTC)
    • 关于人口和面积,我还没找到一个统一的数据库。虽然在一部分乡镇的政府网站中可以查到该乡镇的人口和面积,但没有一个统一的网站收录所有乡镇的人口和面积。--Symplectopedia留言2012年4月4日 (三) 11:08 (UTC)
剛才從馬鞍山戰鬥開始,用連結做了北洋時期戰鬥幾條條目,平均一分鐘一條,請各位前往審核,這樣使用半機器人編寫的內容尚可「容忍」嗎?--Winertai留言2012年4月5日 (四) 03:15 (UTC)

今天越南语维基百科又增加2000條了:[9]。--218.166.15.59 2012年4月10日 (四) 08:06 (UTC)

越南语维基百科達到40萬(400000)條目了。--218.166.179.216 2012年4月11日 (四) 13:28 (UTC)

不要在管他们了!他们这样做不利于他们“语言”的百科在越南发展,我们的机器人专门创建好创建的就好!Qa003qa003留言2012年4月21日 (六) 09:22 (UTC)

各位呀,寧缺,勿濫。-TW-mmm333k (Talk) 2012年4月21日 (六) 13:59 (UTC)

加上坐标

建议用机器人把新增加的地区条目用{{Coord}}加上坐标,或者人工。这样Google Earth用户在浏览到该地方时就会看到了。我想大部分人都会用Google Earth看自己的家乡的,同时看到维基百科的条目,这样就可能加快了丰富条目的速度,也减轻了未来逐个维护的成本。可以在[10]类似的网站找坐标。--王小朋友留言2012年4月3日 (二) 13:03 (UTC)

哪里找这些数据呢?其实瑞典语在刷的法国市镇虽然一个镇就就几百人,关注度相当不够,而我们一个乡镇街道有几万人,但他们的条目信息比我们刷的乡镇条目充分多了,有历年人口、面积、邮编、坐标,比如sv:Villenave-de-Rions。--Gilgalad 2012年4月3日 (二) 15:12 (UTC)
[11]类似的网站--王小朋友留言2012年4月4日 (三) 02:10 (UTC)
很简单,它们有法文版可以搬运,而且不用翻译地名。--MakecatTalk 2012年4月4日 (三) 01:44 (UTC)
昨天看到「涉縣」條目,嚇了一跳。堂堂一個河北省的縣級行政區,除了基本訊息,幾乎沒有其他內容。看起來除了量的追求之外,可能要有人專注於質的提昇。--Kolyma留言2012年4月4日 (三) 00:24 (UTC)
不是有些历史和地理的内容么?--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年4月4日 (三) 02:16 (UTC)
那是剛才玖巧仔君加上去的,我發言的時候是這樣的內容。--Kolyma留言2012年4月4日 (三) 05:30 (UTC)
本来只想加几句的,可惜停不下手了,越填越多。这个条目的乡镇都建有条目,很奇怪,相比之下,不少县的条目的乡镇都是空白,全是红链。--玖巧仔留言 2012年4月4日 (三) 07:23 (UTC)

现在先快点创建条目,避免被越南语追上,坐标、人口、面积等数据以后再慢慢添加也可以。添加数据,也是增加内容;创建条目,也是增加内容。但是,创建条目,可以增加条目数量;添加数据,不会增加条目数量。因此,“两利相权取其重”,还是先快点创建条目吧。--Symplectopedia留言2012年4月4日 (三) 11:43 (UTC)

条目数增加后别懒惰就好。--王小朋友留言2012年4月4日 (三) 11:52 (UTC)
So far, the Zh-wiki has more bots than authors, and I lost most "entertainment" in checking "Special:NewPages". --Mewaqua 2012年4月7日 (六) 03:55 (UTC)

用google搜索各区县的第六次人口普查数据公报,可以找到一部分街道、乡镇的人口数据:[12]--Gilgalad 2012年4月6日 (五) 03:30 (UTC) 有没有可能用bot或者awb自动在行政区模板里添加人口、人口密度这些数据?如果可行,我们只要先统计数据就可以了。--Gilgalad 2012年4月6日 (五) 04:11 (UTC)

波斯文大量导入化学条目

监视列表刷得很厉害……大量复制英文版,只有名称、化学式和摩尔质量。这种应该不要学了吧?--MakecatTalk 2012年4月6日 (五) 13:11 (UTC)

有些化合物的关注度太低了,基本没人看,话说如何看一个条目的浏览量呢?Merphisto留言2012年4月7日 (六) 02:51 (UTC)

其实主要问题是那些条目除了让人知道有那种物质以外一点用也没有。--MakecatTalk 2012年4月7日 (六) 04:22 (UTC)
偶尔还需要查一下这个物质的性质的时候有用,不过也可以在Chemical Book里面查。其实我发觉很多的化合物条目用的参考资料都是Sigma-Aldrich。直接把他们公司的化合物目录照搬过来。结果我顺便看了中文维基竟然没有Sigma-Aldrich的条目,呵呵。Merphisto留言2012年4月7日 (六) 09:17 (UTC)
另外话说我最近没事已经消除红链,弄了几十个小条目了,感觉人肉翻译小条目不算快但没压力。Merphisto留言2012年4月7日 (六) 09:19 (UTC)
在條目的歷史頁面有外部工具:修订历史统计 · <lang> 搜索編輯歷史 · 监视者人数 · 本月页面浏览统计 --九紫離火很高興認識你o(∩_∩)o 2012年4月7日 (六) 04:20 (UTC)
谢谢!Merphisto留言2012年4月7日 (六) 09:17 (UTC)

简直想帮一些只有几百几千条目的语言刷条目了 囧rz...--lavixcanvas M T C 2012年4月7日 (六) 07:58 (UTC)

化學品的條目還是有用,經常上去en.wp去看。--留言2012年4月28日 (六) 02:58 (UTC)

关于机器人刷条目

我一向不反对使用机器人刷条目,但是在刷条目的时候,请大家认真一点,拜托诸位了!今天看到Liangent的行政区划机器人所做的很多错误编辑,实在非常痛心,比如消歧义页,机器人新生成的内容把所有中国大陆之外的乡的同命条目都清除掉了,而且新内容是一些机器代码,后人是无法解读的,对于经常有行政区划变动的大陆行政区来说,我们以后怎么维护?早前也有维基人使用机器人来帮忙处理行政区划工作的,但使用时都非常小心,使用过后还会认真去检查。所以请不要单纯贪图速度,这样生成的一个中文维基百科,给你们战胜其它语言了,那也只是一个垃圾堆!--长夜无风留言—以上未簽名的留言是于2012年4月10日 (二) 02:00 (UTC)之前加入的。

  1. 技术员能做的只到这里,部分检查还需手动。如果楼主有兴趣,完全可以参与。
  2. 由于卡在一些手工的事情上,目前整个工作还没有做完。请不要在别人做到一半的时候就说做的不好。说实话新的乡镇行政区划质量比前阵子多人手工建立要强的多。
  3. 如上所述,事情没有做完。技术文档会尽快写出来,因为上传了系统的数据所以维护并不是难事,有一些比如易名做起来非常简单,合并或者调整则复杂一些但也很快,如果有需要也可以使用机器人修改。而且找到了每年更新的数据库,所以这个机器人以后一年会开一次,同步更新数据。--达师218372 2012年4月10日 (二) 03:22 (UTC)

抱歉,昨晚因为忙到天亮,脾气暴燥了一点。我觉得主要有以下几个问题需要改进的:

  1. 那个行政区划网的数据库一直都在,但它也是一群人收集的,有些不准确,甚至错误的地方,需要慢慢核对的。比如东莞市的南城区,无论是南城区办事处的招牌,还是东莞两级政府的官网,都是以南城区命名的,但那里称为南城街道。这样的例子有很多,我们通常都拿那个数据库做辅助使用,然后再比对官网,以前的一些旧有条目经多人修正后,错误减少了很多。所以我觉得不要轻易让机器人去动以前的一些条目和模板,只让机器人去新增之前没有的条目和模板。
  2. 消歧义页也一样,原有的消歧义页包含了很多中国大陆以外的乡镇消歧义内容,但机器人把这些同名条目都清除掉了,比如机器人新生成的简体的龙潭乡,和繁体的龍潭鄉相比,少了台湾的龙潭乡,而且也没有将旧页面重定向到新页面,造成有两个重复页面。因此,我觉得处理消歧义页时,能不能不要改变以前的旧有内容,只增加新的消歧义内容上去?
  3. 机器人新生成的模板和消歧义页都是多重模板,而且代码很难解读,不方便后来者维护,要知道大陆的乡级行政区是变换频密的,需要经常维护的。所以希望恢复成原来的模板,简单易维护。

最后谢谢各位的努力,请忽略我昨晚的留言。--长夜无风留言2012年4月10日 (二) 08:30 (UTC)

  1. 数据是从国家统计局来的,如东莞市#行政区划所说,不设县/区。
  2. 其他地区乡镇的问题没考虑,等会我弄个bot爬一遍历史版本吧。移除原有内容的是因为有区划调整带来列表项删除,但又找不到具体撤销过哪些区划名,于是直接重写页面了。
  3. 模板就不是给用户看代码的,弄完我会写一些手册页面。留有各种模板交叉引用的代码是出于以后统计局发布新数据的时候方便批量调整。
Liangent (留言) 2012年4月10日 (二) 08:59 (UTC)
东莞这缺县级的好像还处理的不对……得看看。Liangent (留言) 2012年4月10日 (二) 09:10 (UTC)
现实的行政区划是很复杂的,南城区虽然是街道级别的,但东莞两级政府就以区来命名。关于模板再举一个例子,旧有的Template:惠州市惠城区行政区划,下面有行字的,那里说明了一些镇的实际管辖状态,而新的Template:广东省惠州市惠城区行政区划没有注明这些情况,并且那个“惠州市林场”连个政府的派出机构都没有,可能就是因为历史问题,有个行政区划代码而已。这样吧,等你们批量建完之后,我负责核对广东省的所有内容了,包括重定向页、消歧义页、模板、条目页等。你们大家也认领一些熟悉的省了,尽量通过人工把问题减到最小了。另外,广东省的那些模板我已恢复到旧有的模板,因为去年我按广东民政局的资料刚更新过的,到今天的话,需要更新的内容很少。--长夜无风留言2012年4月10日 (二) 09:30 (UTC)
注释想过,但一直不知道往哪里放好。Liangent (留言) 2012年4月10日 (二) 09:32 (UTC)
所有我覆盖过的消歧义页都检查了一遍,把看起来不像中国大陆的行补回去了。Liangent (留言) 2012年4月10日 (二) 10:52 (UTC)
志松哥哥可能还不清楚中国大陆国营林场的复杂性吧。在中国大陆,国营林场本身不是政府,也不是企业,而是事业单位。由于不是政府,所以不可能设立“某某林场人民政府”。因为是事业单位,所以上级政府不会在林场设立派出机构。但是,林场又实际地管辖一片地区和一定的人口(不一定是职工),所以在算行政区划的时候,往往又把它算在里面。所以,只要这个林场没有被撤销,它就实际地担负一定的行政管理职能,管辖一定的人口。而惠州市林场显然还活着([13])。--罪孽深重的爱学习的饭桶 (留言) 2012年4月11日 (三) 13:25 (UTC)
拥有一个行政区划代码不代表就是一个行政区,比如Template:广东省韶关市浈江区行政区划里面的韶关冶炼厂,它连事业单位都不是,只是一个企业。--长夜无风留言2012年4月13日 (五) 21:38 (UTC)
国家统计局的资料可能也有一些不准确的地方,比如Template:广东省广州市番禺区行政区划,其中沙湾镇已经升级为沙湾街道了,而石基镇应为石碁镇,可见广东民政厅的资料。--长夜无风留言2012年4月13日 (五) 20:55 (UTC)
User:Choihei的资料有点过时啊,很多模板本来是对的,又被修改回去。如:阳江市江城区行政区划,把我删掉的那个海陵镇又加了回去,而海陵镇已经并入闸坡镇了,政府消息见这里肇庆市端州区行政区划,把我更新的两个街道,又恢复回镇一级,政府消息见这里。类似的情况还有很多啊,一定要认真啊,不要只求量,不重质啊!--长夜无风留言2012年4月14日 (六) 00:12 (UTC)
對不起!修改的時候忘了看歷史,也忘了查GOOGLE。以後會小心,感謝核對。-Choihei留言2012年4月16日 (一) 12:29 (UTC)

现在我们已经写了大约25,000个中国行政区划条目了,还差一万多个没写

非常感谢User:Walter GrassrootUser:StevenliuyiUser:AddisWangUser:AlexchrisUser:AngnationUser:ChoiheiUser:Bot600,在这段时间为中文维基百科贡献了大量中国行政区划条目。中文版与越南语的条目数量差距已经从3月20日的24212条扩大到现在的42331条,跟瑞典语的差距也从3月16日的34662条缩小到现在的12642条。

现在已经基本完成的省份有北京、天津、上海、河北、山西、辽宁、江苏、福建、山东、河南、湖北、湖南、海南、贵州、陕西、甘肃、青海、内蒙古、西藏、宁夏、新疆。部分完成的有黑龙江浙江安徽江西广东云南。尚未开始的有重庆吉林四川广西

既然已经开始了,那就要把它做完,不要半途而废。我从明天开始一直到4月24日都很忙,没时间上维基百科,因此这项工作就交给大家了。我希望4月24日回来时,能看到中国所有的乡级行政区划条目全部写完。加油!--Symplectopedia留言2012年4月11日 (三) 12:23 (UTC)

最近刷的反而找麻烦。见我的talk。Liangent (留言) 2012年4月11日 (三) 12:27 (UTC)
所以有要以機器人創建條目嗎?--Alexchris留言2012年4月11日 (三) 12:42 (UTC)

英语维基百科以前大量创建条目的机器人

en:User:Kotboten:User:Polbot,好像也是从别的语言导入当地的行政区划,分别创建了5万多、将近4万个条目,我们可不可以参考一下?还有些见这里:en:Wikipedia:List of Wikipedians by article count(名字有bot的就是),好像英文版以前也用机器人建了不少条目。此外有些内容是直接复制美国联邦政府的资料,我们是没法用的。--MakecatTalk 2012年4月12日 (四) 13:00 (UTC)

还可以参考Mass content adding--百無一用是書生 () 2012年4月13日 (五) 02:44 (UTC)

能否以機器人導入中國各縣市地區生產總值?

如題,中國各縣市地區生產總值已經創建完成,例如新疆各县市地区生产总值列表等,能否直接導入表格中的數據至各個縣市地區條目?--Alexchris留言2012年5月16日 (三) 12:46 (UTC)

关于刷条目

大家如果有可用的数据库可以放到Wikipedia:机器人建立条目小组

另外那些已有的里面哪些没有人在做,我来创建一些。最近瑞典语快追上了。--MakecatTalk 2012年6月12日 (二) 01:42 (UTC)

數量如浮雲,何需重視,拿第上又不會得獎,還是提升現有質素吧--Dragoon16c留言2012年6月12日 (二) 14:40 (UTC)
瑞典语维基正在创建法国各省市镇条目,由于翻译是一大难题,中文版是否可以先用拉丁名称批量建立类似条目(同时加注template:notchinesetitle),然后再人工移动到中文名称?。此外,云南数字乡村网站上有云南省全部13431个行政村的面积、人口、气候等详细信息,建议通过机器人来抓取并建立相关条目。而且该网站的网址为分层结构,利用起来较方便,如云南省大理大理市下关镇玉龙村的相关信息网址为[14],而且该网站数据为政府部门提供,较具权威性,也能解决关注度问题。--Tianyamm2留言2012年6月13日 (三) 15:28 (UTC)
地名翻译的话,可以下载“世界地名翻译大辞典”的txt版本,然后搜索匹配的中文译名。里面应该有大部分的法国市镇名。—Snorri留言2012年6月13日 (三) 16:07 (UTC)
我看過這本書,裏面法國的市鎮也只是很小一部份,最多不會超過1000。余兮留言2012年6月14日 (四) 15:22 (UTC)
那真是可惜了。另外还有93版的《世界地名译名手册》和《21世纪世界地名录》可以试一试,不过似乎没有txt版本。—Snorri留言2012年6月14日 (四) 15:32 (UTC)
如果手动翻译出所有市镇的中文名字,之后是不是就可以大批量自动创建了?法语的名字我倒是可以帮助翻译。余兮留言2012年6月14日 (四) 15:41 (UTC)
还要找资料库。INSEE有比较全的,但需要付费,完全公开的还没见过。—Snorri留言2012年6月14日 (四) 15:48 (UTC)
直接把法文维基的模板移过来可行吗?配上手工翻译的市镇名。余兮留言2012年6月15日 (五) 13:50 (UTC)
大概可以做到这个条目的水平,技术上我不大懂,应该可行。—Snorri留言2012年6月15日 (五) 13:58 (UTC)
乡村的抓了也没处写,或者有这些数据的就建成条目?Liangent留言 2012年6月13日 (三) 17:13 (UTC)
反对大量使用拉丁文名称做条目名。可以接受在非条目空间临时建立,然后有中文名在移过去。--铁铁的火大了留言2012年6月14日 (四) 13:03 (UTC)
我认为,我们暂时没有必要建议行政村。因为在大陆行政机构,最低一级的行政单位是乡镇级;再往下走就是村名自治组织,这些组织本身结构并非完全稳定;此外同名的条目的村名简直太多,消歧义也会也压力。
其次,作为与中文相近的瑞典维基,其实是由Nasko一人创建法国市镇条目,按照他的速度和容量,还有将近12000的条目有待建造。如果没有找到确切的数据库可以对照,中文暂时不必勉强建造法国市镇。如果只是担心被瑞典语超过,只要保证我们抵达495000就可以甩开。--Walter Grassroot () 2012年6月13日 (三) 21:03 (UTC)
要不我写个程序来根据英文创建一些化学条目,内容上不会比波斯文刷的那些少。另外机器翻译不能翻句子,翻译那些简短词组还是可以的,比如Chembox中的“odorless”、“decomposes in alcohol and organic solvents”等。--MakecatTalk 2012年6月14日 (四) 06:27 (UTC)
難道被瑞典語超過,中文維基就末日嗎?--Dragoon16c留言2012年6月14日 (四) 13:38 (UTC)
不如先预编一个,然后大家具体讨论看是否应该推广。我仔细看了一下瑞典语编写的机器人条目,他们的质量还是很高的。我认为在机器人编辑速度上,AWB的技术并不是难事,中文维基上至少有20人懂得如何用AWB批量操作。主要问题,仍然是我们在信息收集过程中如何能够整合数据库,以使得条目变得相对丰富、质量较高。AWB的精髓是在于高效的自动化或半自动化的批量编辑,创建条目本身并非是最重要的。瑞典维基的Nasko在编辑法国市镇的条目,质量是远超过其他维基百科。他设计的机器人,无论条目、模版、制图、归类,都是非常高超的;这也给我个人一个提醒,如果我们一开始不利用这些好资源或者技术,而草率地批量编辑,以后修改完善那些条目(特别是那些我们此生无缘经过的法国小镇)更遥遥无期了。在两个月前我们在和越南语比赛时候,越南语急于求成而建造了将近十万烂尾条目,就是一个教训。同时我们必须承认我们也创建了许多质量不高的中国乡镇条目,我也因为实验各种机器人编码也草率创建上千小作品。至于翻译,我认为的确是一个不甚重要的,只要技术熟练,我相信这里很多朋友愿意用一天时间翻译几百个地名,而后的批量创建应该只是一个小时的事情。AWB的技术多少是由瑞典语引荐给中文的,他们比我们更清楚,相距4000条目,彼此的排名转化也是瞬息之间。--Walter Grassroot () 2012年6月14日 (四) 20:12 (UTC)
我都套着模板写目的之一就是为了方便后来补其他数据(至少方便把数据和现有条目对应,在有歧义的情况下),本来还想用更多inline模板的,Hat600不让我用。Liangent留言 2012年6月14日 (四) 20:20 (UTC)
已有國外的網站有星表的詳細數據,是否可考慮把某星等以內或肉眼可見的星星篩選出來,全給建上去。--Jasonzhuocn留言2012年6月17日 (日) 07:18 (UTC)
请提供网址。--MakecatTalk 2012年6月17日 (日) 07:20 (UTC)
我對這方面並不了解,不清楚從那一個星表下手比較適合,希望能有專家出來參與。第谷第二星表條目有附一個多語言的星表索引網站 http://cds.u-strasbg.fr/ --Jasonzhuocn留言2012年6月17日 (日) 07:31 (UTC)
试着用AWB建了几个法国市镇的条目(如阿邦库尔阿布塞孔艾伯阿勒讷莱马赖),各位可以看下有没有什么问题。--Stevenliuyi留言2012年6月18日 (一) 13:51 (UTC)
挺好的。—Snorri留言2012年6月18日 (一) 14:00 (UTC)
Waihorace觉得这挺赞的。--HW 2012年6月18日 (一) 14:02 (UTC)
Walter Grassroot觉得这挺赞的。--Walter Grassroot () 2012年6月18日 (一) 20:28 (UTC)
Makecat觉得这挺赞的。--MakecatTalk 2012年6月19日 (二) 05:29 (UTC)
这几个译名靠谱?Abscon的发音接近于阿普斯孔,阿布塞孔的“塞”从哪里来的?--Gilgalad 2012年6月19日 (二) 17:25 (UTC)
的确“斯”的发音更像一点,不过官网上的翻译是阿布塞孔。—Snorri留言2012年6月19日 (二) 17:41 (UTC)
译名的话,我优先采用的是《世界地名翻译大辞典》中的翻译,如果没有的话就在网上找是否有比较通用或正式的译名,再没有的话就用《外国地名译名手册》中的法汉译音表手工翻译。我法语虽然只学过点皮毛,但幸好法语的发音比较规则,应该问题不大。--Stevenliuyi留言2012年6月20日 (三) 08:46 (UTC)
我也觉得应该翻译成阿普斯孔,阿布塞孔和法语发音差的太远了,没有把单独s翻译成塞之例。另外,Allennes也应该翻译成阿莱讷吧,不是阿勒讷,这里发音是/lɛ/。余兮留言2012年6月20日 (三) 12:18 (UTC)
另外,世界地名翻译大辞典里面,一些地名中可以意译的部分是意译的,比如xxx-les-Bois、xxx-sous-Bois就翻译成森林xxx,而不翻译成莱博瓦、苏博瓦;bourg结尾的一般翻译成堡;xxx-sur-Seine一般翻译成塞纳河畔xxx;xxx-sur-Mer一般翻译成滨海xxx,而不翻译成xxx叙尔迈尔。不过,这本书里面也不是特别统一标准,xxx-les-Marais翻译成沼泽xxx还是直接音译就没有定规。余兮留言2012年6月20日 (三) 12:24 (UTC)
“阿勒讷”的译名也是来自annuaire-mairie.fr这个网站,估计是把闭音的e译为开音的e了。需要统一一下,到底应该优先采用有来源的译名,还是优先保证译音的准确性。--Stevenliuyi留言2012年6月20日 (三) 14:30 (UTC)
据我所知,这些法文网站经常找一些当地华人帮助翻译,弄出来的中文诘曲聱牙,译名随心所欲,没有定规,不能作为参考。虽说是“名从主人”,但当地人自己也不知道中文到底该怎么翻译,只好请人代劳了,所以这种翻译的好坏完全取决于代劳者的水准。我们还是以两岸四地的标准作为根据比较好。余兮留言2012年6月20日 (三) 14:46 (UTC)
窃以为《世界地名翻译大辞典》是不错的标准,一些地名虽然辞典中没有收录,但可以根据其他地名中类似音节的翻译做出标准翻译。比较容易造成混乱的,比如lon译为隆,ron译为龙,lo译为洛,ro译为罗,大部分还是有章法可循。如果网上个别来源翻译明显不符合发音,那还不如我们根据翻译规则自己翻译,这也不能算原创研究。余兮留言2012年6月20日 (三) 14:49 (UTC)
按照通用的翻译规则修正译名也是个不错的选择。可以先建立《世界地名翻译大辞典》里面有的市镇条目,然后按照通用的翻译规则或《世界地名翻译大辞典》内类似地名的类比来确定其它的地名译名。—Snorri留言2012年6月20日 (三) 17:06 (UTC)
我先建了一个省的市镇(诺尔省市镇列表),译名尽量参照《世界地名翻译大辞典》的标准,但因法语水平所限,翻译错误在所难免。如果有人发现误译之处希望能够指出。--Stevenliuyi留言2012年6月23日 (六) 04:24 (UTC)
(&)建議可以試著加入導航模板(Navbox)。--Alexchris留言2012年6月22日 (五) 04:02 (UTC)

刚发现英文版也刷过很多小行星条目:[15]。--MakecatTalk 2012年6月23日 (六) 06:01 (UTC)