資訊框
信息框(英語:Infobox),是用於收集展現文檔等主題的資訊子集。這種結構化文檔包含一組屬性-值對[1],在維基百科等百科全書常會以資訊框展示條目主題的摘要信息[2]。搜尋引擎也常在搜尋結果的網頁加上資訊框顯示相關摘要資訊。從這個方面來說,信息框可以媲美某些方面的數據表。當展示較大文檔的摘要時,信息框常常以側邊欄形式出現。
將其嵌入文檔並指定一些或全部與信息框有關的屬性-值對(即參數),信息框可以在另一文檔中實施。
維基百科
[編輯]在維基百科中,信息框可用於改善條目的外觀[3],也用於通過使用通用格式確保類似條目展示方式的一致性[4][2]。最初,信息框(和一般模板)被用於頁面布局的目標[2]。信息框可以透過指定某些或全部參數的值,嵌入條目[5]。所用的參數必須與信息框模板的參數相一致,除了任何可能與模板有關聯的值[5]。名稱被等號從值中分隔[5]。參數名稱可視為條目主題的一個屬性[6]。
{{Infobox prepared food | name = | image = | imagesize = | caption = | alternate_name = | country = | region = | creator = | course = | type = | served = | main_ingredient = | variations = | calories = | other = }} |
{{Infobox prepared food | name = Crostata | image = [[File:Crostata di mele e mandorle di Adriano a profilo.jpg|300px]] | imagesize = | caption = Apple crostata with slivered almonds | alternate_name = | country = [[Italy]] | region = | creator = | course = [[Dessert]] | type = [[Tart]] | served = | main_ingredient = Pastry crust, [[jam]] or [[ricotta]], fruit | variations = ''Crostata di frutta'', ''crostata di ricotta'', many other sweet or savoury variations | calories = | other = }} |
用於維基百科食品條目的信息框Infobox prepared food,參數(屬性)未指定值。 | 嵌入英文維基百科意大利水果派的同一信息框。注意,等號(=)右側的為值,參數名稱與信息框模板所指定的參數相同。Wiki標記語言中用方括號括起來的項(如-[[挞]])將呈現為連接到相應的維基百科文章(如撻)的鏈接,被鏈接的文件將被嵌入到其在文章中所標記的區域。 |
維基百科內,嵌入條目的信息框用一對雙大括號包圍屬性-值對。維基百科運行的MediaWiki軟件隨後解析文檔,信息框及其他模板則交由模板處理器處理。這種模板引擎能製作web文檔和用於呈現文檔的樣式表,這使得模板的設計與其所操作的內容分隔開[2],即模板的設計可以在不影響其信息的前提下更新,新版的設計將自動傳播到所有嵌入信息框的條目[4]。一般地,信息框格式化的出現在維基百科條目桌面版的右上角[3],或是移動版的頂部。
信息框在條目中wiki文本的位置對於無障礙而言是重要的[7]。最好的做法是把它們將在消歧義模板(用於指引讀者前往與條目名稱類似的相關主題)和維護模板(如將條目標記為未有參考資料)的下方,但應在其他所有內容之前[8][9]。
巴埃薩-耶茨和金稱有些編者認為信息框等模板很複雜,編者希望改變能隱藏屬性或資源文本的模板[10]。這是鏈式模板的惡化,即模板嵌模板[10]。
截至2009年8月,英文維基百科使用了大約3,000個信息框模板,集中使用了超過20,000個屬性[11]。之後,為減少冗餘,許多模板已經合併。截至2013年6月,有關信息框模板已被嵌入至少1345446次[12][13],有4,251,127 篇條目用到信息框(並非全部)。
信息框的名稱通常是「Infobox+流派」,然而出於信息框的更廣泛用途,它們經常被縮短,如分類學的taxobox[8]、軍事衝突的warbox和地理學的geobox。
機器學習
[編輯]2008年,大約44.2%的維基百科條目包含信息框[14],2010年則有約33%[11]。自動語義知識提取所用的機器學習算法用於「以相對低的複雜性成本提取計算機可處理的信息[1]。」然而,低覆蓋度使得這一工作更難實現,即便可以通過補充條目所包括分類的條目數據部分地克服這一難題[14]。法語維基百科於2011年5月發起信息框專題第二版[15][16]。
機器學習所獲得的知識可用於改善條目,如使用自動化軟件能讓編輯增加信息框數據[14]。iPopulator項目創建的系統通過自動分析條目文本,增加條目信息框參數的值[11]。
DBpedia使用機器學習算法從信息框中提取的結構化內容創建語義網中的鍵連資料資源[2],該算法被蒂姆·伯納斯-李稱為鏈式數據項目中「最知名的組成部分」之一[17]。
機器提取創建出主語、謂語(關係)和對象的三重結構[1]。信息框的每個屬性-值對用於藉助本體創建資源描述框架(RDF)[18]。這使得維基百科與本體之間的間隔,比存在於非結構化或自由文本與本土之間的間隔更容易被縮小[19]。
謂語建立了主體與客體之間的語義關係[1]。在上述信息框的例子中,三者(「crostata」、輸入、「tart」)表明crostata是一種餡餅。條目的主題是主體,參數名是謂語,參數的值是客體[18][1]。每種類型的信息框映射到一種本體類別,信息框內的每個屬性(參數)映射到本體的一種屬性[20]。這些映射用來維基百科條目解析為析取數據。
許多維基百科信息框還包括微格式標記,使得頁面上呈現的文本可被軟件讀取[21][22]。
參注
[編輯]- ^ 1.0 1.1 1.2 1.3 1.4 Baeza-Yates & King 2009,第31頁.
- ^ 2.0 2.1 2.2 2.3 2.4 Liyang 2011,第385頁.
- ^ 3.0 3.1 Broughton 2008,第357頁.
- ^ 4.0 4.1 Broughton 2008,第17頁.
- ^ 5.0 5.1 5.2 Broughton 2008,第18頁.
- ^ Baeza-Yates & King 2009,第30頁.
- ^ Broughton 2008,第234頁.
- ^ 8.0 8.1 Broughton 2008,第235頁.
- ^ 英文維基百科關於無障礙的政策由Wikipedia:格式手冊/無障礙指定。wiki文本布局由Wikipedia:格式手冊/版面布局指定
- ^ 10.0 10.1 Baeza-Yates & King 2009,第345頁Infobox templates made what should be a simple task of adding a statement about a property of a resource a complicated procedure which some participants could not complete without prompting.
- ^ 11.0 11.1 11.2 Lange, Böhm & Naumann 2010.
- ^ 參見Template:Infobox
- ^ Jarry1250's Toolserver Tools - Template transclusion count. List of Wikimedia projects. 2013-06-07 [2013-06-07].
- ^ 14.0 14.1 14.2 Baeza-Yates & King 2009,第28頁.
- ^ Geertman, Reinhardt & Toppen 2011,第493頁.
- ^ 計劃詳情參見Infobox/V2。
- ^ Miller 2008.
- ^ 18.0 18.1 Liyang 2011,第387頁.
- ^ Virvou & Matsuura 2012,第315頁.
- ^ Liyang 2011,第395頁.
- ^ Wikipedia:微格式專題
- ^ Heilman 2009.
參考資料
[編輯]- Baeza-Yates, Ricardo; King, Irwin (編). Weaving services and people on the World Wide Web. Springer. 2009. ISBN 9783642005695. LCCN 2009926100.
- Broughton, John. Barber, Nan; Meyers, Peter , 編. Wikipedia – The Missing Manual. O'Reilly Media. 2008-07-14. ISBN 9780596553777.
- Geertman, Stan; Reinhardt, Wolfgang; Toppen, Fred (編). Advancing geoinformation science for a changing world. Lecture notes in geoinformation and cartography 1 (Springer). 2011. ISBN 9783642197888. ISSN 1863-2246. LCCN 2011925152. doi:10.1007/978-3-642-19789-5.
- Heilman, Chris. Retrieving and displaying data from Wikipedia with YQL. Yahoo Developer Network. Yahoo. 2009-01-19 [2009-01-19]. (原始內容存檔於2011-01-27).
- Lange, Dustin; Böhm, Christoph; Naumann, Felix. Extracting Structured Information from Wikipedia Articles to Populate Infoboxes. Technische Berichte des Hasso-Plattner-Instituts für Softwaresystemtechnik an der Universität Potsdam, Hasso-Plattner-Institut für Softwaresystemtechnik Potsdam (Universitätsverlag Potsdam). 2010 [2015-07-26]. ISBN 9783869560816. (原始內容存檔於2014-06-06).
|issue=
被忽略 (幫助) - Yu, Liyang. A Developer’s Guide to the Semantic Web. Springer. 2011. ISBN 9783642159695. doi:10.1007/978-3-642-15970-1.
- Miller, Paul. Sir Tim Berners-Lee Talks with Talis about the Semantic Web. Transcription by CastingWords. Talis Group. 2008-02-07 [2013-06-02]. (原始內容存檔於2013-05-10).
- Virvou, Maria; Matsuura, Saeko (編). Knowledge-based Software Engineering: Proceedings of the Tenth Joint Conference on Knowledge-Based Software Engineering. Frontiers and Artificial Intelligence and Applications 240 (IOS Press). 2012. ISBN 9781614990932. LCCN 2012943674.
延伸閱讀
[編輯]- Kiran, Kumar N.; Santosh, G.S.K.; Varma, Vasudeva. Multilingual document clustering using Wikipedia as external knowledge. Multidisciplinary Information Retrieval (Springer Berlin Heidelberg). June 2011, 6653. ISBN 9783642213533. ISSN 0302-9743. doi:10.1007/978-3-642-21353-3.
- Chutiporn, Anutariya; Domingue, John (編). The Semantic Web: 3rd Asian Semantic Web Conference, ASWC 2008, Bangkok, Thailand, December 8-11, 2008. Proceedings. Lecture Notes in Computer Science 5367 (Springer). 2008. ISBN 9783540897033. ISSN 0302-9743.
- Wu, Fei; Hoffmann, Ralph; Weld, Daniel s. Information extraction from Wikipedia: moving down the long tail. Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (Association for Computing Machinery): 731–739. ISBN 9781605581934. doi:10.1145/1401890.1401978.