元数据

本页使用了标题或全文手工转换,现处于香港繁体模式
求聞百科,共筆求聞
在2010年元数据通常為數碼形式;而在1960和70年代的傳統卡片目錄,也是元数据的例子,因為這些卡片包含有關圖書館(作者,標題,主題等)中的圖書資訊。

元数据(英語:metadata),又稱詮釋資料中介資料中繼資料元数据等,為描述其他資料資訊的資料[1]。元数据有六種不同類型,分別是記敘性元数据結構性元数据管理性元数据[2]參考性元数据統計性元数据[3]法律性元数据

  • 記敘性元数据描述了用於發現與辨別意義的資源。它可以包括如標題、摘要、作者和關鍵字等元素[4]
  • 結構性元数据是有關於資料容器的元数据,指示如何整理其中複合的物件。例如頁面依甚麼排序方式組成章節。
  • 管理性元数据是用於管理資源的資訊,例如資料產生的時間和方式、檔案種類和其它技術資訊,以及誰有權限存取它。
  • 參考性元数据是跟內容及統計數據質素相關的資訊。
  • 統計性元数据,又稱處理過程資料,會描述收集、處理或產生資料的過程。[5]
  • 法律性元数据提供有關作者、版權持有者、及公共授權條款等資訊。

內容簡介

主要是描述資料屬性(property)的資訊,用來支援如指示儲存位置、歷史資料、資源尋找、檔案記錄等功能。元数据算是一種電子式目錄,為了達到編制目錄的目的,必須在描述並收藏資料的內容或特色,進而達成協助資料檢索的目的。

該名詞起源於1969年,由Jack E. Myers所提出的.metadata即關於資料的資料(data-about-data),可以說是一種標準,是為支援互通性的資料描述,所取得一致的準則。其基本定義出自OCLC與NCSA所主辦的「Metadata Workshop」研討會。它將metadata定義為「描述資料的資料」(data about data)。此後各種有關Metadata的定義紛紛的出現。現存很多metadata的定義,主要視特定社群或使用情境而不同。如有有關資料的資料(data about data),有關資訊物件之結構的資訊(structured information about an information object),描述資源屬性的資料(Data describes attributes of resources)等。

都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一種應用,在1995年2月由國際圖書館電腦中心(OCLC)和美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)聯合贊助的研討會上,52位來自圖書館學電腦、網絡等方面專家共同制定。

歷史

元数据傳統上用於圖書館卡片目錄,一直到1980年代。2000年代起,數碼化成為儲存資料的普遍方式。而圖書館也將其目錄資料轉換為數碼資料庫,數碼資料也有相關的元数据標準。

不同行業有不同的元数据標準(例如,博物館收藏、數碼音樂檔案、網站等)。描述資料或資料檔的背景和內容,增加了實用性。例如一個網頁的元数据包括了有關頁面主題、編寫手稿語言(例如 HTML)、產生頁面的工具,以及哪裏有關於主題的更多資訊。這個元数据可以自動提高閱讀者的體驗,讓用戶更容易在網絡上尋找網頁。音樂CD可提供此專輯的音樂家歌手歌曲作者資訊的元数据。

元数据的主要目的是幫助用戶尋找相關資訊並探索資源。元数据也有助於組織電子資源,提供數碼辨識,並支援歸檔和儲存資源。「由相關標準尋找、辨識資源,將相似資源集中在一起,區分不同並提供位置資訊」,元数据可幫助用戶探索資源。各國政府廣泛收集包括互聯網在內的通訊活動元数据,用於流量分析,而且可用於大規模監視

在許多國家有關於電子郵件電話網頁IP連線與手機位置的元数据,是固定由國家儲存的。

定義

元数据是指「描述資料的資料」。雖然說源自於希臘介詞字首 μετά- 的英文字首「meta」代表「之後」或「之下」的意思,在此處實際上是使用知識論中「關於」的意思。元数据被定義為提供某些資料單方面或多方面資訊的資料;它被用來概述資料的基礎資訊,以簡化尋找過程與方便使用[6]。例如:

  • 建立資料的方法
  • 資料的用途
  • 建立的時間與日期
  • 資料的建立者或作者
  • 資料被建立在電腦網路的何處
  • 用作標準
  • 檔案大小

舉例,一個數碼影像檔案可能會包括描述圖片大小、色彩深度、圖片解像度、圖片建立時間、快門速度等資料的元数据[7]。一份文件的元数据可能會包含文件長度、作者、建立時間、文件概述等資訊。網頁中的元数据也可以包含頁面內容的描述,以及有關於內容的關鍵字等等[8]。這些東西常被稱作「后设标籤」(metatags),其在1990年代後期以前被用來當作決定搜尋引擎結果順序的主要因素[8]。在1990年代後期,由於「關鍵字堆砌」的出現,對於后设标籤的倚賴程度逐漸降低[8]。后设标籤的濫用導致許多搜尋引擎會誤認某些結果的關聯性高於實際值[8]

元数据可以在被稱作元数据註冊系統元数据儲存庫資料庫中儲存和管理[9]。不過,如果沒有文字和參考點的話,單純看是很難辨認這些元数据的[10]。舉例來說:一個資料庫本身會包含一些數字,但是這些數字代表的涵義可能是某些計算後的結果,或者是書籍的ISBN碼──這就需要參考才能知道,而無法直接由資料容器內部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中發明了「metadata」這個詞,當時的意思為「描述資料容器的資料」,也就是結構性元数据,而非描述性元数据或常用於圖書館目錄的后设内容(metacontent)[11][12]。自那時起,資訊管理、資訊科學、資訊技術、圖書館學與地理資訊系統等領域廣泛接受了這個詞彙。在這些領域中,元数据的定義為「描述資料的資料」[13]。儘管這是最廣為接受的定義,許多學科也為了自用而採用了特殊的解釋或定義。

類型

雖然元数据的應用層面很廣,涵蓋各式各樣的領域,有專門和公認的方法來決定元数据的類型弗朗西斯·布雷瑟頓和辛格利(1994)將元数据分成兩類:結構性/控制性元数据和指南性元数据[14]。「結構性元数据」描述了諸如表格金鑰索引等資料庫物件的結構。「指南性元数据」幫助人們找到特定的物品,而且經常被壓縮為一系列自然語言中的關鍵字

根據拉爾夫·金博爾,元数据可以分成兩個相似的類別:技術性元数据和商業性元数据。「技術性元数据」等同內部性元数据,而「商業性元数据」則為外部性元数据。金博爾加入了第三種類別,「過程性元数据」。

另一方面,美國國家資訊標準組織將元数据分成三種:描述性、結構性和管理性[13]。「描述性元数据」通常用於發現辨識,作為搜尋和定位物件的資訊,例如標題作者科目關鍵字出版商等等。「結構性元数据」描述物件的構成物是如何組織起來的,舉例來說,書頁是如何組成一本書中的章節的這種資料,就是結構性元数据。最後,「管理性元数据」給予有助於管理資源的資訊。管理性元数据參考技術資訊,包括檔案類型、檔案建立時間和檔案建立方式。管理性元数据之下還有兩個小分類,權限性元数据和儲存性元数据。「權限性元数据」解釋了智能財產權,而「儲存性元数据」則包含儲存和儲存資源的資訊[15]

結構

元数据(后设内容)或更正確地,用來組合元数据(后设内容)陳述句的詞彙,通常依據明確定義元数据綱要的標準化概念而結構化,其中包含了:元数据的標準和模型。諸如控制詞彙表分類學索引典資料字典元数据註冊庫等工具,可針對元数据進一步標準化。結構元数据的共通性在資料模型開發和資料庫設計中也是至關重要的。

語法

元数据(metacontent)語法是指產生元数据的欄位或元素的結構規則。單一個元数据綱要可以許多不同的標記程式語言來表達,每種標記或程式語言需要不同語法。例如,都柏林核心集(Dublin Core)可用純文字HTMLXMLRDF來表達。

(引導)后设内容的常見例子是書目分類,主題,杜威十進點陣圖書分類號。在任何「分類」中總是有些關於物件的隱含陳述。將物件分類為例如杜威分類號514(拓撲)(即書背上有編號為514的書),隱含的陳述是:<book><subject heading><514>。這是一個主題-謂詞-物件的三元組,更重要的,它是一個類-屬性-值的三元組,前兩個元素(類、屬性)是已有定義語意的結構元数据片段。第三個元素是一個值,最好來自一些控制詞彙表,一些參考(主)資料。

元数据和主資料元素組合為一個陳述句,它是一個后设内容陳述,即「后设内容 = 元数据 + 主資料」。所有這些元素都可以當作「詞彙」。元数据和主資料都是詞彙,可以彙編成為后设内容陳述。這些詞彙有很多來源,包括元数据和主資料:UMLEDIFACTXSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone二名法等。使用控制詞彙表作為后设内容陳述的組成部分,無論是索引或尋找,都被ISO 25964認可:「如果索引搜尋兩者從相同概念都選擇了相同的術語,那麼檢索將得到相關檔案。」

這對互聯網的搜尋引擎(如Google)尤其重要,搜尋程式使用複雜的索引演算法使搜尋的文字網頁相符合;其中並沒有智能或「推論」發生,只是令人感覺似乎如此。

層級,線性和平面模式

元数据的模式在本質上是層級結構,即元数据元素和元素之間存在套疊的關係,因此元素之間有親子關係。層級模式的一個例子是IEEE LOM模式,其中某個元素可屬於父親的元数据元素。元数据模式也可以是一維或線性的,其中每個元素與其它元素完全不相關聯,而且只根據一維來分類。例如都柏林核心綱要就是一維的元数据模式。元数据模式通常是二維或平面的,其中每個元素與其它元素完全不相關聯,但根據兩個正交的維度來分類。

超對映

在元数据模式超出平面描述的所有情況下,需要某種類型的超對映(hypermapping)以選取觀點來顯示和檢視元数据,並提供特殊視圖。超對映通常應用於地理學的或地質資訊疊加的圖層

細緻程度

將資料或元数据構造的程度稱為「細緻程度」(granularity),是指提供了多少資料的相關細節。具有高細緻度的元数据允許更深入、詳細和更結構化的資訊,並實現更進階別的技術操作。較低的細緻度意味着以低成本的考量來產生元数据,但沒有細節描述的資訊。細緻度的主要影響不僅在於元数据的產生和取得,而且在於其維護成本上。一旦元数据的結構變得過時,則對參考資料的存取也是如此。因此,細緻度必須考慮到產生以及維護元数据的投入。

標準

元数据有適用的國際標準。在國家和國際標準社群,特別是ANSIISO正完成許多工作,就元数据和登入的標準化達成共識。元数据的核心登入標準是ISO/IEC 11179 元数据登入(MDR),在ISO/IEC 11179-1:2004中描述了該標準的框架。新版本的第一部份正處於2015年或2016年初發佈的最後階段,已經被修訂以符合目前版本的第三部份;而ISO/IEC 11179-3:2013,其中擴充了MDR以支援概念系統的登入(見ISO/IEC 11179)。

此標準規範了記錄資料涵義和技術結構兩者,適合人類和電腦的無歧義用法。ISO/IEC 11179標準是指元数据為相關於資料的資訊物件,或是「有關資料的資料」。在ISO/IEC 11179第三部份中,一個資料項的資訊物件是指,描述關於其資料元素、值域和其它可重複使用語意,與用來描述意義和技術細節。此標準還規定了元数据登入的詳細內容,以及在元数据登入中為了登入和管理的資訊物件。ISO/IEC 11179第三部份也預定了從其它資料元素衍生的複合結構描述,例如經過計算,一或多個資料元素的集合或其它形式的衍生資料。

此標準原先敘述本身為「資料元素」登入,但其目的則獨立於任何特定應用程式之外,支援元数据內容的記敘和登入,將記敘提供給人或電腦以開發新的應用程式,資料庫,或根據登入的元数据內容來分析收集到的資料。重複利用、擴充與該標準的管理部份,此標準已成為其它類型的元数据登入的一般基礎。

地理空間社群有專業化地理空間元数据標準的傳統,特別奠基於地圖圖像庫目錄之上。對於地理空間資料,正規的元数据是必要基本的,一般文書處理方法則無法適用。

都柏林核心元数据術語是一組詞彙,用於描述意圖探索的資源。最初的15個經典元数据術語被稱為都柏林核心元数据元素集,在以下標準檔案中均認可:

  • IETF RFC 5013
  • ISO標準 15836-2009
  • NISO標準 Z39.85。

雖然微格式遵循XHTMLHTML的語意標記方法,但它本身不是一個標準,它嘗試重新利用現有的網頁標籤來傳送元数据。一位微格式的倡導者坦塔克·塞里克,說明了採行另案的問題癥結點:「我們希望你學習一種新語言,現在你需要在伺服主機上輸出這些額外的檔案。實在是麻煩。(微格式)能降低進入障礙。」

用途

相片

含有擁有者,版權和聯絡資訊的辨識元数据可能被寫入數碼相片檔案,產生檔案的相機品牌型號以及曝光資訊(快門速度,f-stop等)和記述資訊,例如關於相片的關鍵字,使檔案或圖像可在電腦和/或互聯網上搜尋。

一些元数据由相機產生,一些元数据由攝影師和/或軟件在下載到電腦之後輸入。大多數數碼相機都會寫入關於機型、快門速度等的元数据,有些則可以編輯它;在大多數NikonCanon,和Pentax DSLRs相機已經提供這樣的功能。在後期製作時,使用元数据關鍵字可更方便組織。過濾器可用於分析特定的一組相片,並根據評等或攝影時間等標準來選取。

攝影元数据標準由制定以下標準的組織管理。它們包括但不限於:

  • IPTC Information Interchange Model IIM (International Press Telecommunications Council),
  • IPTC Core Schema for XMP
  • XMP – Extensible Metadata Platform (an ISO standard)
  • Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
  • Dublin Core (Dublin Core Metadata Initiative – DCMI)
  • PLUS (Picture Licensing Universal System).
  • VRA Core (Visual Resource Association)

電信

關於電信通話,非通訊的內容如通話時間、起點和目地的資訊、電子訊息、即時訊息和其它電信模式,是另一種形式的元数据。在Edward Snowden公佈情報機構對通話細節記錄元数据的大量收集後,大眾對於此舉是有爭議的,例如NSA保留數百萬互聯網用戶的線上元数据長達一年,無論他們是否為該機構所關注的人物。

影片

元数据在影片中特別有用,其中關於內容資訊(例如對白字幕和場景敘述)電腦並無法理解,而是用於有效地搜尋內容。影片元数据來源有兩個來源:

  1. 操作收集的元数据,即內容的製作資訊,如裝置類型、軟件日期位置
  2. 人工編輯的元数据,以提高搜尋引擎的能見度、可探索性,觀眾參與度,並向影片發行商提供廣告機會。在當今社會專業的影片編輯軟件可存取元数据,例如Avid's MetaSync和Adobe的Bridge。

網頁

網頁通常包含后设标籤形式的元数据。后设标籤(<meta ……>)中的敘述和關鍵字一般用於描述網頁的內容。標記元素也指示頁面描述、關鍵字、檔案作者以及最後修改的時間。網頁元数据可幫助搜尋引擎和用戶,尋找他們需求的網頁類型。

參考文獻

  1. 存档副本. [2016-11-14]. 
  2. Zeng, Marcia. Metadata Types and Functions. NISO. 2004 [2016-10-05]. 
  3. Directorate, OECD Statistics. OECD Glossary of Statistical Terms - Reference metadata Definition. stats.oecd.org. [2018-05-24]. 
  4. National Information Standards Organization (NISO). Understanding Metadata (PDF). NISO Press. 2001 [2016-11-14]. ISBN 1-880124-62-9. 
  5. Dippo, Cathryn. The Role of Metadata in Statistics (PDF). Bureau of Labor Statistics. 
  6. A Guardian Guide to your Metadata. theguardian.com. Guardian News and Media Limited. 2013-06-12 [2016-11-14]. 
  7. ADEO Imaging: TIFF Metadata. [2013-05-20]. 
  8. 8.0 8.1 8.2 8.3 Rouse, Margaret. Metadata. WhatIs. TechTarget. 2014-07 [2016-11-14]. 
  9. Hüner, K.; Otto, B.; Österle, H.: Collaborative management of business metadata, in: International Journal of Information Management, 2011
  10. Metadata Standards And Metadata Registries: An Overview (PDF). [2011-12-23]. 
  11. Philip Bagley. Extension of programming language concepts (PDF). Philadelphia: University City Science Center. 1968-11 [2016-11-14]. 
  12. "The notion of "metadata" introduced by Bagley". Solntseff, N+1; Yezerski, A. A survey of extensible programming languages. Annual Review in Automatic Programming 7. Elsevier Science Ltd: 267–307. 1974. doi:10.1016/0066-4138(74)90001-9. 
  13. 13.0 13.1 NISO. Understanding Metadata (PDF). NISO Press. [2010-01-05]. ISBN 1-880124-62-9. 
  14. Bretherton, F. P.; Singley, P.T. Metadata: A User's View, Proceedings of the International Conference on Very Large Data Bases (VLDB): 1091–1094. 1994. 
  15. National Information Standards Organization; Rebecca Guenther; Jaqueline Radebaugh. Understanding Metadata (PDF). Bethesda, MD: NISO Press. 2004 [2014-04-02]. ISBN 1-880124-62-9. 

參見