什么是“元數據”

本文轉載自查看原文 2016-10-24 21:17 2241

作者：賀易之
鏈接：https://www.zhihu.com/question/20679872/answer/65565699
來源：知乎
著作權歸作者所有，轉載請聯系作者獲得授權。

要理解這個問題，首先要知道 “元”是什么。
元(meta)，一般被我們翻譯成“關於……的……”。
事實上，這個前綴來源於希臘文，表示“在……之后”，在某樣事情結束之后，就含有了“歸納”、“總結”的意思呢？因此，元，就代表着“本原”、“體系”的意思。
以文學領域為例，后現代主義文學中有一種小說叫作“元小說”，也就是“關於小說的小說”。“傳統小說往往關心的是人物、事件，是作品所敘述的內容；而元小說則更關心作者本人是怎樣寫這部小說的，小說中往往喜歡聲明作者是在虛構作品，喜歡告訴讀者作者是在用什么手法虛構作品，更喜歡交代作者創作小說的一切相關過程。（摘自百度百科）”。
比如英國作家伊恩·麥克尤恩的作品《贖罪》。這本書講述的是妹妹布里奧妮幼時因為愛上了姐姐塞西莉婭的男友羅比卻被他拒絕，因報復心理作祟而陷害他入獄，長大成人之后為了彌補心中的愧疚而應征入伍來贖罪的故事。在本書中，主人公布里奧妮即是“主人公”，也是本書的“作者”。它着重於描述布里奧妮是如何寫這本的書的。這就是“關心作者是怎么寫這本小說”的小說。

在了解了元(meta)的含義之后，我們來看 元數據。
元數據(meta data)——“data about data” 關於數據的數據，一般是結構化數據（如存儲在數據庫里的數據，規定了字段的長度、類型等）。
元數據是指從信息資源中抽取出來的用於說明其特征、內容的結構化的數據(如題名,版本、出版數據、相關說明,包括檢索點等)，用於組織、描述、檢索、保存、管理信息和知識資源。
比如，關於一本書（信息資源），我們在圖書館系統中檢索可以得到如下信息

一個基本的元數據由元數據項目和元數據內容的構成。這里，“題名”就是它的元數據項目，“史蒂夫·喬布斯傳 (美) 沃爾特·艾薩克森著 = Steve Jobs Walter Isaacson eng”就是元數據內容。再比如，“著者”、“出版者”都是元數據項目，而“艾薩克森 (Isaacson, Walter) 著”和“中信出版社”就是元數據內容。學過數據庫的應該不難理解~

利用元數據來描述資源后，我們就可以用來做很多的事情。比如確定資源，為資源提供檢索點，在不同系統之間進行數據交換。

可是，我們每個人都可以對資源進行描述，取的名字（元數據項目）和值的樣子（元數據內容）會千奇百怪怎么辦呢？
因此，就有了元數據標准。
元數據標准包括元數據結構標准（即元數據包含那些項目，都柏林核心集，MARC元素集）、元數據內容標准、元數據取值標准、元數據編碼標准（用於機讀記錄的存儲和交換，比如MARC(Machine Readable Cataloging), XML）

在這里我們詳細看一下 MARC格式（一種元數據標准）。
在傳統的圖書館中，我們購買了很多的書。圖書館員們怎么能知道自己有什么書了呢？我們就需要把每本圖書的信息，寫在一張小卡片上（有些老圖書館還有），存放在自己的圖書館里。
但是隨着計算機的發展，我們認為把書目的信息存到電腦里是更好的方法。又隨着網絡的發展，我們覺得應該來一個圖書館大聯合，把所有的圖書信息都一起存起來。但是每個圖書館都有自己的一套記錄方法。因此，MARC格式就應運而生了。MARC就是在計算機出現后為系統間交換書目數據和相關信息而設計的。

當然啦，在傳統圖書館的手工編目時期，使用的術語與現在的計算機編目不同。比如那時候我們把一本書的“元數據”寫在一張張卡片上，稱之為“款目(entry)”，而在計算機里，關於一本書的記錄，就叫做“記錄(record)”。在機讀編目中，我們把要著錄的項目（著錄項目area）叫作“字段(field)，還有等等的區別。

說了這么多，MARC格式是什么樣的呢？
可以看一下中國使用的CN-MARC格式。（CNMARC是我國參照UNIMARC（國際圖聯制定UNIMARC規范各國的MARC格式）編寫的中國MARC格式。）

它規定了關於文獻資源應該如何記錄。比如說在數據字段區，它對於101字段是這么規定的：
101 0 $a正文語種$b中間語種$c原作語種
那么我們就要編目成：
101 1 $achi $ceng （chi是中文，eng是英文）
再比如它規定210字段的編目形式如下：
210 $a出版、發行地$c出版、發行者名稱$d出版、發行日期
根據這個要求我們就要寫成
210 $a北京 $c機械工業出版社 $d2003

接下來，互聯網發展的越來越快，元數據的格式越來越多，人們對它的互操作要求也越來越高，就出現了 XML！
在利用XML描述一個文檔的時候，我們可以自己定義標簽，如”<title>”。這些小標簽都是元數據。
在網絡時代，XML作為元數據的一種表現形式是非常有潛力的。

最后我們在來看一下XML的好朋友HTML。
HTML的head里有一個 meta標簽。那么它是什么呢？
根據上面的解釋，我們應該知道它是“關於文檔的信息”了
meta的屬性有兩種，name和http-equiv.

name屬性用來描述網頁的內容，以便搜索引擎查找。比如這個網頁的keywords呀。
http-equiv屬性指示服務器在發送實際的文檔之前先在要傳送給瀏覽器的 MIME 文檔頭部包含名稱/值對。
比如
<meta http-equiv="Content-Language" contect="zh-CN">用以說明主頁制作所使用的文字以及語言

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 什么是元數據元數據--MySQL獲取元數據的方法什么是mysql中的元數據 C# “從元數據” 元數據管理 MySQL的元數據 autofac文檔：元數據 informatica元數據詳解用JDBC獲得元數據什么是元數據 (MetaData)?