關系與非關系型數據庫


NoSQL,指的是非關系數據庫。由上面的敘述可以看到關系型數據庫中的表都是存儲一下格式化的數據結構,每個元組字段的組成都是一樣的,即使不是每個元組都需要所有的字段,但數據庫會為每個元組都分配所有的字段,這樣的結構可以便於表與表之間進行連接等操作,但從另一個角度來說它也是關系數據庫性能瓶頸的一個因素。而非關系數據庫以鍵值對存儲,它的結構不固定,每一個元組可以有不一樣的字段,每個元組可以根據需要增加或減少一些自己的鍵值對,這樣就不會局限於固定的結構,可以減少一些時間和空間的開銷。

關系型數據庫以行和列的形式存儲數據,以便於用戶理解。這一系列的行和列被稱為表,一組表組成了數據庫。用戶用查詢(Query)來檢索數據庫中的數據。一個Query是一個用於指定數據庫中行和列的SELECT語句。關系型數據庫通常包含下列組件:
  客戶端應用程序(Client)
  數據庫服務器(Server)
  數據庫(Database)
  Structured Query Language(SQL)Client端和Server端的橋梁,Client用SQL來象Server端發送請求,Server返回Client端要求的結果。現在流行的大型關系型數據庫有IBM DB2、IBM UDB、Oracle、SQL Server、SyBase、Informix等。 
  關系型數據庫管理系統中儲存與管理數據的基本形式是二維表。
關系型數據庫是一組已經被組織為表結構的信息的集合。這些信息以表的形式被存儲於磁盤、磁帶等物理介質中。每個表可以有多行,而每行又被拆分成多列。

關系型數據庫一整套數學理論基礎,例如關系代數和關系運算是關系型數據庫的只要理論基礎。

日常生活中我們對表結構非常熟悉,例如學生的成績表,課程表等,這些表格都是以行和列的二維方式來將信息組織在一起。這些信息可以以各種形式存在,例如打印在紙上,顯示在電腦的屏幕上,記錄在人們的腦海里,存在服務器的磁盤里等等。

現在需要一種方便的手段來管理這些信息,最好是隨時能查詢,新增,刪除和更新的,這就是數據

 

關系:

·關系是滿足一定條件的二維表,表中的一行稱為關系的一個元組,用來存儲事物的一個實例;表中

 

的一列稱為關系的一個屬性,用來描述實體的某一特征。表是由一組相關實體組成的集合。所以表和

 

實體集這兩個詞常常可以交替使用。

 

·關系是一個行與列交叉的二維表,每一列(屬性)的所有數據都是同一種數據類型,每一列都有唯

 

一的列名,列在表中的順序無關緊要;表中的任意兩行(元組)不能相同,行在表中的順序也無關緊

 

 

關系的特征:

·關系的每一行定義實體集的一個實體,每一列定義實體的一個屬性

·每一行必須有一個主碼,主碼是一個屬性組(可以是一個屬性),它能唯一標識一個實體

·每一列表示一個屬性,且列名不能重復

·列的每個值必須與對應屬性的類型相同

·列有取值范圍,稱為域

·列是不可分割的最小數據項

·行、列的順序對用戶無關緊要

 

關系型數據庫把所有的數據都通過行和列的二元表現形式表示出來。

 

關系型數據庫的優勢:

1. 保持數據的一致性(事務處理)

2.由於以標准化為前提,數據更新的開銷很小(相同的字段基本上都只有一處)

3. 可以進行Join等復雜查詢

其中能夠保持數據的一致性是關系型數據庫的最大優勢。

 

關系型數據庫的不足:

不擅長的處理

1. 大量數據的寫入處理

2. 為有數據更新的表做索引或表結構(schema)變更

3. 字段不固定時應用

4. 對簡單查詢需要快速返回結果的處理

--大量數據的寫入處理

讀寫集中在一個數據庫上讓數據庫不堪重負,大部分網站已使用主從復制技術實現讀寫分離,以提高讀寫性能和讀庫的可擴展性。

所以在進行大量數據操作時,會使用數據庫主從模式。數據的寫入由主數據庫負責,數據的讀入由從數據庫負責,可以比較簡單地通過增加從數據庫來實現規模化,但是數據的寫入卻完全沒有簡單的方法來解決規模化問題。

第一,要想將數據的寫入規模化,可以考慮把主數據庫從一台增加到兩台,作為互相關聯復制的二元主數據庫使用,確實這樣可以把每台主數據庫的負荷減少一半,但是更新處理會發生沖突,可能會造成數據的不一致,為了避免這樣的問題,需要把對每個表的請求分別分配給合適的主數據庫來處理。

第二,可以考慮把數據庫分割開來,分別放在不同的數據庫服務器上,比如將不同的表放在不同的數據庫服務器上,數據庫分割可以減少每台數據庫服務器上的數據量,以便減少硬盤IO的輸入、輸出處理,實現內存上的高速處理。但是由於分別存儲字不同服務器上的表之間無法進行Join處理,數據庫分割的時候就需要預先考慮這些問題,數據庫分割之后,如果一定要進行Join處理,就必須要在程序中進行關聯,這是非常困難的。

 

 

--為有數據更新的表做索引或表結構變更

在使用關系型數據庫時,為了加快查詢速度需要創建索引,為了增加必要的字段就一定要改變表結構,為了進行這些處理,需要對表進行共享鎖定,這期間數據變更、更新、插入、刪除等都是無法進行的。如果需要進行一些耗時操作,例如為數據量比較大的表創建索引或是變更其表結構,就需要特別注意,長時間內數據可能無法進行更新。

 

--字段不固定時的應用

如果字段不固定,利用關系型數據庫也是比較困難的,有人會說,需要的時候加個字段就可以了,這樣的方法也不是不可以,但在實際運用中每次都進行反復的表結構變更是非常痛苦的。你也可以預先設定大量的預備字段,但這樣的話,時間一長很容易弄不清除字段和數據的對應狀態,即哪個字段保存有哪些數據。

--對簡單查詢需要快速返回結果的處理  (這里的“簡單”指的是沒有復雜的查詢條件)

這一點稱不上是缺點,但不管怎樣,關系型數據庫並不擅長對簡單的查詢快速返回結果,因為關系型數據庫是使用專門的sql語言進行數據讀取的,它需要對sql與越南進行解析,同時還有對表的鎖定和解鎖等這樣的額外開銷,這里並不是說關系型數據庫的速度太慢,而只是想告訴大家若希望對簡單查詢進行高速處理,則沒有必要非使用關系型數據庫不可。

---------------------------

NoSQL數據庫

關系型數據庫應用廣泛,能進行事務處理和表連接等復雜查詢。相對地,NoSQL數據庫只應用在特定領域,基本上不進行復雜的處理,但它恰恰彌補了之前所列舉的關系型數據庫的不足之處。

優點:

 易於數據的分散

各個數據之間存在關聯是關系型數據庫得名的主要原因,為了進行join處理,關系型數據庫不得不把數據存儲在同一個服務器內,這不利於數據的分散,這也是關系型數據庫並不擅長大數據量的寫入處理的原因。相反NoSQL數據庫原本就不支持Join處理,各個數據都是獨立設計的,很容易把數據分散在多個服務器上,故減少了每個服務器上的數據量,即使要處理大量數據的寫入,也變得更加容易,數據的讀入操作當然也同樣容易。

 

典型的NoSQL數據庫

臨時性鍵值存儲(memcached、Redis)、永久性鍵值存儲(ROMA、Redis)、面向文檔的數據庫(MongoDB、CouchDB)、面向列的數據庫(Cassandra、HBase)

一、 鍵值存儲

它的數據是以鍵值的形式存儲的,雖然它的速度非常快,但基本上只能通過鍵的完全一致查詢獲取數據,根據數據的保存方式可以分為臨時性、永久性和兩者兼具 三種。

(1)臨時性

      所謂臨時性就是數據有可能丟失,memcached把所有數據都保存在內存中,這樣保存和讀取的速度非常快,但是當memcached停止時,數據就不存在了。由於數據保存在內存中,所以無法操作超出內存容量的數據,舊數據會丟失。總結來說:

      。在內存中保存數據

      。可以進行非常快速的保存和讀取處理

      。數據有可能丟失

 (2)永久性

       所謂永久性就是數據不會丟失,這里的鍵值存儲是把數據保存在硬盤上,與臨時性比起來,由於必然要發生對硬盤的IO操作,所以性能上還是有差距的,但數據不會丟失是它最大的優勢。總結來說:

       。在硬盤上保存數據

       。可以進行非常快速的保存和讀取處理(但無法與memcached相比)

       。數據不會丟失

(3) 兩者兼備

       Redis屬於這種類型。Redis有些特殊,臨時性和永久性兼具。Redis首先把數據保存在內存中,在滿足特定條件(默認是 15分鍾一次以上,5分鍾內10個以上,1分鍾內10000個以上的鍵發生變更)的時候將數據寫入到硬盤中,這樣既確保了內存中數據的處理速度,又可以通過寫入硬盤來保證數據的永久性,這種類型的數據庫特別適合處理數組類型的數據。總結來說:

       。同時在內存和硬盤上保存數據

       。可以進行非常快速的保存和讀取處理

       。保存在硬盤上的數據不會消失(可以恢復)

       。適合於處理數組類型的數據

     

二、面向文檔的數據庫

   MongoDB、CouchDB屬於這種類型,它們屬於NoSQL數據庫,但與鍵值存儲相異。

   (1)不定義表結構

     即使不定義表結構,也可以像定義了表結構一樣使用,還省去了變更表結構的麻煩。

   (2)可以使用復雜的查詢條件 

     跟鍵值存儲不同的是,面向文檔的數據庫可以通過復雜的查詢條件來獲取數據,雖然不具備事務處理和Join這些關系型數據庫所具有的處理能力,但初次以外的其他處理基本上都能實現。

三、 面向列的數據庫

   Cassandra、HBae、HyperTable屬於這種類型,由於近年來數據量出現爆發性增長,這種類型的NoSQL數據庫尤其引入注目。

   普通的關系型數據庫都是以行為單位來存儲數據的,擅長以行為單位的讀入處理,比如特定條件數據的獲取。因此,關系型數據庫也被成為面向行的數據庫。相反,面向列的數據庫是以列為單位來存儲數據的,擅長以列為單位讀入數據。

面向列的數據庫具有搞擴展性,即使數據增加也不會降低相應的處理速度(特別是寫入速度),所以它主要應用於需要處理大量數據的情況。另外,把它作為批處理程序的存儲器來對大量數據進行更新也是非常有用的。但由於面向列的數據庫跟現行數據庫存儲的思維方式有很大不同,故應用起來十分困難。

 

總結:關系型數據庫與NoSQL數據庫並非對立而是互補的關系,即通常情況下使用關系型數據庫,在適合使用NoSQL的時候使用NoSQL數據庫,讓NoSQL數據庫對關系型數據庫的不足進行彌補。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM