一、楔子
假設現在你已經是某大型互聯網公司的高級程序員,讓你寫一個火車票購票系統,來hold住十一期間全國的購票需求,你怎么寫?
由於在同一時段搶票的人數太多,所以你的程序不可能寫在一台機器上,應該是多台機器一起分擔用戶的購票請求。
那么問題就來了,票務信息的數據存在哪里?存在文件里么?
如果存儲在文件里,那么存儲在哪一台機器上呢?是每台機器上都存儲一份么?
首先,如果其中一台機器上賣出的票另外兩台機器是感知不到的,
其次,是如果我們將數據和程序放在同一個機器上,如果程序和數據有一個出了問題都會導致整個服務不可用.\。
最后,是操作文件,修改文件對python代碼來說是一件很麻煩的事
基於上面這些問題,單純的將數據存儲在和程序同一台機器上的文件中是非常不明智的。
二、為什么用數據庫
根據上面的例子,我們已經知道:
- 將文件和程序存在一台機器上是很不合理的。
- 操作文件是一件很麻煩的事
2.1 所以就出現了一個新的概念——數據
你可以理解為 數據庫 是一個可以在一台機器上獨立工作的,並且可以給我們提供高效、便捷的方式對數據進行增刪改查的一種工具。
如此就幫助我們解決了上面出現的問題,如果將所有的數據都存儲在一個獨立的機器上,而對用戶提供服務的機器只是存放你寫的代碼。
2.2 數據庫的優勢
- 程序穩定性 :這樣任意一台服務所在的機器崩潰了都不會影響數據和另外的服務。
- 數據一致性 :所有的數據都存儲在一起,所有的程序操作的數據都是統一的,就不會出現數據不一致的現象
- 並發 :數據庫可以良好的支持並發,所有的程序操作數據庫都是通過網絡,而數據庫本身支持並發的網絡操作,不需要我們自己寫socket
- 效率 :使用數據庫對數據進行增刪改查的效率要高出我們自己處理文件很多
三、認識數據庫
3.1 什么是數據(Data)
描述事物的符號記錄稱為數據,描述事物的符號既可以是數字,也可以是文字、圖片,圖像、聲音、語言等,數據由多種表現形式,它們都可以經過數字化后存入計算機
在計算機中描述一個事物,就需要抽取這一事物的典型特征,組成一條記錄,就相當於文件里的一行內容,如:tank,不詳,83,1935,廣東,oldboy
單純的一條記錄並沒有任何意義,如果我們按逗號作為分隔,依次定義各個字段的意思,相當於定義表的標題:
id,name,sex,age,birth,born_addr,company # 字段/列名
1,tank,不詳,83,1935,山東,oldboy # 數據
這樣我們就可以了解tank,性別不詳,年齡83歲,出生於1935年,住的養老院是老男孩
3.2 什么是數據庫(DataBase,簡稱DB)
數據庫即存放數據的倉庫,只不過這個倉庫是在計算機存儲設備上,而且數據是按一定的格式存放的。
過去人們將數據存放在文件櫃里,現在數據量龐大,已經不再適用。
數據庫是長期存放在計算機內、有組織、可共享的數據集合。
數據庫中的數據按一定的數據模型組織、描述和儲存,具有較小的冗余度、較高的數據獨立性和易擴展性,並可為各種用戶共享。
3.3 什么是數據庫管理系統(DataBase Management System 簡稱DBMS)
在了解了Data與DB的概念后,如何科學地組織和存儲數據,如何高效獲取和維護數據成了關鍵。
這就用到了一個系統軟件---數據庫管理系統,如MySQL、Oracle、SQLite、Access、MS SQL Server。
-
mysql主要用於大型門戶,例如搜狗、新浪等,它主要的優勢就是開放源代碼,因為開放源代碼這個數據庫是免費的,他現在是甲骨文公司的產品。
-
oracle主要用於銀行、鐵路、飛機場等。該數據庫功能強大,軟件費用高。也是甲骨文公司的產品。
-
sql server是微軟公司的產品,主要應用於大中型企業,如聯想、方正等。
而對數據庫管理的人員一般稱之為:數據庫管理員 DBA(Database Administrator)
3.4 數據庫服務器、數據管理系統、數據庫、表與記錄的關系(重點)
記錄:1 老王 15201413111 22(多個字段的信息組成一條記錄,即文件中的一行內容)
表:userinfo,studentinfo,courseinfo(即文件)
數據庫:db(即文件夾)
數據庫管理系統:如mysql(是一個軟件)
數據庫服務器:一台計算機(對內存要求比較高)
總結:
- 數據庫服務器:運行數據庫管理軟件
- 數據庫管理軟件:管理數據庫
- 數據庫:即文件夾,用來組織文件/表
- 表:即文件,用來存放多行內容/多條記錄
四、數據庫管理技術的發展歷程(了解)
4.1 人工管理階段
20世紀50年代中期以前,計算機主要用於科學計算。
當時的硬件水平:外存只有紙帶、卡片、磁帶,沒有磁盤等直接存取的存儲設備
當時的軟件狀況:沒有操作系統,沒有管理數據的軟件,數據的處理方式是批處理。
人工管理數據具有以下特點:
- 數據不保存:計算機主要用於科學計算,數據臨時用,臨時輸入,不保存
- 應用程序管理數據:數據要有應用程序自己管理,應用程序需要處理數據的邏輯+物理結構,開發負擔很重
- 數據不共享:一組數據只對應一個程序,多個程序之間涉及相同數據時,必須各自定義,造成數據大量冗余
- 數據不具有獨立性:數據的邏輯結構或物理結構發生變化后,必須對應用程序做出相應的修改,開發負擔進一步加大
4.2 文件系統階段
20世紀50年代后期到60年代中期
硬件水平:有了磁盤、磁鼓等可直接存取的存儲設備
軟件水平:有了操作系統,並且操作系統中已經有了專門的數據管理軟件,即文件系統;處理方式上不僅有了批處理,而且能夠聯機實時處理
文件系統管理數據具有以下優點:
- 數據可以長期保存:計算機大量用於數據處理,因而數據需要長期保存,進行增刪改查操作
- 由文件系統管理數據:文件系統這個軟件,把數據組織成相對獨立的數據文件,利用按文件名,按記錄進行存取。實現了記錄內的結構性,但整體無結構。並且程序與數據之間由文件系統提供存取方法進行轉換,是應用程序與數據之間有了一定的獨立性,程序員可以不必過多考慮物理細節。
文件系統管理數據具有以下缺點:
- 數據共享性差,冗余度大:一個文件對應一個應用程序,不同應用有相同數據時,也必須建立各自的文件,不能共享相同的數據,造成數據冗余,浪費空間,且相同的數據重復存儲,各自管理,容易造成數據不一致性
- 數據獨立性差:一旦數據的邏輯結構改變,必須修改應用程序,修改文件結構的定義。應用程序的改變,也將引起文件的數據結構的改變。因此數據與程序之間缺乏獨立性。可見,文件系統仍然是一個不具有彈性的無結構的數據集合,即文件之間是孤立的,不能反映現實世界事物之間的內存聯系。
4.3 數據系統階段
20世紀60年代后期以來,計算機用於管理的規模越來越大,應用越來越廣泛,數據量急劇增長,同時多種應用,多種語言互相覆蓋地共享數據結合要求越來越強烈
硬件水平:有了大容量磁盤,硬件架構下降
軟件水平:軟件價格上升(開發效率必須提升,必須將程序員從數據管理中解放出來),分布式的概念盛行。
數據庫系統的特點:
- 數據結構化(如上圖odboy_stu)
- 數據共享,冗余度低,易擴充
- 數據獨立性高
- 數據由DBMS統一管理和控制
- 數據的安全性保護
- 數據的完整性檢查
- 並發控制
- 數據庫恢復