海量數據的解決方案

本文轉載自查看原文 2017-02-15 08:53 2589 網站解決方案

1. 緩存和頁面靜態化
　　數據量大這個問題最直接的解決方案就是使用緩存，緩存就是將從數據庫中獲取的結果暫時保存起來，在下次使用的時候無需重新到數據庫中獲取，這樣可以大大降低數據庫的壓力。

　　緩存的使用方式可以分為通過程序直接保存到內存中和使用緩存框架兩種方式。程序直接操作主要是使用 Map，尤其是 ConcurrentHashMap，而常用的緩存框架有 Ehcache、 Memcache 和 Redis 等。緩存使用過程中最重要問題是什么時候創建緩存和緩存的失效機制。緩存可以在第一次獲取的時候創建也可以在程序啟動和緩存失效之后立即創建，緩存的失效可以定期失效，也可以在數據發生變化的時候失效，如果按數據發生變化讓緩存失效，還可以分粗粒度失效和細粒度失效。

　　不過緩存也不是什么情況都適用，它主要用於數據變化不是很頻繁的情況。而且如果是定期失效（數據修改時不失效）的失效機制，實時性要求也不能太高，因為這樣緩存中的數據和真實數據可能會不一致。如果是文章的評論則關系不是很大，但如果是企業業務系統中要生成報表的數據則問題就大了。

　　跟緩存相似的另外一種技術叫頁面靜態化，它在原理上跟緩存非常相似，緩存是將從數據庫中獲取到的數據（當然也可以是別的任何可以序列化的東西）保存起來，而頁面靜態化是將程序最后生成的頁面保存起來，使用頁面靜態化后就不需要每次調用都重新生成頁面了，這樣不但不需要查詢數據庫，而且連應用程序處理都省了，所以頁面靜態化同時對數據量大和並發量高兩大問題都有好處。

　　頁面靜態化可以在程序中使用模板技術生成，如常用的Freemarker 和 Velocity 都可以根據模板生成靜態頁面，另外也可以使用緩存服務器在應用服務器的上一層緩存生成的頁面，如可以使用 Squid，另外 Nginx 也提供了相應的功能。

2 .數據庫優化

　　要解決數據量大的問題，是避不開數據庫優化的。數據庫優化可以在不增加硬件的情況下提高處理效率，這是一種用技術換金錢的方式。數據庫優化的方法非常多，常用的有表結構優化、 SQL 語句優化、分區和分表、索引優化、使用存儲過程代替直接操作等，另外有時候合理使用冗余也能獲得非常好的效果。

表結構優化

　　表結構優化是數據庫中最基礎也是最重要的，如果表結構優化得不合理，就可能導致嚴重的性能問題，具體怎么設計更合理也沒有固定不變的准則，需要根據實際情況具體處理。

SQL語句優化

　　SQL語句優化也是非常重要的，基礎的 SQL 優化是語法層面的優化，不過更重要的是處理邏輯的優化，這也需要根據實際情況具體處理，而且要和索引緩存等配合使用。不過 SQL 優化有一個通用的做法就是，首先要將涉及大數據的業務的 SQL 語句執行時間詳細記錄下來，其次通過仔細分析日志（同一條語句對不同條件的執行時間也可能不同，這點也需要仔細分析）找出需要優化的語句和其中的問題，然后再有的放矢地優化，而不是不分重點對每條語句都花同樣的時間和精力優化。

分區

　　當數據量變多的時候，如果可以分區或者分表，那將起到非常好的效果。當一張表中的數據量變多的時候操作速度就慢了，所以很容易想到的就是將數據分到多個表中保存，但是這么做之后操作起來比較麻煩，想操作（增刪改查）一個數據還需要先找到對應的表，如果涉及多個表還得跨表操作。其實在常用的數據庫中可以不分表而達到跟分表類似的效果，那就是分區。分區就是將一張表中的數據按照一定的規則分到不同的區來保存，這樣在查詢數據時如果數據的范圍在同一個區內那么可以只對一個區的數據進行操作，這樣操作的數據量更少，速度更快，而且這種方法對程序是透明的，程序不需要做任何改動。

分表

　　如果一張表中的數據可以分為幾種固定不變的類型，而且如果同時對多種類型共同操作的情況不多，那么都可以通過分表來處理，這也需要具體情況具體對待。筆者之前對一個業務系統進行重構開發時就將其中保存工人工作卡片的數據表分成了三個表，並且對每個表進行分區，在同時使用緩存（主要用於在保存和修改時對其他表的數據獲取中，如根據工人 Id 獲取工人姓名、工人類別、所在單位、所在工段及班組等信息）、索引、 SQL 優化等的情況下操作速度比原來提高了 100 倍以上。那時的分表是按照工作卡片的類型來划分的，因為當時的要求是要保留所有的記錄。比如，修改了卡片的信息，則需要保存是誰在什么時候對卡片進行修改，修改前的數據是什么，添加刪除也一樣，這種需求一般的做法就是用一個字段來做卡片狀態的標志位，將卡片分成不同的類型。不過這里由於數據量非常大所以就將卡片分別保存到了到了三個表中，第一個表保存正常卡片，第二個表保存刪除后的卡片，第三個表保存修改之前的卡片，並且對每個表都進行了分區。由於報表一般是按月份、季度、半年和年來做的，所以分區是按月份來分的，每個月一個分區，這樣問題就解決了。當然隨着時間的推移，如果總數據量達到一定程度，還需要進一步處理。

　　另外一種分表的方法是將一個表中不同類型的字段分到不同的表中保存，這么做最直接的好處就是增刪改數據的時候鎖定的范圍減小了，沒被鎖定的表中的數據不受影響。如果一個表的操作頻率很高，在增刪改其中一部分字段數據的同時另一部分字段也可能被操作，而且（主要指查詢）用不到被增刪改的字段，那么就可以把不同類型的字段分別保存到不同的表中，這樣可以減少操作時鎖定數據的范圍。不過這樣分表之后，如果需要查詢完整的數據就得使用多表操作了。

索引優化

　　索引的大致原理是在數據發生變化（增刪改）的時候就預先按指定字段的順序排列后保存到一個類似表的結構中，這樣在查找索引字段為條件的記錄時就可以很快地從索引中找到對應記錄的指針並從表中獲取到記錄，這樣速度就快多了。不過索引也是一把雙刃劍，它在提高查詢速度的同時也降低了增刪改的速度，因為每次數據的變化都需要更新相應的索引。不過合理使用索引對提升查詢速度的效果非常明顯，所以對哪些字段使用索引、使用什么類型的索引都需要仔細琢磨，並且最好再做一些測試。

使用存儲過程代替直接操作

　　在操作過程復雜而且調用頻率高的業務中，可以通過使用存儲過程代替直接操作來提高效率，因為存儲過程只需要編譯一次，而且可以在一個存儲過程里面做一些復雜的操作。

　　上面這些就是經常用到的數據庫優化的方法，實際環境中怎么優化還得具體情況具體分析。除了這些優化方法，更重要的是業務邏輯的優化。

3.分離活躍數據

　　雖然有些數據總數據量非常大，但是活躍數據並不多，這種情況就可以將活躍數據單獨保存起來從而提高處理效率。比如，對網站來說，用戶很多時候就是這種數據，注冊用戶很多，但是活躍用戶卻不多，而不活躍的用戶中有的偶爾也會登錄網站，因此還不能刪除。這時就可以通過一個定期處理的任務將不活躍的用戶轉移到別的數據表中，在主要操作的數據表中只保存活躍用戶，查詢時先從默認表中查找，如果找不到再從不活躍用戶表中查找，這樣就可以提高查詢的效率。判斷活躍用戶可以通過最近登錄時間，也可以通過指定時間段內登錄次數。除了用戶外還有很多這種類型的數據，如一個網站上的文章（特別是新聞類的）、企業業務系統中按時間記錄的數據等。

4.批量讀取和延遲修改

　　批量讀取和延遲修改的原理是通過減少操作的次數來提高效率，如果使用得恰當，效率將會呈數量級提升。批量讀取是將多次查詢合並到一次中進行，比如，在一個業務系統中需要批量導入工人信息，在導入前需要檢查工人的編碼是否已經在數據庫中、工人對應的部門信息是否正確（在部門表中是否存在）、工人的工種信息在工種表中是否存在等，如果每保存一條記錄都查詢一次數據庫，那么對每個需要檢查的字段，都需要查詢與要保存的記錄條數相同次數的數據庫，這時可以先將所有要保存的數據的相應字段讀取到一個變量中，然后使用 in 語句統一查詢一次數據庫，這樣就可以將 n（要保存記錄的條數）次查詢變為一次查詢了。除了這種對同一個請求中的數據批量讀取，在高並發的情況下還可以將多個請求的查詢合並到一次進行，如將 3 秒或 5 秒內的所有請求合並到一起統一查詢一次數據庫，這樣就可以有效減少查詢數據庫的次數，這種類型可以用異步請求來處理。

　　延遲修改主要針對高並發而且頻繁修改（包括新增）的數據，如一些統計數據。這種情況可以先將需要修改的數據暫時保存到緩存中，然后定時將緩存中的數據保存到數據庫中，程序在讀取數據時可以同時讀取數據庫中和緩存中的數據。這里的緩存和前面介紹的緩存有本質的區別，前面的緩存在使用過程中，數據庫中的數據一直是最完整的，但這里數據庫中的數據會有一段時間不完整。這種方式下如果保存緩存的機器出現了問題將可能會丟失數據，所以如果是重要的數據就需要做一些特殊處理。筆者之前所在的單位有一個系統需要每月月末各廠分別導入自己廠當月的相應數據，每到月末那個系統就處於基本癱瘓的狀態了，而且各廠從整理出數據到導入系統只有幾天的時間，所以有的廠就專門等晚上人少的時候才進行操作，對於這種情況就可采用延遲修改的策略來解決。

5.讀寫分離
　　讀寫分離的本質是對數據庫進行集群，這樣就可以在高並發的情況下將數據庫的操作分配到多個數據庫服務器去處理從而降低單台服務器的壓力，不過由於數據庫的特殊性—— 每台服務器所保存的數據都需要一致，所以數據同步就成了數據庫集群中最核心的問題。如果多台服務器都可以寫數據那么數據同步將變得非常復雜，所以一般情況下是將寫操作交給專門的一台服務器處理，這台專門負責寫的服務器叫做主服務器。當主服務器寫入（增刪改）數據后從底層同步到別的服務器（從服務器），讀數據的時候到從服務器服務器讀取，從服務器可以有多台，這樣就可以實現讀寫分離，並且將讀請求分配到多個服務器處理。主服務器向從服務器同步數據時，如果從服務器數量多，那么可以讓主服務器先向其中一部分從服務器同步數據，第一部分從服務器接收到數據后再向另外一部分同步，這時的結構如圖 1- 5 所示。

6.分布式數據庫
　　分布式數據庫是將不同的表存放到不同的數據庫中然后再放到不同的服務器。這樣在處理請求時，如果需要調用多個表，則可以讓多台服務器同時處理，從而提高處理速度。

　　數據庫集群（讀寫分離）的作用是將多個請求分配到不同的服務器處理，從而減輕單台服務器的壓力，而分布式數據庫是解決單個請求本身就非常復雜的問題，它可以將單個請求分配到多個服務器處理，使用分布式后的每個節點還可以同時使用讀寫分離，從而組成多個節點群，結構圖如圖 1- 6 所示。

　　實際使用中分布式數據庫有很多復雜的問題需要解決，如事務處理、多表查詢等。分布式的另外一種使用的思路是將不同業務的數據表保存到不同的節點，讓不同的業務調用不同的數據庫，這種用法其實是和集群一樣起分流的作用，不過這種情況就不需要同步數據了。使用后面這種思路時架構還是和上面圖中的一樣，所以技術和架構只是一個工具，真正重要的是思路，也就是工具的使用方法。
7.NoSQL和Hadoop

　　NoSQL 是近年來發展非常迅速的一項技術，它的核心就是非結構化。我們一般使用的數據庫（ SQL 數據庫）都是需要先將表的結構定義出來，一個表有幾個字段，每個字段各是什么類型，然后才能往里面按照相應的類型保存數據，而且按照數據庫范式的規定，一個字段只能保存單一的信息，不可以包括多層內容，這就對使用的靈活性帶來了很大的制約， NoSQL 就是突破了這些條條框框，可以非常靈活地進行操作，另外因為 NoSQL 通過多個塊存儲數據的特點，其操作大數據的速度也非常快，這些特性正是現在的互聯網程序最需要的，所以 NoSQL 發展得非常快。現在 NoSQL 主要使用在互聯網的程序中，在企業業務系統中使用的還不多，而且現在 NoSQL 還不是很成熟，但由於靈活和高效的特性， NoSQL 發展的前景是非常好的。

　　Hadoop 是專門針對大數據處理的一套框架，隨着近年來大數據的流行 Hadoop 也水漲船高，出世不久就紅得發紫。 Hadoop 對數據的存儲和處理都提供了相應的解決方案，底層數據的存儲思路類似於 1. 4. 6 節介紹的分布式加集群的方案，不過 Hadoop 是將同一個表中的數據分成多塊保存到多個節點（分布式），而且每一塊數據都有多個節點保存（集群），這里集群除了可以並行處理相同的數據，還可以保證數據的穩定性，在其中一個節點出現問題后數據不會丟失。這里的每個節點都不包含一個完整的表的數據，但是一個節點可以保存多個表的數據，結構圖如圖 1- 7 所示。

　　Hadoop 對數據的處理是先對每一塊的數據找到相應的節點並進行處理，然后再對每一個處理的結果進行處理，最后生成最終的結果。比如，要查找符合條件的記錄， Hadoop 的處理方式是先找到每一塊中符合條件的記錄，然后再將所有獲取到的結果合並到一起，這樣就可以將同一個查詢分到多個服務器處理，處理的速度也就快了，這一點傳統的數據庫是做不到的。

來自：韓路彪著. 看透Spring MVC：源代碼分析與實踐 (Web開發技術叢書)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 海量數據和高並發解決方案 Mysql分表查詢海量數據和解決方案 Mysql海量數據存儲和解決方案之一—分布式DB方案海量數據存儲的解決方案（分布式數據庫）（面試）大型網站應用之海量數據、高並發解決方案海量數據處理方案海量數據、高並發的優化方案 memcached數據遷移問題及解決方案 MongoDB數據重復解決方案數據同步解決方案-canal與rabbitmq