網頁大文件分片上傳/多線程上傳

本文轉載自查看原文 2020-05-26 15:23 614

1 背景

用戶本地有一份txt或者csv文件，無論是從業務數據庫導出、還是其他途徑獲取，當需要使用螞蟻的大數據分析工具進行數據加工、挖掘和共創應用的時候，首先要將本地文件上傳至ODPS，普通的小文件通過瀏覽器上傳至服務器，做一層中轉便可以實現，但當這份文件非常大到了10GB級別，我們就需要思考另一種形式的技術方案了，也就是本文要闡述的方案。

技術要求主要有以下幾方面：

支持超大數據量、10G級別以上
穩定性：除網絡異常情況100%成功
准確性：數據無丟失，讀寫准確性100%
效率：1G文件分鍾級、10G文件小時級
體驗：實時進度感知、網絡異常斷點續傳、定制字符特殊處理

2 文件上傳選型

文件上傳至ODPS基本思路是先文件上傳至某中轉區域存儲，然后同步至ODPS，根據存儲介質可以分為兩類，一類是應用服務器磁盤，另一類類是中間介質，OSS作為阿里雲推薦的海量、安全低成本雲存儲服務，並且有豐富的API支持，成為中間介質的首選。而文件上傳至OSS又分為web直傳和sdk上傳兩種方案，因此上傳方案有如下三種，詳細優缺點對比如下：

螞蟻的文本上傳功能演進過程中對第一種、第二種方案均有實踐，缺點比較明顯，如上表所述，不滿足業務需求，因此大文件上傳終極方案是方案三。

3 整體方案

以下是方案三的整體過程示意圖。

請求步驟如下：

用戶向應用服務器取到上傳policy和回調設置。
應用服務器返回上傳policy和回調。
用戶直接向OSS發送文件上傳請求。
等文件數據上傳完，OSS給用戶Response前，OSS會根據用戶的回調設置，請求用戶的服務器。如果應用服務器返回成功，那么就返回用戶成功，如果應用服務器返回失敗，那么OSS也返回給用戶失敗。這樣確保了用戶上傳成功，應用服務器已經收到通知了。
應用服務器給OSS返回。
OSS將應用服務器返回的內容返回給用戶。
啟動后台同步引擎執行oss到odps的數據同步。
同步實時進度返回返回給應用服務器，同時展示給用戶。

4 技術方案

4.1 上傳

OSS提供了豐富的SDK，有簡單上傳、表單上傳、斷點續傳等等，對於超大文件提供的上傳功能建議采用斷點續傳方式，優點是可以對大文件並行分片上傳，利用OSS的並行處理能力，中間暫停也可以從當前位置繼續上傳，網絡環境影響可以降到最低。

4.2 下載

OSS文件下載同樣也有多種方式，普通下載、流式下載、斷點續傳下載、范圍下載等等，若直接下載到本地同樣建議斷點續傳下載，但我們的需求並不僅僅是下載文件本地存儲，而是讀取文件做數據從OSS到ODPS的同步，因此不做中間存儲，直接邊讀變寫，一方面采用OSS流式讀取，一方面ODPS tunnel上傳，用多線程讀寫方式提高同步速率。

4.3 兩階段數據轉移

文件從本地到ODPS可以分為兩個階段，第一階段前端分片斷點續傳將本地文件上傳至OSS，第二階段后端流式讀寫將數據從OSS同步至ODPS，如下圖所示：

涉及技術點：

4.3.1 前端，js sdk帶STS token 安全上傳

在需要上傳的文件較大時，可以通過multipartUpload接口進行分片上傳。分片上傳的好處是將一個大請求分成多個小請求來執行，這樣當其中一些請求失敗后，不需要重新上傳整個文件，而只需要上傳失敗的分片就可以了。一般對於大於100MB的文件，建議采用分片上傳的方法，每次進行分片上傳都建議重新new一個新的OSS實例。

阿里雲分片上傳流程主要會調用3個api，包含

InitiateMultipartUpload, 分片任務初始化接口。
UploadPart, 單獨的分片上傳接口。
CompleteMultipartUpload, 分片上傳完成后任務完成接口

臨時訪問憑證是通過阿里雲Security Token Service(STS)來實現授權的一種方式。其實現請參見STS Java SDK。臨時訪問憑證的流程如下：

客戶端向服務器端發起獲得授權的請求。服務器端先驗證客戶端的合法性。如果是合法客戶端，那么服務器端會使用自己的AccessKey來向STS發起一個請求授權的請求，具體可以參考訪問控制。
服務器端獲取臨時憑證之后返回給客戶端。
客戶端使用獲取的臨時憑證來發起向OSS的上傳請求，更詳細的請求構造可以參考臨時授權訪問。客戶端可以緩存該憑證用來上傳，直到憑證失效再向服務器端請求新的憑證。

4.3.2 后端，多線程流式讀寫

OSS端：如果要下載的文件太大，或者一次性下載耗時太長，可以多線程流式下載，一次處理部分內容，直到完成文件的下載。
ODPS端：tunnel sdk對OSS流式數據直接寫入，一次完整的數據寫入流程通常包括以下步驟：
先對數據進行划分;

為每個數據塊指定 block id，即調用 openRecordWriter(id);
然后用一個或多個線程分別將這些 block 上傳上去, 並在某個 block 上傳失敗以后，需要對整個 block 進行重傳;
在所有 block 都上傳以后，向服務端提供上傳成功的 blockid list 進行校驗，即調用 session.commit([1,2,3,…])
而由於服務端對block管理，連接超時等的一些限制，上傳過程邏輯變得比較復雜，為了簡化上傳過程，SDK提供了更高級的一種RecordWriter——TunnelBufferWriter。

5 實現過程及壓測

太多了，可以參考我寫的這篇文章：http://blog.ncmem.com/wordpress/2019/08/09/%e5%a4%a7%e6%96%87%e4%bb%b6%e4%b8%8a%e4%bc%a0%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88/

6 總結

實測結果顯示，本文的上傳方案實現了第一節提出的幾點技術要求，如下：

支持超大數據量、10G級別以上沒有任何壓力，主要是前端在分片上傳設置好分片限額即可（最大10000片，每片最大100G），目前設置每片1M滿足10G需求。
穩定性：實測觀察網絡異常情況較少，文件內容正常情況下100%成功。
准確性：實測數據無丟失，讀寫准確性100%。
效率：辦公網帶寬1.5M/s的情況下1G文件分鍾級、10G文件小時級，實際速度視用戶端的當前網絡帶寬變化。
體驗：實時進度感知、網絡異常斷點續傳、定制字符特殊處理等高級功能可以提升用戶體驗。

歡迎入群一起討論：374992201

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 JS大文件分片上傳/多線程上傳 Java大文件分片上傳/多線程上傳 Java大文件分片上傳/多線程上傳方案 Java大文件分片上傳/多線程上傳功能 C#.NET大文件分片上傳/多線程上傳 Nginx大文件分片上傳/多線程上傳 Java大文件分片上傳/多線程上傳示例 SpringBoot大文件分片上傳/多線程上傳 Web大文件分片上傳/多線程上傳前端大文件分片上傳/多線程上傳