今天抽空回顧了一下Spark相關的源碼,本來想要了解一下Block的管理機制,但是看着看着就回到了SparkContext的創建與使用。正好之前沒有正式的整理過這部分的內容,這次就順帶着回顧一下。 更多內容參考:我的大數據之路 Spark作為目前最流行的大數據計算框架,已經發展了幾個 ...
背景 長話短說,我們部門一個同事找到我,說他的spark . structured streaming程序頻繁報OOM,從來沒有堅持過超過三四天的,叫幫看一下。 這種事情一般我是不願意看的,因為大部分情況下spark oom就那么幾種可能: 數據量拉太大,executor內存爆了 shuffle過程中數據量太大,shuffle數太少,內存又爆了 閑着蛋疼調用collect之類的方法,把數據往di ...
2018-05-29 09:54 0 1319 推薦指數:
今天抽空回顧了一下Spark相關的源碼,本來想要了解一下Block的管理機制,但是看着看着就回到了SparkContext的創建與使用。正好之前沒有正式的整理過這部分的內容,這次就順帶着回顧一下。 更多內容參考:我的大數據之路 Spark作為目前最流行的大數據計算框架,已經發展了幾個 ...
摘要:該項目是DAYU平台的數據開發(DLF),數據開發中一個重要的功能就是ETL(數據清洗)。ETL由源端到目的端,中間的業務邏輯一般由用戶自己編寫的SQL模板實現,velocity是其中涉及的一種模板語言。 Velocity之OOM Velocity的基本使用 Velocity模板 ...
1、背景 MGR是個好東西,因為他從本質上解決了數據不一致的問題。不光是解決了問題,而且出自名門正派(Oracle的MySQL團隊),對品質和后續的維護,我們是可以期待的。 但是在調研的過程中,發現有個嚴重的bug(https://bugs.mysql.com/bug.php?id=92690 ...
概述 最近我們公司在幫一個客戶查一個JVM的問題(JDK1.8.0_191-b12),發現一個系統老是被OS Kill掉,是內存泄露導致的。在查的過程中,陰差陽錯地發現了JVM另外的一個Bug。這個Bug可能會導致大量物理內存被使用,我們已經反饋給了社區,並得到快速反饋,預計在OpenJDK8 ...
一、事件回放 今天工作時碰到了一個奇怪的問題,這個問題很早很早以前也碰到過,不過沒想到過這么久了竟然又栽在這里。 當時正在聯調一個項目,由於后端沒有提供數據接口,於是我直接本地建立了一個 json 文件,然后把配置的URL指向這個json文件,文件內容 ...
背景 在博客 惡心的0.5四舍五入問題 一文中看到一個關於 0.5 不能正確的四舍五入的問題。主要說的是 double 轉換到 BigDecimal 后,進行四舍五入得不到正確的結果: 輸出 ...
Spark 框架有兩個核心組件:Driver和Executor Driver:驅動整個應用運行起來的程序,也叫Driver類 將用戶程序轉化為作業(job) 在 Executor 之間調度任務(task) 跟蹤 Executor 的執行情況 ...
firedac odbc sql server driver連接占線導致另一個hstmt 原因:FDQuery.FetchOptions.Mode=fmOnDemand。好像是為了性能問題,不設置則默認先加載50條,這樣實際上還沒有加載完,后面又用了同一個連接再去操作另外一個FDQUERY就會 ...