一、概述
在實際應用中經常會碰到CSV文件帶有表頭的情況,Spark對CSV文件有響應的跳過表頭的方法,Txt格式的文件沒有響應的方法,需要加一個過濾器。
二、實現方法
如果第一條記錄中只有一個標題行,那么過濾它的最有效方法是:
rdd.mapPartitionsWithIndex {
(idx, iter) => if (idx == 0) iter.drop(1) else iter }
即使用索引的方法把第一行過濾掉,這個只適合於去除第一行表頭。
在實際應用中經常會碰到CSV文件帶有表頭的情況,Spark對CSV文件有響應的跳過表頭的方法,Txt格式的文件沒有響應的方法,需要加一個過濾器。
如果第一條記錄中只有一個標題行,那么過濾它的最有效方法是:
rdd.mapPartitionsWithIndex {
(idx, iter) => if (idx == 0) iter.drop(1) else iter }
即使用索引的方法把第一行過濾掉,這個只適合於去除第一行表頭。
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。