Spark讀取txt文件跳過第一行


一、概述

 在實際應用中經常會碰到CSV文件帶有表頭的情況,Spark對CSV文件有響應的跳過表頭的方法,Txt格式的文件沒有響應的方法,需要加一個過濾器。

二、實現方法

  如果第一條記錄中只有一個標題行,那么過濾它的最有效方法是:

   rdd.mapPartitionsWithIndex {

  (idx, iter) => if (idx == 0) iter.drop(1) else iter 
}

即使用索引的方法把第一行過濾掉,這個只適合於去除第一行表頭。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM