標簽【BigData-Hadoop】

添加分區：已經創建好的分區表：分區字段包含：p_hour,p_city,p_loctype。根據分區字段p_loctype刪除分區：刪除日志： ...

創建測試表，來測試看看測試結果：第一步：使用insert into 插入數據到表中：第二步：不清理以上插入的記錄，直接執行insert overwirte，並查詢分 ...

hadoop fs 更多用法，請參考官網：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 以下是我的使用hadoop fs -du統計 ...

需求：由於一個大文件，在spark中加載性能比較差。於是把一個大文件拆分為多個小文件后上傳到hdfs，然而在spark2.2下如何加載某個目錄下多個文件呢? 測試結果： ...

幾種給Dataset增加列的方式首先創建一個DF對象：第一種方式：使用lit()增加常量（固定值）可以是字符串類型，整型注意： lit()是spark自帶 ...

JavaRDD 轉化為 Dataset<Row>方案一：實體類作為schema定義規范，使用反射，實現JavaRDD轉化為Dataset<Row> Student.jav ...

DataFrame寫入hive API： registerTempTable函數是創建spark臨時表 insertInto函數是向表中寫入數據，可以看出此函數不能指定數據庫和分 ...

背景：接到任務，需要在一個一天數據量在460億條記錄的hive表中，篩選出某些host為特定的值時才解析該條記錄的http_content中的經緯度：解析規則譬如：需要解析 ...

reduceByKey函數ＡＰＩ：該函數利用映射函數將每個K對應的V進行運算。其中參數說明如下： - func：映射函數，根據需求自定義； - partitioner：分區函 ...

　　在做spark開發過程中，時不時的就有可能遇到租戶的hive庫目錄下的文件個數超出了最大限制問題。一般情況下通過hive的參數設置：通過df.repar ...