數據採集之Web端上傳文件到Hadoop HDFS


前言

近期在公司接到一個任務。是關於數據採集方面的。
需求主要有3個:

  • 通過web端上傳文件到HDFS;
  • 通過日志採集的方式導入到HDFS;
  • 將數據庫DB的表數據導入到HDFS。

正好近期都有在這方面做知識儲備。正所謂養兵千日,用兵一時啊。

學習到的東西僅僅有應用到真實的環境中才有意義不是么。

環境

這里僅僅做模擬環境。而不是真實的線上環境,所以也非常easy。假設要使用的話還須要優化優化。

說明一下,這個系統OS最好使用Linux的。然后Hadoop也推薦使用CDH發行版的,由於在兼容性、安全性、穩定性都要好於開源的版本號。

比方說CDH的易於升級維護,已解決好Hadoop生態其它產品的版本號兼容問題,補丁更新比開源要及時(畢竟商業公司支持)等等
還有之所以使用SpringBoot是由於快捷,方便,不用做一大堆的配置,無論是作為演示還是生產開發都挺好的。

項目搭建

這里僅僅是做一個非常easy的演示,就是在Web頁面提供一個上傳button,使用戶能夠將本地文件上傳至Hadoop集群平台。

pom.xml

首先看下pom文件的依賴:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.infosys.hadoop</groupId>
    <artifactId>upload</artifactId>
    <version>1.0-SNAPSHOT</version>

    <name>upload</name>

    <packaging>jar</packaging>
    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>1.5.1.RELEASE</version>
        <relativePath/> <!-- lookup parent from repository -->
    </parent>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
        <hadoop.version>2.6.5</hadoop.version>

    </properties>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <dependency>
            <groupId>javax.servlet</groupId>
            <artifactId>javax.servlet-api</artifactId>
            <version>3.1.0</version>
        </dependency>


        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

        <!-- Test -->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
            <scope>test</scope>
        </dependency>

        <dependency>
            <groupId>org.apache.mrunit</groupId>
            <artifactId>mrunit</artifactId>
            <version>1.1.0</version>
            <classifier>hadoop2</classifier>
            <scope>test</scope>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-minicluster</artifactId>
            <version>${hadoop.version}</version>
            <scope>test</scope>
        </dependency>
    </dependencies>


    <build>
        <finalName>${project.artifactId}</finalName>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-archetype-plugin</artifactId>
                <version>2.2</version>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-resources-plugin</artifactId>
                <configuration>
                    <encoding>UTF-8</encoding>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.1</version>

                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <version>2.5</version>
                <configuration>
                    <outputDirectory>${basedir}</outputDirectory>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-maven-plugin</artifactId>
            </plugin>
        </plugins>
    </build>
</project>

我們就是加入了一個SpringBootHadoop Client的依賴。其它的是一些測試相關的。

關於這個Hadoop Client它提供了一些開發Hadoop應用所需的全部依賴,能夠參考之前的一篇博客:Hadoop 2.x Maven開發環境搭建

首頁

首頁界面就僅僅是提供一個上傳表單button:
index.html

<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <title>Upload</title>
</head>
<body>
<form action="/upload" method="post" enctype="multipart/form-data">
    <p>
        文件:<input type="file" name="file">
    </p>
    <p>
        <input type="submit" value="上傳">
    </p>
</form>
</body>
</html>

然后在Controller提供一個接口進行訪問首頁:
HomeController.java

@Controller
@RequestMapping(value = "/")
public class HomeController {

    public ModelAndView home() {
        return new ModelAndView("index");
    }

}

上傳

上傳的邏輯也非常easy,就是使用SpringBoot上傳文件的形式先將文件接收到后台。然后調用Hadoop提供的接口API運行上傳。


上傳接口UploadController.java

@Controller
public class UploadController {

    @PostMapping("/upload")
    @ResponseBody
    public String handleFileUpload(@RequestParam("file") MultipartFile file) {

        if (!file.isEmpty()) {
            try {
                String originalFilename = file.getOriginalFilename();

                BufferedOutputStream out = new BufferedOutputStream(
                        new FileOutputStream(
                                new File(originalFilename)
                        )
                );

                out.write(file.getBytes());

                out.flush();
                out.close();

                String destFileName = "/user/hadoop/" + originalFilename;

                Upload.main(new String[]{originalFilename, destFileName});

            } catch (FileNotFoundException e) {
                e.printStackTrace();
                return "上傳失敗," + e.getMessage();
            } catch (IOException e) {
                e.printStackTrace();
                return "上傳失敗, " + e.getMessage();
            }


            return "上傳成功";

        } else {
            return "上傳失敗。文件為空。

"; } } }

最后我們在提供一個類來操作Hadoop接口。


Upload.java

public class Upload {

    public static final String FS_DEFAULT_FS = "fs.defaultFS";
    public static final String HDFS_HOST = "hdfs://192.168.1.2:9000";
    public static final String CROSS_PLATFORM = "mapreduce.app-submission.cross-platform";


    public static void main(String[] args) throws IOException {

        Configuration conf = new Configuration();

        conf.setBoolean(CROSS_PLATFORM, true);
        conf.set(FS_DEFAULT_FS, HDFS_HOST);

        GenericOptionsParser optionsParser = new GenericOptionsParser(conf, args);

        String[] remainingArgs = optionsParser.getRemainingArgs();
        if (remainingArgs.length < 2) {
            System.err.println("Usage: upload <source> <dest>");
            System.exit(2);
        }

        Path source = new Path(args[0]);
        Path dest = new Path(args[1]);

        FileSystem fs = FileSystem.get(conf);

        fs.copyFromLocalFile(true, false, source, dest);
    }
}

當中的fs.defaultFS屬性須要與集群Master NameNode節點中配置的一直。該屬性配置一般在etc/hadoop/core-site.xml文件里進行定義。
能夠看到我們實際的操作非常easy,就僅僅是調用Hadoop的FileSystem接口中的copyFromLocalFile方法。該方法參數說明:

  • 第一個參數:表示是否刪除本地的源文件。也就是上傳文件后是否保留原文件。這里為了避免興許文件越來越多,就直接採用上傳成功就刪除的方式。
  • 第二個參數:表示是否覆蓋已存在的文件,這里false表示不覆蓋,假設HDFS集群中已存在該文件,就提示上傳失敗。
  • 第三個參數:源文件路徑
  • 第四個參數:上傳到HDFS指定的路徑

后記

當然上傳的方式肯定不止這一種,比方:通過Hadoop的rest接口調用PUT也能夠上傳,還有Python等其它語言也有對應的API接口等等

假設是要做成平台的話,這樣肯定是遠遠不夠的,每一個用戶都能夠上傳就須要做好隔離措施,我們能夠採用HDFS文件夾隔離的方式,只是我認為這樣不夠好,最好採用CDH支持的kerberos進行授權認證的方式比較好。

開源的Hadoop默認僅僅支持Simple的形式,也就是與操作系統一致的用戶驗證。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM