Tika提取文件元數據


Tika可以從文件中提取元數據。

什么是元數據:

元數據是文件所提供的的附件信息即文件的屬性。  

word文檔的元數據:

  

Tika提取元數據:

我們可以使用文件parse()方法提取元數據,傳遞一個空的元數據對象作為一個參數。這種方法提取指定的文件的元數據(如果該文件中包含有),並將它們放置在元數據對象。因此,在使用parse()解析文件后,就可以提取該對象的元數據。

下面是完成提取元數據的例子

  @Test
    public void getMetadataToImg() throws IOException, TikaException, SAXException {
        File file = new File("F:\\頁面\\數字檔案室\\html - 副本\\style\\erms\\images\\hintIcon.png");
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        FileInputStream inputstream = new FileInputStream(file);
        ParseContext context = new ParseContext();
        parser.parse(inputstream, handler, metadata, context);
        String[] metadataNames = metadata.names();
        for (String name : metadataNames) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }

獲取結果:

 

 文檔參考網址:https://www.sxt.cn/tika/tika_metadata_extraction.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM