Tika可以從文件中提取元數據。
什么是元數據:
元數據是文件所提供的的附件信息即文件的屬性。
word文檔的元數據:
Tika提取元數據:
我們可以使用文件parse()方法提取元數據,傳遞一個空的元數據對象作為一個參數。這種方法提取指定的文件的元數據(如果該文件中包含有),並將它們放置在元數據對象。因此,在使用parse()解析文件后,就可以提取該對象的元數據。
下面是完成提取元數據的例子
@Test public void getMetadataToImg() throws IOException, TikaException, SAXException { File file = new File("F:\\頁面\\數字檔案室\\html - 副本\\style\\erms\\images\\hintIcon.png"); Parser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(); Metadata metadata = new Metadata(); FileInputStream inputstream = new FileInputStream(file); ParseContext context = new ParseContext(); parser.parse(inputstream, handler, metadata, context); String[] metadataNames = metadata.names(); for (String name : metadataNames) { System.out.println(name + ": " + metadata.get(name)); } }
獲取結果:
文檔參考網址:https://www.sxt.cn/tika/tika_metadata_extraction.html