表格識別數據集


  • ICDAR 表格識別競賽
  • TableBank
  • DocBank
  • TABLE2LATEX-450K
  • DECO

https://github.com/doc-analysis/TableBank

微軟發布
word和latex兩種格式。

https://github.com/doc-analysis/DocBank

https://github.com/bloomberg/TABLE2LATEX

該數據集包含約46.6萬個表格-Latex代碼對樣例,從文檔層面分為了訓練集(約44.7萬)、驗證集(約0.9萬)和測試集(約0.9萬)。這個數據集實際上將表格結構識別任務作為了一個圖像到文本(Image2Text)的轉化任務。

DECO

《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》,作者通過抽取EnronCorpus,得到了一個包含1165份文件的數據集。該數據將表格的非空單元格標注為表格頭、數據和注釋等,同時注明了表格邊界。對於不含表格的文件,使用了例如:模板、表單、報表等類別進行標注。
https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/

ICDAR2019

ICDAR2019表格檢測與識別比賽(ICDAR2019 Competition on Table Detection and Recognition, cTDaR),是一個面向表格檢測與識別任務的比賽,比賽官方網站為http://sac.founderit.com/。

參考


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM