- ICDAR 表格識別競賽
- TableBank
- DocBank
- TABLE2LATEX-450K
- DECO
https://github.com/doc-analysis/TableBank
微軟發布
word和latex兩種格式。
https://github.com/doc-analysis/DocBank
https://github.com/bloomberg/TABLE2LATEX
該數據集包含約46.6萬個表格-Latex代碼對樣例,從文檔層面分為了訓練集(約44.7萬)、驗證集(約0.9萬)和測試集(約0.9萬)。這個數據集實際上將表格結構識別任務作為了一個圖像到文本(Image2Text)的轉化任務。
DECO
《DECO: A Dataset of Annotated Spreadsheets for Layout and Table Recognition》,作者通過抽取EnronCorpus,得到了一個包含1165份文件的數據集。該數據將表格的非空單元格標注為表格頭、數據和注釋等,同時注明了表格邊界。對於不含表格的文件,使用了例如:模板、表單、報表等類別進行標注。
https://wwwdb.inf.tu-dresden.de/researchprojects/deexcelarator/
ICDAR2019
ICDAR2019表格檢測與識別比賽(ICDAR2019 Competition on Table Detection and Recognition, cTDaR),是一個面向表格檢測與識別任務的比賽,比賽官方網站為http://sac.founderit.com/。