最近在做一个知识图谱的项目,其中要从 pdf 设备文档中提取表格信息并转换为图谱。
而表格识别的工作从零开始又很难写出强鲁棒性的程序,因此暂时交给第三方 API 来做了,也有了以下的对比文章。(甲方不太想用到云 API,希望后期可以找到一个可离线的替代方案)
本文将简单对比阿里云以及华为云在表格识别中对常见的几种表格的识别准确度。由于识别结果不便于展示,想要尝试可移步相应云平台。
规整表格
- 基本效果相近,都可以识别出表格的构造
行跨多列表格
- 阿里云完美识别,行跨多列情况也完美识别
- 华为云无法识别,仅仅识别出其中的字,没有表格的组织
带背景颜色的表格
- 阿里云表格形状完美识别,但部分特殊符号有识别错误的情况,如
≤
、°C
- 华为云无法识别,当成文字处理
表中表(列跨多行)
- 阿里云与华为云都能正常识别,效果相近
带背景颜色的表格
- 阿里云可以正常识别,但第一行表头牵连识别到了第二行的 1,并未对第二行产生影响
- 华为云没有识别出表头,表头当文字处理了,其他识别正常
网站截图
例一
- 阿里云可以正常识别,但需调整参数为
HasLine = false
,SkipDetection = true
,否则无法正常识别表格线条 - 华为云没有识别出第一行与第二行之间的线条,这两行有合并的迹象
例二
- 阿里云只能在
HasLine = false
,SkipDetection = true
下检测出来,且会将堆电压:756.50 v
拆分为两列 - 华为云会检测到图中的竖线,识别出一共六个表格,
电池堆
与组3
当成文字处理,华为云在这次比较中看上去相比于阿里云更好一些
总结
阿里云识别精度高于华为云,对于截图这种较为困难的场景,两者表现都略差。
截至 2020.09.23,阿里云表格内容识别暂处于内测阶段,因此具体费用暂未公布。而华为云表格内容识别已经正式商用,貌似有 1 元包年的优惠套餐可以购买。
如果阿里云商用后价格与华为云相差不大,建议使用阿里云(后期华为云效果提上来的话另作讨论)。
本文测试数据较少,也许并未能体现出华为云实际工作中的识别准确度,因此该对比仅供参考。
你要是个女生我一定会o(* ̄︶ ̄*)o 哈哈哈
哭唧唧
爷爷,你追更的博主终于更新啦OωO
QAQ 太不容易了,在做一些项目 / 研究,都感觉没有可以分享的点
文章写的不错,加油~
哈哈,谢谢啦~