表格内容识别(阿里云 vs 华为云)

最近在做一个知识图谱的项目,其中要从 pdf 设备文档中提取表格信息并转换为图谱。

而表格识别的工作从零开始又很难写出强鲁棒性的程序,因此暂时交给第三方 API 来做了,也有了以下的对比文章。(甲方不太想用到云 API,希望后期可以找到一个可离线的替代方案)

本文将简单对比阿里云以及华为云在表格识别中对常见的几种表格的识别准确度。由于识别结果不便于展示,想要尝试可移步相应云平台。


规整表格

  • 基本效果相近,都可以识别出表格的构造

img

 

行跨多列表格

  • 阿里云完美识别,行跨多列情况也完美识别
  • 华为云无法识别,仅仅识别出其中的字,没有表格的组织

img

 

带背景颜色的表格

  • 阿里云表格形状完美识别,但部分特殊符号有识别错误的情况,如 °C
  • 华为云无法识别,当成文字处理

img

 

表中表(列跨多行)

  • 阿里云与华为云都能正常识别,效果相近

img

 

带背景颜色的表格

  • 阿里云可以正常识别,但第一行表头牵连识别到了第二行的 1,并未对第二行产生影响
  • 华为云没有识别出表头,表头当文字处理了,其他识别正常

img

 

网站截图

例一

  • 阿里云可以正常识别,但需调整参数为 HasLine = false, SkipDetection = true,否则无法正常识别表格线条
  • 华为云没有识别出第一行与第二行之间的线条,这两行有合并的迹象

img

 

例二

  • 阿里云只能在 HasLine = false, SkipDetection = true 下检测出来,且会将 堆电压:756.50 v 拆分为两列
  • 华为云会检测到图中的竖线,识别出一共六个表格,电池堆组3 当成文字处理,华为云在这次比较中看上去相比于阿里云更好一些

img

 

总结

阿里云识别精度高于华为云,对于截图这种较为困难的场景,两者表现都略差。

截至 2020.09.23,阿里云表格内容识别暂处于内测阶段,因此具体费用暂未公布。而华为云表格内容识别已经正式商用,貌似有 1 元包年的优惠套餐可以购买。

如果阿里云商用后价格与华为云相差不大,建议使用阿里云(后期华为云效果提上来的话另作讨论)。

本文测试数据较少,也许并未能体现出华为云实际工作中的识别准确度,因此该对比仅供参考。


  • 6 只已被捕捉
    • 皋灯书雪 Chrome | 86.0.4240.111 Windows 10

      你要是个女生我一定会o(* ̄︶ ̄*)o 哈哈哈

      • 千千 Chrome | 84.0.4147.125 Windows 10

        哭唧唧

    • iyzyi Chrome | 85.0.4183.121 Windows 10

      爷爷,你追更的博主终于更新啦OωO

      • 千千 Chrome | 84.0.4147.125 Windows 10

        QAQ 太不容易了,在做一些项目 / 研究,都感觉没有可以分享的点

    • 风水学知识 Mozilla FireFox | 79.0 Windows 10

      文章写的不错,加油~

      • 千千 Chrome | 84.0.4147.125 Windows 10

        哈哈,谢谢啦~