识别率从 95% 到 99%,来看看贝壳找房 OCR 实战

百家 作者:InfoQ 2020-01-06 14:59:43

图像处理技术是目前人工智能发展最为迅猛的领域,而贝壳找房又是以技术驱动的品质居住服务平台,积累和沉淀了大量的交易数据,场景 + 数据 + 算法,贝壳交易智能围绕以房产证识别为核心 OCR 技术架构也在落地实践中逐步建立起来。

QCon 北京 2020 邀请到贝壳找房交易智能技术负责人郭流芳分享他们团队的实践经验,包括 OCR 技术的一般流程、各个环节遇到的实际问题以及整个技术架构的变迁,贝壳交易智能是如何通过一个一个技术点的突破,使识别率从无到有,从 95% 到 99% 的。还将介绍下基于业务演进打造的 Uni-iMatch 和 ASLS 系统。

内容大纲
1. 了解贝壳 OCR 能力的三⼤⽅向
  • 房产备件票据卡证类现状

  • 房产合同 IM 类通⽤用文本识别现状

  • 房产征信报告表单类通⽤表格识别现状

2. ⻉壳 OCR 识别的⼀般流程
  • 分类 + 摆正 + 检测 + 识别 + 结构化 +NLP

3. 分类遇到的问题
  • 样本量小,正负类别分布不均

4. 摆正遇到的问题
  • 通⽤摆正的正确率的问题及相应的兜底策略

5. 检测遇到的问题
  • 倾斜和弯曲

6. 识别遇到的问题
  • 分类 & 序列

  • 形近字和⽣僻字如何处理

7. 结构化
  • 从位置匹配到⾃定义模版技术

  • 再到深度学习位置关系

8. 工程化进展
  • 模型裁剪

  • model version 控制

听众收益
1. 了解 OCR 技术的整体架构
  • 分类 + 摆正 + 检测 + 识别 + 结构化

2. 基本图像技术如何和具体的业务结合
  • VGG16+ 传统特征提⾼摆正准确性

  • DenseNet 的卷积处理,提高识别鲁棒性

  • AdaVancedEAST,更改起始点和终结点,提⾼ IoU

  • Attention 在解码中的应⽤用

3. 形近字和⽣僻字从技术和工程两个角度如何改进
  • 如何增加更加有效的特征

  • GAN 合成数据的冷启动,配合⼯程数据回流,打造自学习闭环

适合人群

图像分类、图像检测等图像处理相关从业技术人员。

更多人工智能与机器学习相关实践请持续关注 QCon 北京 2020,来跟业界大牛关注人工智能领域中正在兴起的技术和关键进展,探讨应用于机器学习问题的工程挑战及解决方案。目前大会 8 折报名中,点击【阅读原文】或识别二维码了解更多。有任何问题欢迎联系票务小姐姐 Ring:17310043226(微信同号)。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接