Mobidev：光学字符识别技术报告 | 互联网数据资讯网-199IT

什么是 OCR，它是如何工作的？

光学字符识别（OCR），也称为文本识别技术，即将任何类型的包含书面文本的图像转换为机器可读的文本数据。OCR可以快速自动地使文档数字化，而无需手动输入数据。这就是为什么OCR通常用于业务流程优化和自动化的原因。OCR的输出进一步用于电子文档编辑和压缩数据存储，还构成了认知计算、机器翻译和文本到语音技术的基础。

根据解决的任务有不同类型的 OCR：

智能文字识别（IWR）用于识别不受约束的手写文字，而不是识别单个字符。
智能字符识别（ICR）是一种更高级的OCR形式，它基于更新算法收集更多关于手写字符变化的数据。
光学文字识别（OWR）逐字扫描文字。
光学标记识别（OMR）用于识别人们在调查、测试等标记的信息。

传统的光学字符识别系统功能包括三个阶段：图像预处理、字符识别、后处理。

1、检查文档类型和图像预处理

文本识别的主要挑战是每个文档模板都有自己的一组实体、值和实体在文档中的位置。要使OCR软件准确运行，它必须能够识别不同类型的文档并在此基础上运行正确的预定义管道。

选择正确的管道后，图像进入预处理步骤。

2、字符识别

通过使用特征检测和模式识别算法，可以检测到单个字符。然后，将一组字符组合成单词和句子。使用模式识别或特征检测算法识别字符。

大多数情况下，具有特征检测的OCR程序使用基于机器学习或神经网络的分类器来处理字符。

3、后处理

一旦识别出一个符号，它就会被转换成一个代码，计算机系统可以使用该代码进行进一步处理。任何OCR和OCR相关技术/算法的输出都有很多噪音和误报。

根据统计数据，在这个阶段，系统会纠正噪音以提高OCR输出的质量。

PDF版本将分享到199IT知识星球，扫描下面二维码即可！

更多阅读：
MobiDev：2022年增强现实开发指南
Mobidev：2022年初创企业软件开发5大趋势
Mobidev：2023年12个增强现实趋势
中国人民银行：吉林省金融运行报告（2022）
MobiDev：2022年人体姿态估计技术和用例
MobiDev：2022年工业物联网趋势
Mobidev：2022年金融科技趋势Top3
消费者品牌报告：寻找真相
Dun&Bradstreet：2/3的商业领袖认为数据对他们发展业务有帮助
CSET：中国先进的人工智能研究报告
Zscaler：2024年AI安全报告
大数据和AI策略–面向投资的机器学习和另类数据方法（附280页报告）
谷歌机器学习应用的四十三条经验法则
机器学习：能通过样本进行学习的计算机的力量与希望
房地产科技2020：房地产的未来

菜单Menu

PDF版本将分享到199IT知识星球，扫描下面二维码即可！

更多阅读：

分享这篇文章