OCR ——光学字符识别
OCR究竟是什么意思?
光学字符识别或OCR是一种使您能够将不同类型的文档(如扫描的纸张文档,仅含图片的PDF文件或数码相机捕获的图像)转换为可编辑和可搜索的数据的技术。
所有扫描器可以做的是创建文档的图像或快照,这只不过是黑白或彩色点的汇合,称为光栅图像。为了从扫描的文档、摄像机图像或PDF中提取和重新利用数据,您需要一个能将图片上字母挑出,将它们组成单词并转换为句子的OCR软件,从而使您能够访问及编辑原始文档的内容。
OCR究竟有什么技术?
最先进的光学字符识别系统,如ABBYY FineReader OCR,专注于复制自然的或“像动物一样的”识别。这些系统的核心在于三个基本原则:完整性、有目的性和适应性。完整性原则说,观察对象必须总是被认为是由许多相互关联的部分组成的“整体”。目的性原则假定对数据的任何解释必须总是用于某种目的。适应性原则意味着程序必须能够自我学习。
FineReader OCR通过几个步骤识别文本:
- FineReader OCR通过几个步骤识别文本;
- 将页面划分为诸如文本、表格、图像等元素;
- 行被分成单词,然后分成字符;
- 然后程序将字符与一组图案图像进行比较;
- 基于这些假设,程序分析将行分解成词和字的不同变体;
- 该程序最终做出结论,向您呈现识别的文本。此外,ABBYY FineReader为48种语言提供字典支持。这使得能够在词组级别上对文本元素进行二次分析。借助字典支持,该程序确保对文档的更准确的分析和识别,并简化对识别结果的进一步验证。
人们不必是OCR专家来了解基于IPA原则构建的OCR应用程序的优点。这些原则赋予该项目最大的灵活性和智能,使其尽可能接近人工识别。
经过多年的研究,ABBYY能够在其OCR技术中实施上述IPA原则。
数码相机图像识别
由数码相机捕获的图像与扫描的文档或仅含图像的PDF不同。它们通常具有缺陷,例如边缘处的失真和光线不足,使大多数OCR应用难以正确地识别文本。最新版本的 ABBYY FineReader支持专门为处理摄像机图像而设计的自适应识别技术。它提供了一系列功能,以提高这些图像的质量,使您能够充分利用您的数字设备的功能。
有关识别数码相机OCR的更多信息请 与我们联系>>.
如何使用OCR软件?
ABBYY FineReader OCR易于使用:过程一般包括三个阶段:打开(扫描)文档、识别,然后以方便的格式(DOC,RTF,XLS,PDF,HTML,TXT等)保存或直接将数据导出到一个Office应用程序,如Microsoft Word,Excel或Adobe Acrobat。
此外,最新版本的ABBYY FineReader支持自动任务模式,当您定期处理常规任务时,这是必不可少的。使用此功能,识别任务自动运行,而不必手动执行所有上述步骤。
优点
- 在创建、处理和重新利用各种文档时节省大量的时间和精力。
- 扫描纸质文档以进一步编辑并能与同事和合作伙伴共享。
- 提取书籍和杂志的报价,无需重新键入便可利用它们来创建课程研究和论文。
- 在户外从横幅、海报和时间表中撷取文本,然后使用撷取的信息来完成目的。
- 使用OCR软件创建可搜索的PDF归档。
- 从原始纸质文档、图像或PDF进行数据转换的整个过程需要不到一分钟,识别的最终文档看起来和原始文档一样。