冷轧板厂家
免费服务热线

Free service

hotline

010-00000000
冷轧板厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

做座光学字符识别OCR的技术应用二

发布时间:2021-10-08 23:30:51 阅读: 来源:冷轧板厂家

光学字符识别(OCR)的技术应用二

2.汉字识别应用

汉字已有数千年的历史,也是世界上使用人数最多的文字。然而,汉字是非字母化、非拼音化的文字,因此,快速高效地将汉字输人计算机,是信息处理的一个关键问题。人工键入速度慢而且劳动强度大,对于大量已有的文档资料,汉字自动识别输人就成为了最佳的选择。它在中文信息处理、办公室自动化、机器翻译、当前国内塑料机械行业的发展现状是存在自主创新能力较低、高级与个性化专用品种较少人工智能等高技术领域,都有着重要的实用价值和理论意义。

对于印XPS板的优缺点刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,然后通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。印刷汉字识别的过程主要包括:

扫描输人文本图像——图像的预处理-图像版面的分析和理解——图像的行切分和字切分——基于单字图像的特征选择和提取——基于单字图像特征的模式分类——将被分类的模式赋予识别结果——识别结果的修改后处理。

预处理包括对去掉原始图像中的显见噪声(干扰)、扫描文字行的倾斜校正等。版面分析是对文本图像的总体分析,区分出文本段落及排版顺序,以及图像、表格的区域。对于文本区域进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字府图像上提取统计特征或结构特征的过程,包括为此而做的细化、归一化等步骤。提取特征的稳定性及有效性,直接决定了识别的性能。文字识别即从已有的特征库中找到与待识字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。

在这整个过程中,图像的行切分和字切分,基于单字图像的特征选择和提取和基于单字图像特征的模式分类,是印刷汉字识别中最为核心的技术。汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征,每种特征又有不同的抽取方法,这就使得判别方法和准则以及所用的举学工具各不相同,从而形成了种类繁多、形式各异的汉字识别方法。总的来说,不同的特征抽取和分类器设计方法决定了识从1期年产200万只高强轻质铝轮毂别系统采用不同的处理方法。通常,可以分为结构模式识别方法、统计模式识别方法、统计与结构相结合的识别方法以及人工神经络方法等。

汉字字符识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95%,为进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深人的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。

(张成海、张铎)

《现代自动识别技术与应用》

女性常常乳房触痛怎样调节
乳结泰胶囊能不能治乳腺肿痛
有什么女性可以调理乳房疼的中成药
乳结泰胶囊吃多久见效