手写识别

2022-04-30 04:35:21   第一文档网     [ 字体: ] [ 阅读: ] [ 文档下载 ]
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。下载word有问题请添加QQ:admin处理,感谢您的支持与谅解。点击这里给我发消息

#第一文档网# 导语】以下是®第一文档网的小编为您整理的《手写识别》,欢迎阅读!
手写,识别

手写识别综述

c093 张婷婷 夏叶 张雨吉 韩庆斌 闫秋明

摘要:现代技术发展的时代工作和生活的效率越来越高,所以所生产出来的产品应适应当

下的节奏 随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。

关键词人机交互 手写识别 正文

人机交互技术不断地推动着计算机应用的发展,其发展趋势是高效、自然、智能。手写识别是人机交互技术的一种。在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案

一、手写识别的定义

手写识别,是指将在手写设备上书写时产生的有序轨迹信息化转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。手写识别技术包括文字识别和数字符号识别。

二、手写识别的发展历史

联机手写字符识别的发展历史可以追溯到本世纪50年代,伴随着手写板硬件(一种捕捉笔尖轨迹的数字化仪)的出现,人们开始研究联机手写字符识别技术。随着半导体和计算机技术的发展以及模式识别领域理论和方法研究的不断深入和完善,到80年代后期,联机手写字符识别技术的研究已经朝着实用的方向努力,特别是英文,已经开始研究完全无限制的整句识别技术。

联机手写汉字识别技术相对起步较晚。1981年,IBM公司E.F.Yhap等推出了第一套较为成熟的联机手写汉字识别系统。该系统是基于对汉字进行笔划、字根编码的思想进行识别的。系统中每个汉字用72种字根拼成,而每个字根又可分解为42 种笔划的组合,通过对笔划和字根的判定识别所输入的汉字。而对字根进行的编码树表示又使得系统对通常的笔顺变化具有一定容错能力。当时对920个汉字的实验结果时正确率91.1%,对2260个测试,识别率为79.9%(第一次使用)。书写者要求使用工整楷书。国内蒙恬科技公司是最早从事汉字识别技术研究、开发、生产的公司之一,早在1991年,就正式推出手写汉字识别


系统。蒙恬的手写汉字识别技术的发展可分4个阶段:1.识别规整书写的、具有固定笔顺的楷体阶段。2.识别带有某些连笔、常见笔顺变化的楷体阶段。3.识别带有某些连笔、笔顺自由变化的楷体阶段。4.识别自由连笔、无笔顺限制的行书汉字。

而中科院在1988年提出利用笔段为基元的联机手写汉字识别技术。该方法把汉字分为笔段、笔划、字根、单字和词组五个层次,分别用模糊属性文法进行描述,以启发式模板引导匹配。该系统采用了对笔段进行基于位置关系的排序方法,摆脱了对笔顺的依赖。于对整个字形进行采样后分析,在识别速度上不如按笔顺采样计算识别快。

三、手写识别研究的分类

文字识别技术:文字识别的方法基本上分为统计识别、结构识别以及神经网络方法等几大类。大量的联机手写识别系统采用的都是结构识别方法。所谓结构识别方法,其出发点是汉字的组成结构,从汉字的构成上讲,汉字是由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定,以及基于符号运算的匹配算法,达到对复杂模式的识别。结构识别法的优点是区分相似字的能力强,缺点是抗干扰能力差。统计识别方法是将汉字看为一个整体,其所有的特征是从这个整体上经过大量的统计而得到的,然后按照一定准则所确定的决策函数进行分类判决。统计识别的特点是抗干扰性强,缺点是细分能力较弱。

数字识别技术:手写数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字。 在整个OCR领域中,最为困难的就是脱机手写字符的识别。到目前为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距实用还有一定距离。而在手写数字识别这个方向上,经过多年研究,研究工作者已经开始把它向各种实际应用推广,为手写数据的高速自动输入提供了一种解决方案 四、手写识别技术注意问题 1.笔顺问题

由于不同人具有不同的书写习惯,笔划的书写顺序经常发生变化,因此,单纯通过串匹配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串也就显得不够,须利用一些二维方法来描述,从而又极大地增加了匹配的难度。 2.连笔问题

一般人写字时都不会一笔一划地书写,为了节省时间,连笔字是自然而然的事情,一些行书连笔甚至完全脱离了楷书的框架。从实用角度讲,连笔问题比笔顺问题具有更重要的意义。对于结构识别而言,连笔一方面使笔划种类大大增加,甚至达到难以归纳的程度;另一方面,连笔又使得笔段抽取难度大增,因为连笔会增加一些冗余笔段,连笔造成的畸变又会使笔段方向严重离散。总之,连笔不论对于基于哪种基元的结构识别都是严峻的挑战。 3.相似字区分


汉字种类繁多,很多汉字彼此之间非常相似,例如“己、已、巳”三个字相差只在细微之间。手写汉字的变形十分严重,怎样能使识别系统抓住微小的差别,目前还是一个非常值得研究的问题。 4.对抗干扰能力的要求

抗干扰能力,也称为鲁棒性,对于联机手写识别系统的性能是非常重要的。书写时候,笔划的畸变、丢失,多余笔段(如笔锋)的插入,字的倾斜,部件间相对位置、大小的变化,这些都是经常发生的现象。对于结构识别来说,会造成基元提取和识别的错误。传统的结构识别方法恰好在鲁棒性上是薄弱环节。因此,要想取得好的性能,必须对传统识别方法进行改进,增强其鲁棒性,从而增加实用性。

PC时代,各式各样新奇、小巧的PDA手机、电子书E-book信息家电IA等等信息产品被创造出来,但是这些产品几乎都有面板过小、输入不易的问题。就是PC键盘输入,对大多数人来说也不是那么方便容易。手写输入必然会受到瞩目,因此,将手写识别技术移植并嵌入其他行业领域,将是手写识别技术未来发展的重要方向之一。

五、手写数字识别技术展望

随着国家信息化进程的加速,手写识别的应用需求将越来越广泛,因此应当加强这方面的研究工作。作者认为,应用系统的性能的关键与瓶颈仍然在于手写识别核心算法性能上,最终目标是研究零误识率和低拒识率的高速识别算法。此外,尽早建立反映中国人书写习惯的、具有国家标准性质的手写样本库也是当务之急。

六、参考文献

模式识别》边肇祺 张学工,清华大学出版社

一本较专业的理论书籍,可作为学习、了解模式识别的理论参考数 2Visual C++ 数字图像模式识别技术及工程实践》 张宏林 蔡锐,人民邮电出版社 大量的源代码,可作为编程的参考;其中的方法也有参考价值。 另外,提供试验用的字符数据集










本文来源:https://www.dywdw.cn/a6d62616763231126edb1133.html

相关推荐
推荐阅读