武穴论坛

 找回密码
 中文注册
查看: 1467|回复: 1

用OCR软件实现印刷品文字录入

[复制链接]
发表于 2007-5-11 22:46:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?中文注册

x
<p>用OCR软件实现印刷品文字录入。</p><p>这是一个老话题,也不是什么新技术。</p><p>大家经常遇到这样的情况,对一些报刊杂志上的文章,我们想把他装进电脑,但这些报刊杂志的网站上又没有这些文章可供下载,怎么办?是老老实实一个字一个字地敲,还是利用其他便捷一点的方法?</p><p>答案是有便捷的方法,早在九几年就有了。果子简单地讲一下流程。</p><p>第一步:将文章用扫描仪扫下来,扫描仪参数设置:色彩模式:灰度;分辨率:300DPI,说明一下,如果是字比较小,笔划比较细,纸张比较暗的话(比如报纸,新闻纸较暗,报宋体的笔划又比较细),可设高点,如设成600。这样是为了提高识别率。保存为JPG或TIF,建议保存JPG(占硬盘空间小)。</p><p>第二步:打开PHOTOSHOP软件,对图片进行调整,如裁正、去污点、调曲线等,使背景为白底,文字笔划要清晰,不粗不细,尽量要黑。这一步对提高识别率也很重要。当然,没有这个软件的,这一步省掉也行,那就在第三步里调整。</p><p>第三步:打开OCR软件。OCR软件有很多,有尚书、紫光等。以尚书为例。开OCR后,打开图片文件,选择识别的范围和先后(即版面分析),选择语言、格式(简体、繁体、英文、横排、竖排、表格等)。点识别,即开始识别了,图片上的文字自动变成文本了。不同的OCR软件,界面有差异,大致如此。</p><p>没有经过第二步的,利于OCR软件本身自带的旋转、橡皮等工具对图片进行简单编辑(有些OCR软件可能不支持这类操作),然后再识别。</p><p>第四步:对照图片文件校对、修改。图片文字一行行地出现在识别文字旁边。识别率取决于前两步。</p><p>第五步:将文本复制出来,粘贴到WORD中(也可存为TXT文本格式再在WORD打开),在WORD中取消原来的换行符,将一行行的文本连接起来,变成一篇通畅规范的文本文件。</p><p>睡前写的,可能有点乱,有问题的朋友直接Q我。</p>
[此贴子已经被作者于2007-5-11 22:48:06编辑过]

回复

使用道具 举报

发表于 2007-5-20 18:42:09 | 显示全部楼层
<p>这只是模式识别技术的分支</p><p>模式识别技术包括图形识别和语音识别,文字识别属于图形识别的一种.</p><p>你说的OCR软件软件,原理知道一些,先纵向扫描,横向扫描,确认文字的的宽度和高度.在对单个字进行识别,这是脱机识别,需要提取该字的特征向量,根据该字的特征向量与字库中加载的字体特征向量对比,获得误差最小的哪个字,这样就完成了单个字体的识别.一个系统的好坏是有它选择的特征向量来决定的.</p><p>现在好多的手机都支持手写输入,这是联机识别.识别技术现在在好多地方使用.比如:检测指纹,车牌扫描,公安系统有人像识别等.</p>
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 中文注册

本版积分规则

手机版|武穴信息网 ( 鄂ICP备2021017331号-1 )

鄂公网安备 42118202000100号

GMT+8, 2024-11-23 10:06 , Processed in 0.036831 second(s), 15 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表