马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?中文注册
x
<p>用OCR软件实现印刷品文字录入。</p><p>这是一个老话题,也不是什么新技术。</p><p>大家经常遇到这样的情况,对一些报刊杂志上的文章,我们想把他装进电脑,但这些报刊杂志的网站上又没有这些文章可供下载,怎么办?是老老实实一个字一个字地敲,还是利用其他便捷一点的方法?</p><p>答案是有便捷的方法,早在九几年就有了。果子简单地讲一下流程。</p><p>第一步:将文章用扫描仪扫下来,扫描仪参数设置:色彩模式:灰度;分辨率:300DPI,说明一下,如果是字比较小,笔划比较细,纸张比较暗的话(比如报纸,新闻纸较暗,报宋体的笔划又比较细),可设高点,如设成600。这样是为了提高识别率。保存为JPG或TIF,建议保存JPG(占硬盘空间小)。</p><p>第二步:打开PHOTOSHOP软件,对图片进行调整,如裁正、去污点、调曲线等,使背景为白底,文字笔划要清晰,不粗不细,尽量要黑。这一步对提高识别率也很重要。当然,没有这个软件的,这一步省掉也行,那就在第三步里调整。</p><p>第三步:打开OCR软件。OCR软件有很多,有尚书、紫光等。以尚书为例。开OCR后,打开图片文件,选择识别的范围和先后(即版面分析),选择语言、格式(简体、繁体、英文、横排、竖排、表格等)。点识别,即开始识别了,图片上的文字自动变成文本了。不同的OCR软件,界面有差异,大致如此。</p><p>没有经过第二步的,利于OCR软件本身自带的旋转、橡皮等工具对图片进行简单编辑(有些OCR软件可能不支持这类操作),然后再识别。</p><p>第四步:对照图片文件校对、修改。图片文字一行行地出现在识别文字旁边。识别率取决于前两步。</p><p>第五步:将文本复制出来,粘贴到WORD中(也可存为TXT文本格式再在WORD打开),在WORD中取消原来的换行符,将一行行的文本连接起来,变成一篇通畅规范的文本文件。</p><p>睡前写的,可能有点乱,有问题的朋友直接Q我。</p>
[此贴子已经被作者于2007-5-11 22:48:06编辑过]
|