关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » 安卓开发 »Android中基于Tesseract OCR的文字识别应用

    Android中基于Tesseract OCR的文字识别应用

    2014-09-15 00:00:00 出处:ITJS
    分享

    一、Tesseract OCR引擎

    Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码。以下是它sourceforge上的网址:

    http://sourceforge.net/projects/tesseract-ocr/ source=directory

    现在已转移到谷歌的代码服务下:

    https://code.google.com/p/tesseract-ocr/

    源码和字库的下载列表:

    https://code.google.com/p/tesseract-ocr/downloads/list

    谷歌的服务器在国内不稳定,可以从http://pkgs.fedoraproject.org下载到所需的软件包和字库包:

    c> 源码:http://pkgs.fedoraproject.org/repo/pkgs/tesseract/tesseract-ocr-3.02.02.tar.gz/

    > 中文字库:http://pkgs.fedoraproject.org/repo/pkgs/tesseract-langpack/tesseract-ocr-3.02.chi_sim.tar.gz/

    > 英文字库:http://pkgs.fedoraproject.org/repo/pkgs/tesseract/tesseract-ocr-3.02.eng.tar.gz/

    二、面向Android的Tesseract工具

    tess-two是Tesseract Tools for Android (tesseract-android-tools) 的一份拷贝,并添加了一些功能。Tesseract Tools for Android是Tesseract OCR和Leptonica图像处理库的Android API与构建文件的集合。github上的网址为:

    https://github.com/rmtheis/tess-two

    关于tess-two的编译过程,可以参考上述网址,根据我的编译经历,发现执行”android update project –path .”一步是,需要指定–target选项,其参数通过命令”android list targets”获取到id值,再指定,如下(记得连接好你的Android手机)。

    root@Leon:/home/work/tess-two# android list targets
    Available Android targets:
    ----------
    id: 1 or "android-18"
         Name: Android 4.3
         Type: Platform
         API level: 18
         Revision: 1
         Skins: WVGA854, WXGA800, WSVGA, WVGA800 (default), WQVGA400, WXGA720, QVGA, WQVGA432, WXGA800-7in, HVGA
         ABIs : armeabi-v7a
    root@Leon:/home/work/tess-two# android update project --path . --target 1

    其中的”1″便是来自id后面的值。之后,便按照tess-two的github上的描述,添加到Eclispe即可。

    三、基于tess-two的Android应用

    有了面向Android的Tesseract库tess-two,接下来就是使用Android应用来测试和使用了。github上的android-ocr就是这样的应用:

    https://github.com/rmtheis/android-ocr

    我测试使用的是来自Mike_Wong的应用,参考了文章《浅析android OCR文字识别》,文章中包含了源码的下载地址。解压源码并导入到Eclipse之后,删除目录中的”gen”目录,并关闭工程再重新打开即可,为的是重新生成gen目录及其中的内容。源码中已包含tess-two编译会生成的libtess.so和liblept.so,并且包含了libjpeg.so。在编译并安装应用之前的唯一步骤是,在目标手机的SD目录下创建tessdata目录,将上面讲述的中英文字库添加到该目录,即“/sdcard/tessdata/”目录。

    经过测试,发现算法的运行时间还是比较慢的,一段话的中文,处理时间大约20秒。识别精度也比较有限,在一张照片中文字比较多时,识别精度有所下降,假如文字比较少且比较大,则精度较高。

    附录:其它参考文章

    1. 《Android OCR 之 tesseract》:http://www.cnblogs.com/hangxin1940/archive/2012/01/13/2321507.html

    2. 《安卓平台tess-two的图片识别终于成功》:http://www.cnblogs.com/muyun/archive/2012/06/12/2546693.html

    3. 《tesseract-ocr训练方法》:http://my.oschina.net/lixinspace/blog/60124

    4. 《Tesseract 3 语言数据的训练方法》:http://blog.wudilabs.org/entry/f25efc5f/

    上一篇返回首页 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    正版 Windows 11产品密钥怎么查找/查看?

    还有3个月,微软将停止 Windows 10 的更新

    Windows 10 终止支持后,企业为何要立即升级?

    Windows 10 将于 2025年10 月终止技术支持,建议迁移到 Windows 11

    Windows 12 发布推迟,微软正全力筹备Windows 11 25H2更新

    Linux 退出 mail的命令是什么

    Linux 提醒 No space left on device,但我的空间看起来还有不少空余呢

    hiberfil.sys文件可以删除吗?了解该文件并手把手教你删除C盘的hiberfil.sys文件

    Window 10和 Windows 11哪个好?答案是:看你自己的需求

    盗版软件成公司里的“隐形炸弹”?老板们的“法务噩梦” 有救了!

    IT头条

    公安部:我国在售汽车搭载的“智驾”系统都不具备“自动驾驶”功能

    02:03

    液冷服务器概念股走强,博汇、润泽等液冷概念股票大涨

    01:17

    亚太地区的 AI 驱动型医疗保健:2025 年及以后的下一步是什么?

    16:30

    智能手机市场风云:iPhone领跑销量榜,华为缺席引争议

    15:43

    大数据算法和“老师傅”经验叠加 智慧化收储粮食尽显“科技范”

    15:17

    技术热点

    SQL汉字转换为拼音的函数

    windows 7系统无法运行Photoshop CS3的解决方法

    巧用MySQL加密函数对Web网站敏感数据进行保护

    MySQL基础知识简介

    Windows7和WinXP下如何实现不输密码自动登录系统的设置方法介绍

    windows 7系统ip地址冲突怎么办?windows 7系统IP地址冲突问题的

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。