[目标检测] OCR: 文字检测、文字识别、text spotter,OCR技术,文字检测、识别与Text Spotter的目标检测应用

马肤

温馨提示:这篇文章已超过438天没有更新,请注意相关的内容是否还可用!

摘要:目标检测中的OCR技术,包括文字检测、文字识别和text spotter,主要用于从图像中准确地识别和定位文本信息。该技术能够自动扫描并识别印刷或手写文字,将其转化为数字化文本格式,广泛应用于文档处理、自动驾驶、图像检索等领域。通过高效准确的OCR技术,可以极大地提高文本信息的获取和处理效率。

[目标检测] OCR: 文字检测、文字识别、text spotter,OCR技术,文字检测、识别与Text Spotter的目标检测应用 第1张

OCR技术包含两个主要步骤:文字检测和文字识别,通过端到端的方式完成这两个步骤的方法被称为text spotter。

文字检测数据集摘要

以下是多个文字检测数据集的摘要:

表格描述了各种数据集的名称、语言、体量以及特色。

MTWI数据集包含中英文,20k体量,主要来源于网络图像,包括合成图像、产品描述、网络广告(淘宝)等。

MSRA-TD500中英文数据集,具体信息待补充。

SynthText合成数据,包含800k的图像和8000k的文字。

CTW1500中文数据集,32k体量,主要聚焦于野外场景。

ICDAR 2019-ReCTS关注标识牌上的文字(店铺名等)。

还有其他数据集如ICDAR 2019-ArT、ICDAR2019-LSVT、ICDAR 2017-DeText等,涵盖了不同的语言和应用场景。

OCR方法

前沿的text spotter方法包括PSENet、PAN、PAN++(PAMI 2021)以及DeepSolo(CVPR2023)。

方法框架部分提到了mmocr这个集成方法,虽然并不是最新的(2022年以前),但其预训练方法支持多种语言,包括英文和中文,它的文字识别部分仅支持英文,text spotter尚未整合到统一的接口中。

GitHub高星项目介绍了一些流行的OCR模型,如tesseract、PaddleOCR、EasyOCR等,这些模型各有特色,如PaddleOCR支持多种语言和多种设备,EasyOCR基于pytorch,提供多种语言的支持以及在线DEMO等,还介绍了其他如tesseract.js、UniOCR和OCRmyPDF等项目。

PaddleOCR(PP-OCRv4)测试部分提到,对于弧形分布的文字,检测和识别都不准确,即使放大图片也无法识别,可能与training data有关。

Reference部分给出了一个相关链接,用于进一步了解有关OCR的信息,https://mmocr.readthedocs.io/en/dev-1.x/是有关mmocr的详细文档链接,这部分内容可以进一步补充和完善。


0
收藏0
文章版权声明:除非注明,否则均为VPS857原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 【研发日记】Matlab/Simulink自动生成代码(二)——五种选择结构实现方法,Matlab/Simulink自动生成代码的五种选择结构实现方法(二),Matlab/Simulink自动生成代码的五种选择结构实现方法详解(二)
  • 超级好用的C++实用库之跨平台实用方法,跨平台实用方法的C++实用库超好用指南,C++跨平台实用库使用指南,超好用实用方法集合,C++跨平台实用库超好用指南,方法与技巧集合
  • 【动态规划】斐波那契数列模型(C++),斐波那契数列模型(C++实现与动态规划解析),斐波那契数列模型解析与C++实现(动态规划)
  • 【C++】,string类底层的模拟实现,C++中string类的模拟底层实现探究
  • uniapp 小程序实现微信授权登录(前端和后端),Uniapp小程序实现微信授权登录全流程(前端后端全攻略),Uniapp小程序微信授权登录全流程攻略,前端后端全指南
  • Vue脚手架的安装(保姆级教程),Vue脚手架保姆级安装教程,Vue脚手架保姆级安装指南,Vue脚手架保姆级安装指南,从零开始教你如何安装Vue脚手架
  • 如何在树莓派 Raspberry Pi中本地部署一个web站点并实现无公网IP远程访问,树莓派上本地部署Web站点及无公网IP远程访问指南,树莓派部署Web站点及无公网IP远程访问指南,本地部署与远程访问实践,树莓派部署Web站点及无公网IP远程访问实践指南,树莓派部署Web站点及无公网IP远程访问实践指南,本地部署与远程访问详解,树莓派部署Web站点及无公网IP远程访问实践详解,本地部署与远程访问指南,树莓派部署Web站点及无公网IP远程访问实践详解,本地部署与远程访问指南。
  • vue2技术栈实现AI问答机器人功能(流式与非流式两种接口方法),Vue2技术栈实现AI问答机器人功能,流式与非流式接口方法探究,Vue2技术栈实现AI问答机器人功能,流式与非流式接口方法详解
  • 发表评论

    快捷回复:表情:
    评论列表 (暂无评论,0人围观)

    还没有评论,来说两句吧...

    目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码