Projects

[Git] EasyOCR 뜯어보기.

마메프 2022. 3. 10. 15:00
반응형

Intro

OCR (Optical Character Recognition) 기술은 최근 고도화된 딥러닝을 기반으로 크게 성장 중이다.

고성능의 OCR 프로그램은 다음과 같은 프로젝트에서 사용되어질 수 있다. 

  • 자동화 된 데이터 처리 및 데이터 입력 ( 예 : 이력서 지원자 추적 시스템)
  • 서적 표지의 사진을 찍는 것 만으로, 손쉬운 검색( 쇼핑 페이지나, 도서관이라면 길찾기 서비스로 전환 )
  • 필기체를 컴퓨터가 읽을 수있는 텍스트로 변환, 문서화 용이
  • 시각 장애가있는 사용자를 돕는 독자 프로그램에서 문서를 더욱 유용하게 사용
  • 역사적인 문서와 신문 보존, 검색 가능
  • 데이터 추출 및 회계 프로그램으로의 전송 (예 : 수령 및 송장)
  • 검색 엔진 에서 사용할 문서 인덱싱
  • 스피드 카메라 및 레드 라이트 카메라 소프트웨어로 운전 면허증 판별
  • 말로 표현할 수없는 사람들을위한 음성 합성기 - 이론 물리학자인 Stephen Hawking은 아마도 음성 합성기 프로그램의 가장 잘 알려진 사용자 일 것입니다.

 

EasyOCR 

git : https://github.com/JaidedAI/EasyOCR

 

GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chines

Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. - GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ ...

github.com

Text Detection : CRAFT

Detection execution uses the CRAFT algorithm from this official repository and their paper (Thanks @YoungminBaek from @clovaai). We also use their pretrained model. 

 

Character Region Awareness for Text Detection

Scene text detection methods based on neural networks have emerged recently and have shown promising results. Previous methods trained with rigid word-level bounding boxes exhibit limitations in representing the text region in an arbitrary shape. In this p

arxiv.org

CRAFT:Character Region Awareness for Text Detection 의 gt label 제작 프레임워크. 주요 score값인, Region score와, Affinity score값이 잘 표현 되어있다.
CRAFT 모델 네트워크.

 

Text Recognition : CRNN

The recognition model is a CRNN (paper). It is composed of 3 main components: feature extraction (we are currently using Resnet) and VGG, sequence labeling (LSTM) and decoding (CTC). The training pipeline for recognition execution is a modified version of the deep-text-recognition-benchmark framework. (Thanks @ku21fan from @clovaai) This repository is a gem that deserves more recognition.

 

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Image-based sequence recognition has been a long-standing research topic in computer vision. In this paper, we investigate the problem of scene text recognition, which is among the most important and challenging tasks in image-based sequence recognition. A

arxiv.org

 

CRNN:Convolutional Recurrent Neural Network 모델 구조. 3 stage 구조를 가지고 있음을 보여준다. LSTM 은 bidirectional LSTM를 채택 하였다.
Convlayer(LesNet, VGG) 를 통해 얻어진 Feature Seauence가 각각 어떤 부분을 represent하는지 보여준다.

 

반응형

'Projects' 카테고리의 다른 글

[Model Monitoring] ML 프로젝트 모델 모니터링  (0) 2022.08.10