티스토리 뷰

tesseract image.png output.txt

 Tesseract 공식 GitHub에 따르면 아래와 같다.

: Tesseract는 오픈 소스 OCR 엔진으로 Apache 2.0 License 하에 이용이 가능하다. Tesseract는 command line을 통해 바로 사용이 가능하며, API를 사용해 이미지로부터 텍스트 추출도 가능하다. 광범위한 연어를 지원하고. Tesseract는 빌트인 GUI는 없지만, 여러 3rdParty에서 이용이 가능하다. Tesseract에 대한 외부 툴이나 래퍼, 트레이닝 프로젝트는 AddOns에 나열돼있다.

 Tesseract는 Aparche 2.0 License 하에 당신의 프로젝트에서도 사용이 가능하다. 모든 기능을 갖춘 API가 있으며, 안드로이드와 아이폰을 포함한 다양한 대상에 맞게 컴파일 할 수 있다. Tesseract 4.0은 LSTM 뉴럴 네트워크에 기반한 새로운 OCR 엔진을 추가했다.

 

1. Tesseract 사용 예시

(1) cmdline line

tesseract image.png output.txt

(2) Python script 사용 예시

import pytesseract
from PIL import Image

# Make sure you have the correct path to the Tesseract executable
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# Open an image file
img = Image.open('image.png')

# Perform OCR on the image
text = pytesseract.image_to_string(img)

# Print the result
print(text)

 

2. Tesseract 장단점

(1) 장점

  • 오픈 소스: 무료 오픈 소스로 커뮤니티의 기여와 향상, 커스터마이즈가 가능
  • 높은 정확도: 특히 선명한 인쇄 텍스트가 포함된 고해상도 이미지를 처리할 때 가장 정확한 OCR 툴 중 하나
  • 언어 지원: 100개 이상의 언어를 지원해 다양한 앱에 다용도로 활용이 가능
  • 트레이닝 기능: 새로운 글꼴과 언어로 Tesseract를 트레이닝 시켜 특정 상황에서 정확도 향상 가능
  • 커뮤니티 및 지원: 대규모 사용자 커뮤니티와 광범위한 문서가 있어 문제 해결과 공부가 수월

(2) 단점

  • 저품질 이미지에서 낮은 성능: 저품질 이미지와 왜곡된 텍스트, 손글씨에서 정확도가 상당히 하락
  • 내장된 전처리(preprocessing) 부재: 내장된 이미지 전처리 기능이 없어. OCR 결과를 매우 향상 시킬 수 있는 전처리(preprocessing)이 없어 별개의 툴이나 라이브러리를 통해 사용
  • 느린 처리 속도: 대용량 문서에서 상용 OCR 엔진에 비해 속도가 느리기도
  • 복잡한 트레이닝 과정: 사용자가 Tesseract를 직접 트레이닝 시킬 수 있지만 초보자에게는 그 과정이 복잡하고 많은 시간이 소요
  • 복잡한 레이아웃 인식 어려움: 여러 열이나 포함된 이미지 또는 텍스트와 그래픽이 혼합된 복잡한 문서에서 텍스트를 정확히 인식하는데 어려움을 겪을 수 있음

 

참고

- https://github.com/tesseract-ocr/tesseract

- https://tesseract-ocr.github.io/tessdoc/#introduction

- https://tesseract-ocr.github.io/tessdoc/User-Projects-%E2%80%93-3rdParty.html (3rdParty GUI)

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함
반응형