프로젝트 설명
Multi-Engine OCR + LLM 기반 문서 텍스트 추출 시스템
PDF 및 이미지에서 한국어/영어 텍스트를 고품질로 추출하는 OCR 시스템. EasyOCR, Tesseract 두 엔진을 병렬 실행 후 OpenAI GPT로 결과를 통합·보정하여 정확도 극대화.
주요 기능
- 다중 OCR 엔진: EasyOCR(딥러닝) + Tesseract(규칙 기반) 병렬 처리
- LLM 보정: GPT-3.5가 두 OCR 결과 비교 후 오류 수정 및 노이즈 제거
- 3가지 모드: 원본만(무료·빠름) / LLM 보정 / 둘 다
- 실시간 저장: 페이지별 즉시 저장으로 중단 시에도 데이터 보존
기술 스택
- OCR: EasyOCR, Tesseract, BetterOCR
- LLM: OpenAI GPT-3.5-turbo API
- GPU 가속: PyTorch + CUDA 12.1
- PDF 처리: PyMuPDF
성과
- 100페이지 pdf 기준 1분이내 처리