콘텐츠로 이동

ureca_document_parser

다양한 문서 포맷(HWP, HWPX, PDF)을 Markdown으로 변환하는 다중 포맷 파서예요.

주요 기능

  • HWP v5 바이너리 파싱 — 텍스트, 표, 헤딩 구조를 추출해요
  • HWPX (OOXML) 파싱 — ZIP+XML 기반의 최신 한글 포맷을 지원해요
  • PDF 파싱 — pymupdf를 사용한 텍스트 추출을 지원해요
  • Markdown 출력 — 헤딩, 리스트, 테이블 등 문서 구조를 보존해요
  • LangChain 연동 — RAG 파이프라인에 바로 연결할 수 있어요

퀵스타트

설치

uv add ureca_document_parser

CLI로 변환하기

uv run ureca_document_parser 보고서.hwp -o 보고서.md

Python에서 사용하기

from ureca_document_parser import convert

# 파일로 저장
convert("보고서.hwp", "보고서.md")

# 또는 문자열로 반환
markdown = convert("보고서.hwp")

LangChain과 함께 사용하기

from ureca_document_parser import convert

# RAG 파이프라인에 바로 사용 가능한 청크 생성
chunks = convert("보고서.hwp", chunks=True, chunk_size=1000, chunk_overlap=200)

지원 포맷

입력 포맷 설명 문서
HWP 아래한글 v5 바이너리 형식 (2007 이후) 자세히 보기
HWPX 아래한글 OOXML 형식 (ZIP+XML) 자세히 보기
PDF Portable Document Format (pymupdf 필요) 자세히 보기
출력 포맷 설명
Markdown GitHub Flavored Markdown

다음 단계

라이선스

MIT License

기여하기

버그 리포트나 기능 제안은 GitHub Issues로 부탁드려요.