ureca_document_parser¶

다양한 문서 포맷(HWP, HWPX, PDF)을 Markdown으로 변환하는 다중 포맷 파서예요.

주요 기능¶

uv add ureca_document_parser

uv run ureca_document_parser 보고서.hwp -o 보고서.md

from ureca_document_parser import convert

# 파일로 저장
convert("보고서.hwp", "보고서.md")

# 또는 문자열로 반환
markdown = convert("보고서.hwp")

from ureca_document_parser import convert

# RAG 파이프라인에 바로 사용 가능한 청크 생성
chunks = convert("보고서.hwp", chunks=True, chunk_size=1000, chunk_overlap=200)

입력 포맷	설명	문서
HWP	아래한글 v5 바이너리 형식 (2007 이후)	자세히 보기
HWPX	아래한글 OOXML 형식 (ZIP+XML)	자세히 보기
PDF	Portable Document Format (pymupdf 필요)	자세히 보기

출력 포맷	설명
Markdown	GitHub Flavored Markdown

MIT License

버그 리포트나 기능 제안은 GitHub Issues로 부탁드려요.