설치¶
기본 설치¶
uv를 사용해서 설치할 수 있어요.
pip를 사용한다면:
이렇게 하면 HWP와 HWPX 파일을 Markdown으로 변환하는 기본 기능을 사용할 수 있어요.
선택적 의존성¶
필요한 기능에 따라 추가 의존성을 설치할 수 있어요.
LangChain 청크 분할¶
langchain-text-splitters를 사용해서 문서를 RAG용 청크로 분할해요.
이후 convert_to_chunks() 함수를 사용할 수 있어요. 자세한 내용은 LangChain 연동 가이드를 참고하세요.
PDF 파싱¶
준비 중
PDF 파싱 기능은 아직 개발 중이에요.
PyMuPDF를 사용해서 PDF 파일을 파싱해요.
OCR (이미지 텍스트 추출)¶
준비 중
OCR 기능은 아직 개발 중이에요.
Pillow + pytesseract를 사용해서 이미지에서 텍스트를 추출해요.
모든 기능 설치¶
개발 환경 설정¶
라이브러리 자체를 수정하거나 기여하고 싶다면 저장소를 클론하고 개발 의존성을 설치하세요.
테스트 실행:
자세한 내용은 포맷 확장 가이드를 참고하세요.