CLI 사용법¶
명령줄(CLI)에서 ureca_document_parser를 사용해서 파일을 빠르게 변환할 수 있어요.
기본 사용법¶
파일 변환하기¶
HWPX 파일도 동일하게 동작해요.
표준 출력으로 결과 보기¶
-o 옵션을 생략하면 변환 결과가 터미널에 출력돼요.
파이프와 함께 사용할 수도 있어요.
옵션¶
명령줄 옵션 요약¶
| 옵션 | 설명 | 예시 |
|---|---|---|
input_file |
변환할 입력 파일 경로 (필수) | 보고서.hwp |
-o, --output |
출력 파일 경로 (미지정 시 표준 출력) | -o 보고서.md |
-f, --format |
출력 형식 (기본값: markdown) |
-f markdown |
--list-formats |
지원하는 입력/출력 형식 목록 출력 | --list-formats |
--help |
도움말 메시지 출력 | --help |
출력 포맷 지정¶
-f 또는 --format 옵션으로 출력 포맷을 지정할 수 있어요. 현재는 markdown만 지원해요.
지원 포맷 확인¶
출력 예시:
Supported input formats:
.hwp - HWP v5 binary format
.hwpx - HWPX (OOXML) format
Supported output formats:
markdown (.md)
도움말 보기¶
실전 예시¶
여러 파일 일괄 변환¶
Bash에서 와일드카드를 사용해서 여러 파일을 변환할 수 있어요.
for file in documents/*.hwp; do
uv run ureca_document_parser "$file" -o "output/$(basename "$file" .hwp).md"
done
디렉토리 구조 유지하며 변환¶
find 명령어와 함께 사용하면 서브디렉토리까지 재귀적으로 변환할 수 있어요.
find documents -name "*.hwp" -o -name "*.hwpx" | while read file; do
output="output/${file#documents/}"
output="${output%.*}.md"
mkdir -p "$(dirname "$output")"
uv run ureca_document_parser "$file" -o "$output"
echo "변환 완료: $file → $output"
done
조건부 변환 (이미 존재하면 건너뛰기)¶
for file in documents/*.hwp; do
output="output/$(basename "$file" .hwp).md"
if [ ! -f "$output" ]; then
uv run ureca_document_parser "$file" -o "$output"
echo "변환: $file"
else
echo "건너뛰기: $file (이미 존재)"
fi
done
에러 처리¶
파일을 찾을 수 없을 때¶
지원하지 않는 확장자¶
$ uv run ureca_document_parser 문서.docx
Error: Unsupported file format: .docx
Supported formats: .hwp, .hwpx
파싱 에러¶
파일이 손상되었거나 올바른 형식이 아닐 때:
다음 단계¶
- Python API 가이드 — 코드에서 더 유연하게 사용하기
- LangChain 연동 — RAG 파이프라인 구축하기