엔티티 - 통합 PDF 스캐너¶
누구 또는 무엇인가¶
통합 PDF 스캐너(Unified PDF Scanner)는 PDDocument를 한 번만 로드해 표와 레이아웃 정보를 함께 수집하는 AI-Nornen의 단일 패스 PDF 추출 파이프라인 엔티티입니다.
관련성¶
이 엔티티는 레이아웃 인식 추출이 단순 아이디어가 아니라 실제 구현 계층까지 내려가 있음을 보여줍니다. 여러 분석기를 분리해서 돌리는 대신 하나의 스캐너로 통합해야 성능과 정합성을 동시에 잡을 수 있습니다.
관련 소스¶
- 소스 - AI-Nornen 프로젝트 상태
- repo-local
raw/imports/ai-nornen-project-status.md
관련 개념과 엔티티¶
메모¶
Tabula-java,PDFBox, 좌표 정렬 문제는 이 엔티티를 둘러싼 하위 메커니즘으로 볼 수 있습니다. 핵심은 입력 단계에서부터 단일 문서 패스를 유지해 이후 지식 그래프 정합성을 높인다는 점입니다.