콘텐츠로 이동

엔티티 - 통합 PDF 스캐너

누구 또는 무엇인가

통합 PDF 스캐너(Unified PDF Scanner)는 PDDocument를 한 번만 로드해 표와 레이아웃 정보를 함께 수집하는 AI-Nornen의 단일 패스 PDF 추출 파이프라인 엔티티입니다.

관련성

이 엔티티는 레이아웃 인식 추출이 단순 아이디어가 아니라 실제 구현 계층까지 내려가 있음을 보여줍니다. 여러 분석기를 분리해서 돌리는 대신 하나의 스캐너로 통합해야 성능과 정합성을 동시에 잡을 수 있습니다.

관련 소스

관련 개념과 엔티티

메모

  • Tabula-java, PDFBox, 좌표 정렬 문제는 이 엔티티를 둘러싼 하위 메커니즘으로 볼 수 있습니다. 핵심은 입력 단계에서부터 단일 문서 패스를 유지해 이후 지식 그래프 정합성을 높인다는 점입니다.