콘텐츠로 이동

개념 - 레이아웃 인식 추출

정의

레이아웃 인식 추출은 PDF와 시나리오 문서의 구조를 텍스트 본문과 분리하지 않고, 표 위치, 강조 스타일, 좌표 정보를 1차 추출 시점부터 함께 반영해 지식 그래프 입력 품질을 높이는 AI-Nornen의 추출 개념입니다.

왜 중요한가

TRPG 시나리오 문서는 단순 문장 덩어리가 아니라 표, 강조, 배치, 섹션 구조가 의미를 결정합니다. 이 정보를 사후 보정으로 붙이면 정합성이 흔들리기 쉽고, 추출 결과가 월드 상태 모델과 어긋날 수 있습니다.

이 저장소 맥락에서의 역할

이 개념은 지식 그래프 TRPG 엔진으로 들어가기 전 입력 계층을 설명합니다. RAG 회수는 이미 있는 정보를 가져오는 데 가깝다면, 레이아웃 인식 추출은 문서 자체를 구조화된 상태 후보로 바꾸는 전처리 계층입니다.

관련 소스

관련 개념과 엔티티

메모

  • 통합 PDF 스캐너, Tabula-java, PDDocument 단일 패스 통합은 이 개념을 구현하는 하위 메커니즘으로 읽을 수 있습니다.