OCR 이슈

7 groups / 28 samples

O001 · 텍스트 인식 오류/누락

Image No. 1
"시 회사에…포합됩니다" 만 전사 하면 되는지 확인 요청

O002 · 읽기 순서/문서 구조

Image No. 02
본문이 한 페이지 상에 두개 이상의 단으로 이루어진 경우 첫번째 단이 인식된 후 다음 단이 나오는 것이 텍스트를 확인하는데 편리할 것. 현재는 좌우 왔다갔다 위에서 아래방향으로 출력

O003 · 회전/방향 텍스트

Image No. 36
본문 방향이 틀리게 인식된경우, 수정 불가한지.

O004 · 텍스트 인식 오류/누락

Image No. 35-2
Page 2 인식결과 출력 오류: 상단 부분은 35의 결과 출력 (box, layout 모두)
No image

O005 · 박스/중복/범위 처리

Image No. 41
텍스트는 전사가 잘 되었을 때도 박스 수정 필요한지.

O006 · 박스/중복/범위 처리

Image No. 3
박스 경계선으로 인한 인식 오류
-> 박스 레이아웃 수정 가능 여부 문의

O007 · 텍스트 인식 오류/누락

Image No. 3
텍스트 인식 오류
문장 인식 안됨

O008 · 텍스트 인식 오류/누락

Image No. 3
텍스트 인식 오류
문장 인식 안됨

O009 · 박스/중복/범위 처리

Image No. 3
레이아웃 박스 중복으로 잡힘,
-> 중복으로 전사해도될 지

O010 · 읽기 순서/문서 구조

Image No. 3
인식 순서 오류 상관없나

O011 · 회전/방향 텍스트

Image No. 32
기울어진 문장에 대한 전사 어디까지
인식은 위에 한문장만 됨

O012 · 손글씨·특수기호·원문 표기

Image No. 33
박스 안에 체크 등
특수기호 전사 규칙?

O013 · 텍스트 인식 오류/누락

Image No. 43
text로 인식 오류,
각 레이블에 대한 명확한 정의 및 지침 필요

O014 · 박스/중복/범위 처리

Image No. 45
음절 단위로 인식된 오류

O016 · 판독불가·가림·부분 전사

Image No. 57
범위 밖 화면 인식 처리 문제
전사 삭제?

O017 · 판독불가·가림·부분 전사

Image No. 1
가려진 부분은 보이는데까지 전사 필요한지? 아예 삭제하는게 맞는지?

O018 · 박스/중복/범위 처리

Image No. 59
빨간색 노란색 합쳐야하는지?

O019 · 회전/방향 텍스트

Image No. 88
기울어진 문장에 대한 전사 어디까지

O020 · 박스/중복/범위 처리

Image No. 39
box 부분엔 '회원권 세부사항'내용 박스 다 쳐저 있는데, layout엔 아무 표시 없는 것도 괜찮은지?

O021 · 손글씨·특수기호·원문 표기

Image No. 5
수기 데이터 처리 : 인쇄된 글자가 아닌 손글씨나 수기 낙서가 포함된 영역을 OCR 대상에서 제외할 것인지, 아니면 별도의 라벨로 관리할 것인지 확인.

O022 · 손글씨·특수기호·원문 표기

Image No. 5
수기 데이터 처리 : 수기 내에 맞춤법 오류 및 오탈자 (예: 하였읍니다, 혜서 등)에 대한 전사 규칙을 어떻게 적용할지 확인이 필요.

이미지에 적힌 그대로(오타 포함) 전사? 표준어 맞춤법에 맞게 수정?

O023 · 판독불가·가림·부분 전사

Image No. 39
판독 불가인 경우,
1) 박스를 제거?(박스를 제거하면 저장이 되나요?)
2) 아니면 박스는 유지하고 전사 텍스트 부분을 공란으로 저장?

O024 · 판독불가·가림·부분 전사

Image No. 39
문서 일부 식별 불가 시 작업 범위 처리 기준 확인 필요.
1) 전체 제거?
2) 부분 전사?

O025 · 박스/중복/범위 처리

Image No. 87
중복 생성된 박스 처리 확인

일한 텍스트 영역에 대해 블록이 중복으로 생성(1번에서 잡히고, 2번에서 또 잡히는 현상)되는 케이스가 발생.

동일 문구에 대해 박스가 중복될 경우, 하나를 삭제(Delete)하고 단일 박스만 남기는 것이 맞는지 확인 필요.

O026 · 단위/특수기호 OCR 보정 기준

Image No. 1
예시 이미지에서 “80g/㎡” 또는 “80g/m²”와 같은 단위 표기가 OCR 결과에서 “80g/m]”, “80g/ml” 등으로 오인식될 수 있음. 검수 시 원본에서 위첨자/단위 기호가 명확히 보이면 “㎡” 또는 “m²”처럼 원문 의미에 맞게 보정하고, 임의로 일반 문자나 다른 단위로 바꾸지 않는 기준이 필요함.

O027 · 단위/특수기호 OCR 보정 기준

Image No. 8
예시 이미지의 뒤로가기, 메뉴, 검색, 북마크, 공유 아이콘이 OCR 결과에서 “く � ᄀᆞᆯ”처럼 의미 없는 문자로 인식됨. 해당 영역은 실제 텍스트가 아니므로 OCR 전사 대상에서 제외하고, VLM에서는 필요 시 icon/image/UI element로 라벨링하는 기준이 필요함.

O028 · 단위/특수기호 OCR 보정 기준

Image No. 54
실제 한글 문자가 아닌 아이콘·그림·기호 영역이 OCR에서 한글 문자로 인식되는 경우, OCR 결과를 유지할지 삭제/비문자 처리할지 기준 확인 필요 예시 이미지에서 원형 아이콘/기호 형태의 비문자 영역이 OCR 결과에서 “어”처럼 한글로 오인식됨. 해당 영역이 실제 문자가 아니라면 OCR 전사 대상에서 제외하고, 임의로 한글 텍스트로 보정하지 않는 기준이 필요함.

O029 · 단위/특수기호 OCR 보정 기준

Image No. 22
이미지에서 나눗셈 계산식 “27)665” 형태의 수식 영역이 OCR 결과에서 “27세 6 5”처럼 한글이 섞인 잘못된 텍스트로 인식됨. 수식/계산식은 일반 문장 OCR 기준이 아니라 원본에 보이는 숫자·기호·배치를 기준으로 보정해야 하며, 필요 시 LaTeX 또는 지정된 수식 표기 방식으로 입력하는 기준이 필요함