㈜엔에이치엔다이퀘스트 - OCR 데이터(공공)

일반 국민 생활과 밀접한 관련성이 높은 지방자치단체 (창원특례시, 김해시)와 외교 용어가 다수 포함되어있는 외교사료관 공공문서를 수집, 가공하여, 문서에 포함되어있는 다양한 문자 유형(인쇄체, 타자체, 수기 등)의 OCR 문자 인식 기술개발을 위한 인공지능 학습용 데이터셋

리소스

항목
CKAN dataset id 401844bc-6b55-4179-bf99-aaf2eeccb60c
상태 active
url https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71299
버전 2023-11-24
라이선스 cc-zero
pricing 무료
담당자 김경선
담당자 연락처 02-3470-4306
업데이트일 2,023-11-24
유/무료 무료
이용방법 다운로드
제공 기관 수행기관(주관) : ㈜엔에이치엔다이퀘스트
최초 제공일 2,023-04-13
파일 크기 162,067,468,159
최초 수집 일시 2023-07-01T06:18:32…
최근 수집 일시 2024-02-28T10:54:42…

  • ㈜엔에이치엔다이퀘스트 - OCR 데이터(교육) AI 허브

    교육활동 과정에서 작성된 초중고 학생 손글씨 데이터를 이용하여 초중고 학생들의 교육활동을 지원하기 위한 에듀테크 산업에서 손글씨 문자 OCR 인식하는 AI 모델을 개발하기 위한 학습용 데이터
  • ㈜엔에이치엔다이퀘스트 - OCR 데이터(옛한글) AI 허브

    옛한글을 자동으로 인식 및 판독하는, 인공지능 모델 개발에 필요한 대규모 OCR 데이터. 고문헌 및 고문서의 옛한글 이미지와 해당 이미지 내 개별 글자들을 바운딩 박스로 그리고 해당 영역 내 라벨링 정보로 구성된 JSON 파일을 쌍으로 구성하여 글자 수 기준 1천만 자 이상의 규모로 구축.
  • ㈜엔에이치엔다이퀘스트 - OCR 데이터(고서한자) AI 허브

    현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자...
  • ㈜엔에이치엔다이퀘스트 - OCR 데이터(금융 및 물류) AI 허브

    금융과 물류 산업에서 많이 활용되는 서식 기반의 문서들을 인공지능이 자동으로 판독하는 모델 개발에 필요한 다양한 금융권 손필기 데이터와 선적 서류 인쇄물 OCR 데이터. 페이지 단위의 문서 이미지와 해당 이미지내 단어 또는 어절 영역을 4-포인트 폴리곤 박스로 그리고 해당 영역 내 라벨링 정보로 구성된 JSON 파일을 쌍으로 구성하여...

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기