동양시스템즈 - 고서 한자 인식 OCR 데이터

현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자 인식(OCR) AI 학습용 데이터셋

리소스

항목
CKAN dataset id 1ed6dd04-ec97-455f-924d-3fc43c188181
상태 active
url https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=603
버전 2023-05-03
라이선스 cc-zero
pricing 무료
담당자 김현
담당자 연락처 02-405-7700
업데이트일 2,023-05-03
유/무료 무료
이용방법 다운로드
제공 기관 수행기관(주관) : 동양시스템즈
최초 제공일 2,022-06-17
파일 크기 93,297,369,336
최초 수집 일시 2022-09-18T08:17:10…
최근 수집 일시 2024-02-28T10:53:59…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기