-
㈜엔에이치엔다이퀘스트 - OCR 데이터(옛한글) AI 허브
옛한글을 자동으로 인식 및 판독하는, 인공지능 모델 개발에 필요한 대규모 OCR 데이터. 고문헌 및 고문서의 옛한글 이미지와 해당 이미지 내 개별 글자들을 바운딩 박스로 그리고 해당 영역 내 라벨링 정보로 구성된 JSON 파일을 쌍으로 구성하여 글자 수 기준 1천만 자 이상의 규모로 구축. -
솔트룩스 - 온라인 구어체 말뭉치 데이터 AI 허브
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋 -
㈜엔에이치엔다이퀘스트 - OCR 데이터(공공) AI 허브
일반 국민 생활과 밀접한 관련성이 높은 지방자치단체 (창원특례시, 김해시)와 외교 용어가 다수 포함되어있는 외교사료관 공공문서를 수집, 가공하여, 문서에 포함되어있는 다양한 문자 유형(인쇄체, 타자체, 수기 등)의 OCR 문자 인식 기술개발을 위한 인공지능 학습용 데이터셋 -
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터 AI 허브
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋 -
㈜엔에이치엔다이퀘스트 - OCR 데이터(교육) AI 허브
교육활동 과정에서 작성된 초중고 학생 손글씨 데이터를 이용하여 초중고 학생들의 교육활동을 지원하기 위한 에듀테크 산업에서 손글씨 문자 OCR 인식하는 AI 모델을 개발하기 위한 학습용 데이터