솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터
리소스
-
PDF
구축가이드라인.pdf
PDF
구축가이드라인.pdf
-
PDF
데이터설명서.pdf
PDF
데이터설명서.pdf
항목 | 값 |
---|---|
CKAN dataset id | 1bbd3ece-7ed2-43f3-8550-d72d609943e8 |
상태 | active |
url | https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=624 |
버전 | 2023-12-04 |
라이선스 | cc-zero |
pricing | 무료 |
담당자 | 방재준 |
담당자 연락처 | 02-2193-1682 |
업데이트일 | 2,023-12-04 |
유/무료 | 무료 |
이용방법 | 다운로드 |
제공 기관 | 수행기관(주관) : 솔트룩스 |
최초 제공일 | 2,022-06-24 |
파일 크기 | 9,608,372,142 |
최초 수집 일시 | 2022-09-18T08:16:57… |
최근 수집 일시 | 2024-02-28T10:53:56… |
-
솔트룩스 - 온라인 구어체 말뭉치 데이터 AI 허브
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋 -
㈜웅진북센 - 대규모 구매도서 기반 한국어 말뭉치 데이터 AI 허브
인공지능 학습용 데이터를 수집하고 품질 평가 및 검증을 통하여 고품질의 학습용 데이터를 구축한다 -
솔트룩스파트너스 - 한국어-영어 번역(병렬) 말뭉치 AI 허브
AI 번역 엔진 개발을 위한 뉴스(80만 장), 정부/지자체 홈페이지, 간행물(10만 문장), 행정 규칙, 자치법규(10만 문장), 한국 문화(10만 문장), 구어체(40만 문장), 대화체(10만 문장)의 학습용 문장을 구축한 자연어 데이터 제공 -
고려대학교산학협력단 - 의료, 법률 전문 서적 말뭉치 AI 허브
저작재산권 이용허락을 확보한 의료 및 법률 분야 핵심 전문 도서와 분야 전문성과 최신성을 갖춘 특허(의료), 판결문(법률)을 기반으로 1억 어절의 데이터셋을 구축