솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터

웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋

리소스

항목
CKAN dataset id 1bbd3ece-7ed2-43f3-8550-d72d609943e8
상태 active
url https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=624
버전 2023-12-04
라이선스 cc-zero
pricing 무료
담당자 방재준
담당자 연락처 02-2193-1682
업데이트일 2,023-12-04
유/무료 무료
이용방법 다운로드
제공 기관 수행기관(주관) : 솔트룩스
최초 제공일 2,022-06-24
파일 크기 9,608,372,142
최초 수집 일시 2022-09-18T08:16:57…
최근 수집 일시 2024-02-28T10:53:56…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기