서강대학교 자연어처리 연구실 - 한국어 어체 변환 데이터셋

한국어 대화 시스템에서 활용도가 가장 높은 해요체, 합쇼체, 반말체를 대상으로 한국어 문장을 제작, 수집 체계를 마련하고 관련 정보를 레이블링 한국어 문법에 대한 지식을 보유하고 있는 대학원생이 문장을 분석하고 어체 문장을 작성하는 방식으로 수집 의료 도메인 대화 1,940 문장, 일상, 오피스 대화 672 문장을 수집 역-변환 (Back-transfer) 방법으로 어체 변환을 실험을 수행하는 방식으로 데이터 정확성 검증

리소스

항목
CKAN dataset id f39413c1-f9d7-43dd-bfbf-95b7d4b7bb83
상태 active
url https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=287
버전 2023-04-07
라이선스 cc-zero
pricing 무료
담당자 서정연
담당자 연락처 02-706-8954
업데이트일 2,023-04-07
유/무료 무료
이용방법 다운로드
제공 기관 수행기관(주관) : 서강대학교 자연어처리 연구실
최초 제공일 2,019-12-07
파일 크기 164,293,061
최초 수집 일시 2022-10-10T02:25:42…
최근 수집 일시 2024-04-21T13:17:08…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기