서강대학교 자연어처리 연구실 - 한국어 어체 변환 데이터셋

한국어 대화 시스템에서 활용도가 가장 높은 해요체, 합쇼체, 반말체를 대상으로 한국어 문장을 제작, 수집 체계를 마련하고 관련 정보를 레이블링 한국어 문법에 대한 지식을 보유하고 있는 대학원생이 문장을 분석하고 어체 문장을 작성하는 방식으로 수집 의료 도메인 대화 1,940 문장, 일상, 오피스 대화 672 문장을 수집 역-변환 (Back-transfer) 방법으로 어체 변환을 실험을 수행하는 방식으로 데이터 정확성 검증

리소스

HTML 한국어 어체 변환 데이터셋 HTML

항목	값
CKAN dataset id	f39413c1-f9d7-43dd-bfbf-95b7d4b7bb83
상태	active
url	https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=287
버전	2023-04-07
라이선스	cc-zero
pricing	무료
담당자	서정연
담당자 연락처	02-706-8954
업데이트일	2,023-04-07
유/무료	무료
이용방법	다운로드
제공 기관	수행기관(주관) : 서강대학교 자연어처리 연구실
최초 제공일	2,019-12-07
파일 크기	164,293,061
최초 수집 일시	2022-10-10T02:25:42…
최근 수집 일시	2024-04-21T13:17:08…

연세대학교 교수 - 인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋 AI 허브

네이버 뉴스 기사에 등록된 댓글들과 한국어 트위터 사용자의 트윗들을 수집 비속/비윤리적 표현의 빈도수가 많은 특정 온라인 커뮤니티의 댓글들을 수집하여 구축
- HTML
한국전자기술연구원 - 수어 데이터셋 AI 허브

적용 도메인에 맞추어 선별된 단어 419개에 대한 수어 동영상 영상화질 : Full HD(1920×1080) 이상의 화질 촬영 카메라 수 : 3대 수어 취득 대상자 수 : 20 명
- HTML
에스투더블유랩 - 한국어 사기 관련 정보 스마트치안 빅데이터 유료

정형 데이터로 변환된 정보의 개별적 접근 가능 및 범죄행위의 시계열 분석과 신종 범죄 언어 등을 NLP 기반으로 추출하고 분석함으로써 선제적인 범죄 대응 체계를 갖추는 데 활용
- CSV
한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋 데이터안심구역

국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 [개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건 [특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터...
- CSV

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기

서강대학교 자연어처리 연구실 - 한국어 어체 변환 데이터셋

리소스

메타 데이터

연관 데이터셋

연세대학교 교수 - 인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋 AI 허브

한국전자기술연구원 - 수어 데이터셋 AI 허브

에스투더블유랩 - 한국어 사기 관련 정보 스마트치안 빅데이터 유료

한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋 데이터안심구역

한줄평을 쓰려면 로그인하세요.