고려대학교 산학협력단 - 한국어-영어 합성 기계번역 품질 예측 데이터셋

한국어-영어 합성 기계번역 품질 예측 데이터(A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation, QUAK)는 한국어 문장과 영어 기계번역 문장을 참조하여 각 문장들에 대한 기계번역 결과 품질을 토큰별 OK/BAD 태그로 예측하는 기계번역 품질 예측 모델 학습 데이터셋이다. 해당 데이터로 학습한 기계번역 품질 예측 모델은 정답 문장이 없이도 번역의 품질을 예측할 수 있으므로 정답 문장이 없는 real-world problems에 적용될 수 있다. 기계번역 결과 중 어떠한 토큰(어절)이 잘못 번역되었는지를 단어별로 OK/BAD 태그하며, 얼라인된 소스토큰에 대해서도 태그를 나타내므로 번역 언어를 모르는 사용자들도 어떤 단어의 번역이 잘못되었는지를 알 수 있다.

리소스

항목
CKAN dataset id 3a00826a-2f61-4ab3-8aa6-0453bcfeaabb
상태 active
url https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71268
버전 2023-08-01
라이선스 cc-zero
pricing 무료
담당자 어수경
담당자 연락처 02-3290-2684
업데이트일 2,023-08-01
유/무료 무료
이용방법 다운로드
제공 기관 수행기관(주관) : 고려대학교 산학협력단
최초 제공일 2,022-11-28
파일 크기 2,135,700,981
최초 수집 일시 2022-12-02T21:06:43…
최근 수집 일시 2024-04-21T13:14:23…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기