인사이트베슬 - 문학/소설 한영 말뭉치 코퍼스 데이터 9만 건

실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료

• 데이터는 한영 말뭉치 언어 데이터로써, 문학 및 소설, 웹소설, 그 외 콘텐츠 분야 등에서 활용 가능
• 데이터 발생 출처: 실제 문학 작품 및 소설 콘텐츠 번역 과정에서 발생된 데이터

• 분야: 주로 시대극, 현대물, 판타지에 집중되어 있음

• 데이터 형태:


• 데이터 명세:



• 다음과 같이, 한글 원본 문장과 영어 번역 문장이 짝 지어져 나열되어 있음 (순서, 출처 별로 분류 X)
• 200여개 가량 entry가 입력돼 있는 샘플 데이터 참고



• 콘텐츠 분야는 특히 번역 특성이 중요하여 일반 번역과 달리 고도화 품질 요구함
  •   의미 전달이나 단순 정확도 외에도 번역 품질과 문맥, 감정, 상황 반영 등이 매우 중요함
• 콘텐츠 분야 번역은 콘텐츠 시장의 급성장에 따라 지속적으로 동반 성정하고 있음
• 대량 텍스트 특성을 보이는 콘텐츠 특성에 따라 MTPE(Machine Translation Post Editing) 형식으로 AI협업하는 방식의 패러다임이 확산되고 있음


• 본 데이터 공급자는 데이터 공급 기업으로써, 지속적으로 10만 단위의 데이터 공급이 가능함
• 한영 말뭉치 코퍼스는, 한영/영한 두 가지 모두 활용할 수 있는 양방향 특성이 존재함


• 콘텐츠 분야에서 한영 데이터가 아니더라도, 중국어나 일본어 등 주요 언어가 아니면 보통 바로 한국어<> 외국어로 번역할 수 있는 콘텐츠 분야가 많지 않기 때문에 현지인 번역가를 활용하기 위해서라도 영어<>외국어 구조를 활용하는 경우가 많음

• 결과적으론 한국어>영어<>외국어 형태의 번역 파이프라인을 따르게 됨



• 데이터 대형 구매 계약 시 할인 적용 가능(협의 사항)
• 활용 가능 분야:




-데이터 번역 및 생산 절차:

 문학 데이터 번역에 있어서 자체 보유한 SaaS MTPE 솔루션 통하여 문학, 소설, 웹툰 등이 번역되고 전문가가 MTPE 상에서 전문 교정/검수한 내역만 별도로 말뭉치화 되어 저장됨
• 전문가의 교정/검수를 거쳐 실제 활용할 콘텐츠 품질로 번역하는 과정이기 때문에 더더욱 데이터 품질이 고도화됨




• 데이터는 특허등록 기술을 기반으로 인공지능 기반 자동 정제, 정렬을 거친 다음 인간의 추가 검토와 교정을 거침


 

리소스

항목
CKAN dataset id 9df54eb1-7fad-46b5-83ad-4cd31b8ab9b1
상태 active
url https://kdx.kr/data/view/35065
버전 2022-11-15
라이선스 cc-zero
pricing 유료
가격 0
담당자 연락처 데이터 구매 문의는 상품 문의를 이용해주세요
제공 기관 인사이트베슬
최초 수집 일시 2023-09-09T20:33:16…
최근 수집 일시 2023-09-10T10:30:14…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기