Literature90k_clean.csv
샘플 데이터
테이블 미리보기 준비 중...
항목 | 값 |
---|---|
파일명 | Literature90k_clean.csv |
파일 포맷 | CSV |
설명 | 샘플 데이터 |
데이터셋 설명 | 실제 문학, 웹소설, 소설을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료 • 데이터는 한영 말뭉치 언어 데이터로써, 문학
및 소설, 웹소설, 그
외 콘텐츠 분야 등에서 활용 가능
• 데이터 발생 출처: 실제
문학 작품 및 소설 콘텐츠 번역 과정에서 발생된 데이터
• 분야: 주로
시대극,
현대물,
판타지에
집중되어 있음
• 데이터 형태: • 데이터 명세: • 다음과
같이, 한글 원본 문장과 영어 번역 문장이 짝 지어져 나열되어 있음 (순서, 출처
별로 분류 X)
• 200여개 가량 entry가 입력돼 있는 샘플 데이터 참고 • 콘텐츠 분야는 특히 번역 특성이 중요하여 일반 번역과 달리 고도화 품질 요구함
• 콘텐츠 분야 번역은 콘텐츠 시장의 급성장에 따라 지속적으로 동반 성정하고
있음 • 대량
텍스트 특성을 보이는 콘텐츠 특성에 따라 MTPE(Machine Translation Post Editing) 형식으로
AI협업하는
방식의 패러다임이 확산되고 있음
• 본 데이터 공급자는 데이터 공급 기업으로써,
지속적으로
10만
단위의 데이터 공급이 가능함
• 한영 말뭉치 코퍼스는,
한영/영한
두 가지 모두 활용할 수 있는 양방향 특성이 존재함 • 콘텐츠 분야에서 한영 데이터가 아니더라도,
중국어나
일본어
등
주요 언어가 아니면 보통 바로 한국어<> 외국어로
번역할 수 있는 콘텐츠 분야가 많지 않기 때문에 현지인 번역가를 활용하기 위해서라도 영어<>외국어
구조를 활용하는 경우가 많음 • 결과적으론 한국어>영어<>외국어 형태의 번역 파이프라인을 따르게 됨 • 데이터
대형 구매 계약 시 할인 적용 가능(협의 사항)
• 활용
가능 분야: -데이터 번역 및 생산 절차: • 문학 데이터 번역에 있어서 자체 보유한 SaaS MTPE 솔루션 통하여 문학,
소설,
웹툰 등이 번역되고 전문가가 MTPE 상에서
전문 교정/검수한
내역만 별도로 말뭉치화
되어 저장됨
• 전문가의 교정/검수를
거쳐 실제 활용할 콘텐츠 품질로 번역하는 과정이기 때문에 더더욱 데이터 품질이 고도화됨 • 데이터는
특허등록 기술을 기반으로 인공지능 기반 자동 정제, 정렬을
거친 다음 인간의 추가 검토와 교정을 거침 |
url | 파일 다운로드 (안 되면 원본 페이지에서 다운 받으세요) |
원본 페이지 | https://kdx.kr/data/view/35065 |
버전 | 2022-11-15 |
파일 크기 | 1 KB |
행 수 | 12 100건 이하의 작은 데이터 |
컬럼 수 | 3 |
텍스트 인코딩 | utf-8 |
컬럼 구분자 | , 콤마 (COMMA) |
import pandas as pd
df = pd.read_csv('Literature90k_clean.csv', on_bad_lines='skip', delimiter=',', encoding='utf-8', encoding_errors='ignore')
컬럼 | 타입 | 샘플 |
---|---|---|
korSentence | string | None |
engSentence | string | None |
Unnamed: 2 | float64 | None |
항목 | 값 |
---|---|
생성일시 | 2023-09-09T20:33:16.610873 |
curl | curl 'https://kdx.kr/product/getCsvSampleDataList' -H 'Accept: application/json, text/javascript, */*; q=0.01' -H 'Accept-Language: ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7,de;q=0.6' -H 'Cache-Control: no-cache' -H 'Connection: keep-alive' -H 'Content-Type: application/x-www-form-urlencoded; charset=UTF-8' -H 'Pragma: no-cache' -H 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36' -H 'X-Requested-With: XMLHttpRequest' --data-raw 'product_id=35065' --compressed |
아이디 | ee2757f2-fc8f-4d06-8bdc-317984f623b1 |
key | Literature90k_clean.csv |
메타데이터 수정일시 | 2023-09-09T20:33:16.556663 |
데이터셋 아이디 | 9df54eb1-7fad-46b5-83ad-4cd31b8ab9b1 |
상태 | active |