-
㈜포티투마루 - 자연어 기반 질의(NL2SQL) 검색 생성 데이터
데이터베이스에 대해 데이터를 검색하는 자연어 질문과 그와 의미가 동일한 SQL 질의의 쌍으로 구성된 데이터셋으로, 공공기관 데이터 플랫폼에서 수집한 데이터베이스를 활용하여 다양한 분야의 자연어 질문을 SQL 질의로 변환할 수 있는 NL2SQL 모델 개발을 위한 데이터셋을 제공 HTML 미리보기 -
㈜디엠티랩스 - 방송콘텐츠 한국어-유럽어 통·번역 음성 데이터
방송 콘텐츠 분야의 유럽어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 유럽어 통·번역 말뭉치 데이터 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation;... -
경북대학교 산학협력단 - 기술과학 문서 기계독해 데이터
지문-질문-답변으로 구성된 약 40만 건의 데이터셋으로 수식은 LaTex을, 표는 html 문법을 이용하고 동의 질문을 함께 구축함. ‘정답경계추출형’, ‘YesNo 단문형’, ‘표 정답 추출형’, ‘다지선다형’, ‘절차형’ 5가지로 구분 HTML 미리보기 -
주식회사 에프에스 - 시간 표현 탐지 데이터
본 과제는 텍스트 자료에서 시간표현, 사건, 시간 관계를 탐지하는 인공지능 모델의 학습용 데이터 셋 구축을 목적으로 함. - 뉴스, 대화, 역사, 스포츠 등 시간 정보가 존재하는 문서에서 사건의 발생 시각을 탐지, AI가 자동으로 이에 관한 지식을 추출하여 지능형 질의응답 서비스 등을 가능하게 하는 학습데이터... -
㈜알토비전 - 추상 요약 사실성 검증 데이터
요약문의 오류를 검출하고 수정하여 궁극적으로는 AI의 텍스트 자동 요약 성능을 향상하기 위한 인공지능 학습용 데이터. AI 요약문과 사람 요약문에 포함된 오류를 대분류(문장 생성 오류, 요약문의 내용 오류), 소분류(오류 유형 6가지)로 구분하여 라벨링함. HTML 미리보기 -
주식회사 바이브컴퍼니 - 숫자연산 기계독해 데이터
본 데이터는 경제 및 스포츠 분야의 뉴스 기사 지문(324,026건)에 숫자의 가감산, 비율연산, 날짜의 가감산과 추출, 양자 혹은 다자 대상의 수량적 비교 등의 숫자연산이 포함된 질의와 이에 대응하는 응답(414,940쌍)을 라벨링한 인공지능 학습용 데이터임 HTML 미리보기 -
이화여자대학교 산학협력단 - 다양한 문화콘텐츠 스토리 데이터
스토리 작품의 서사단위를 유닛으로 하여 줄거리를 작성하고 설정, 모티프, 인물, 서사단계, 감정, 장소 등의 스토리 창작 요소를 라벨링 HTML 미리보기 -
경북대학교 산학협력단 - 기술과학 요약 데이터
지문, 전문용어, 단서문장, 요약문으로 구성된 12만건의 데이터셋으로 수식은 LaTex을 이용함. 전문성이 요구되는 기술과학 분야 문서를 국가 오픈액세스 플랫폼 AccessOn, 국내 학회, 전문 서적 출판사 등에서 수집된 원시 데이터를 통해 수집하여 구축함 HTML 미리보기 -
글나무 주식회사 - 관광 음식메뉴판 데이터
관광 음식메뉴판의 OCR 인식 및 기계 번역 품질 향상을 위해, 메뉴판 이미지로부터 추출한 ‘음식 메뉴명’의 지식정보 및 번역문으로 구성한 라벨링 데이터와 전국 음식점의 메뉴판 이미지로 구성한 AI 학습용 데이터셋 HTML 미리보기 -
주식회사 투비원솔루션즈 - 음악 유사성 판별 데이터
장르별 음원 데이터로 이루어진 음악 간의 유사성을 설명 가능 하도록 판별하기 위한 인공지능 학습용 데이터 HTML 미리보기 -
-
고양시 - 어린이 음성 맥락 인식률 향상을 위한 방송 음성 및 자연어 처리 학습용 데이터
어린이 교육용 방송 영상(EBS, KBS)으로부터 수집한 어린이 교육 방송 영상을 활용하여, 어린이 음성/맥락 인식률 향상을 위한 방송 음성 및 자연어 처리 학승용 데이터셋을 구축 HTML 미리보기 -
성균관대 산학협력단 - 문장 유형(추론, 예측 등) 판단 데이터
ㅇ 문장 유형(추론, 예측 등) 판단 데이터 16만 5천 문장 이상 구축 ㅇ 역사, 사회, 금융, 문화, IT·과학, 생활·건강 카테고리에 해당하는 원시데이터를 수집·정제, 라벨링하여 인공지능 기술 개발에 필요한 학습용 문장 유형 데이터셋 구축 ⋅ 문장 유형 판단 라벨링으로 확실성, 시간성, 긍정/부정 극성 별로... -
스마트쿱㈜ - 심볼(로고) 생성 데이터
ㅇ텍스트 기반 로고 생성 인공지능 모델 성능 향상을 위한 데이터를 구축하여 텍스트 입력에 디자인 컨셉을 더해 텍스트를 로고화 해주는 인공지능 로고 디자인 개발에 활용할 수 있도록 함 ㅇ텍스트 입력을 통하여 브랜드 이미지를 연상할 수 있는 로고 자동 생성 인공지능 모델링을 활용해 자동 심볼(로고) 생성 솔루션 및... -
한국외국어대학교 - 발화유형(문어/구어/채팅)별 기계번역 병렬 말뭉치
한국어 계열 기계번역의 언어별 성능, 어투, 도메인 등, 다양한 요소를 평가할 수 있도록 벤치마크 데이터셋 구축 HTML 미리보기 -
한밭대학교 산학협력단 - 외부 지식 기반 멀티모달 질의응답 데이터
인간이 가진 상식적인 지식이나 배경지식을 바탕으로, 이미지에 관련한 질문에 대해 이미지 속에서 답을 찾아야 하는 태스크 HTML 미리보기 -
㈜와이즈넛 - SNS 데이터 고도화
2020년 한국어 SNS데이터와 2021년 주제별 텍스트 일상 대화 데이터의 유형을 최소 1개에서 최대 3개로 멀티라벨링 하여 한국어 일상대화 AI 모델의 품질 향상을 위한 학습용 데이터 셋 제공 -
㈜디엠티랩스 - 방송콘텐츠 한국어-유럽어 번역 말뭉치
방송 콘텐츠 분야의 유럽어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 유럽어 통·번역 말뭉치 데이터 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation;... -
㈜나라지식정보 - 일반상식 문장 생성 데이터
■ 문장을 자동으로 생성하고 상황에 맞는 대답을 할 수 있는 지능형 어플리케이션 개발을 위한 문장 생성 학습용 데이터셋 ■ ‘한국어 일반 상식 문장 데이터 구축’ 과제 중 15-1 데이터(일반상식 문장 교정 데이터)에서 추출한 개념 정보(동사·명사, 체언, 용언)를 재구성하여 일반 상식에 부합하는 자연스러운 한국어... -
㈜ 트위그팜 - 기술과학 분야 한-영 번역 병렬 말뭉치 데이터
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 기술과학 번역기의 성능 향상을 위한 학습용 데이터 -
㈜ 트위그팜 - 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 일상생활 및 구어체 번역기의 성능 향상을 위한 학습용 데이터 -