-
㈜ 트위그팜 - 기술과학 분야 한-영 번역 병렬 말뭉치 데이터 AI 허브
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 기술과학 번역기의 성능 향상을 위한 학습용 데이터 -
서울대학교 - 안내 로봇 인터랙션 멀티모달 AI 허브
안내 서비스를 수행하는 로봇시점 영상 및 음성 데이터 -
㈜와이즈넛 - 요약문 및 레포트 생성 데이터 AI 허브
다양한 한국어 원문 데이터로부터 정제된 추출 및 생성 요약문을 도출하고 검증한 한국어 문서요약 AI 데이터셋으로, 추출요약을 포함하여 본문에서 중요한 문장을 하나의 새로운 요약문으로 창조하는 생성요약(Abstractive Summarization)을 위한 데이터 세트를 구축하고 이를 실제 모델에 학습 -
㈜나라지식정보 - 일반상식 문장 교정 데이터 AI 허브
■ 국어를 사용하는 사람들이 매일매일의 생활에서 듣고 보고 사용하는 기초적이고 핵심적인 문장으로 구성된 데이터로 이를 통해 AI 모델이 사람의 생활에서 납득 가능한 논리적 추정을 할 수 있을 것으로 기대함 ■ 데이터 구축 목적에 부합하는가는 AI 모델이 일상생활에서 두루 쓰이는 용어 및 문장을 이해하고 이로부터 기대되는 감정과 상황... -
㈜와이즈넛 - 방송 콘텐츠 대본 요약 데이터 AI 허브
정제가 완료된 다양한 방송 콘텐츠 대본 데이터로부터 생성 요약문을 도출한 방송 콘텐츠 대본 요약 AI 데이터셋으로, 방송 데이터의 분류는 물론, 대사의 요약, 상황 묘사, 상황 추론의 데이터를 구축함으로써 방송콘텐츠의 보존과 더불어 재활용의 가치를 부여하여 방송콘텐츠의 재생산, 유통을 활성화 -
㈜디엠티랩스 - 방송콘텐츠 한국어-유럽어 통·번역 음성 데이터 AI 허브
방송 콘텐츠 분야의 유럽어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 유럽어 통·번역 말뭉치 데이터 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural Machine Translation; NMT)용... -
㈜웅진북센 - 대규모 구매도서 기반 한국어 말뭉치 데이터 AI 허브
인공지능 학습용 데이터를 수집하고 품질 평가 및 검증을 통하여 고품질의 학습용 데이터를 구축한다 -
포티투마루 - 도서자료 기계독해 AI 허브
기존 AI 질의응답 서비스의 기반이 되어온 지식베이스(Knowledge Base)가 가진 한계 및 비효율성 등을 극복하기 위해 자연어 형태의 질의를 받아 지식 정보를 제공하는 서비스에 활용할 수 있는 딥러닝 기반 기계 독해 학습데이터셋 구축 -
성균관대 산학협력단 - 문장 유형(추론, 예측 등) 판단 데이터 AI 허브
ㅇ 문장 유형(추론, 예측 등) 판단 데이터 16만 5천 문장 이상 구축 ㅇ 역사, 사회, 금융, 문화, IT·과학, 생활·건강 카테고리에 해당하는 원시데이터를 수집·정제, 라벨링하여 인공지능 기술 개발에 필요한 학습용 문장 유형 데이터셋 구축 ⋅ 문장 유형 판단 라벨링으로 확실성, 시간성, 긍정/부정 극성 별로 스타일 태그 라벨링... -
(주)티맥스에이아이 - 에세이 글 평가 데이터 AI 허브
다양한 학년군의 에세이 및 에세이 평가 점수로 구성된 데이터 • 에세이는 전문가의 자문을 통해 구성된 50가지 주제로 구성되어 있음 • 에세이에 대한 평가는 3인의 전문가 평가를 통해 이뤄졌으며, 최대 11가지 평가항목으로 이뤄진 루브릭을 통해 데이터의 신뢰성을 높임 -
미디어젠㈜ - 화자 인식용 음성 데이터 AI 허브
화자의 여러 발화 패턴으로부터 발화자를 구분할 수 있는 화자인식 인공지능을 훈련하기 위한 데이터셋 -
솔트룩스파트너스 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 AI 허브
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공 -
㈜데이터드리븐 - 학생 청소년 핵심역량분석 교육 데이터 AI 허브
실제 교육 현장에서 학생을 관찰한 텍스트데이터를 정규화하여, 정규화된 결과를 교육적 역량으로 치환하고 이를 기준으로 수업기록을 교육 전문가를 통한 어노테이션을 진행하여, 교육 텍스트에서 정량적 역량 점수를 예측할 수 있는 인공지능 학습용 데이터셋 -
주식회사 투비원솔루션즈 - 음악 유사성 판별 데이터 AI 허브
장르별 음원 데이터로 이루어진 음악 간의 유사성을 설명 가능 하도록 판별하기 위한 인공지능 학습용 데이터 -
㈜알토비전 - 추상 요약 사실성 검증 데이터 AI 허브
요약문의 오류를 검출하고 수정하여 궁극적으로는 AI의 텍스트 자동 요약 성능을 향상하기 위한 인공지능 학습용 데이터. AI 요약문과 사람 요약문에 포함된 오류를 대분류(문장 생성 오류, 요약문의 내용 오류), 소분류(오류 유형 6가지)로 구분하여 라벨링함. -
미디어젠㈜ - 다화자 가창 데이터 AI 허브
저작권 포함 미디/가사파일 구매하여 발라드/R&B, 락/팝, 트로트 장르를 대상으로 1,500곡을 18명의 가수에게 분배되어 총 4,500개의 음성 데이터를 구축. -
㈜코테크시스템 - 소음 환경 음성인식 데이터 AI 허브
음성인식기술 성능개선을 위한 학습데이터 구축을 위해 주변 소음이 자연스럽게 혼합된 음성데이터를 수집/정제/가공하여 인공지능(AI) 학습용 데이터셋을 구축 -
솔트룩스이노베이션 - 다국어 구어체 번역 병렬 말뭉치 데이터 AI 허브
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공 -
경북대학교 산학협력단 - 기술과학 문서 기계독해 데이터 AI 허브
지문-질문-답변으로 구성된 약 40만 건의 데이터셋으로 수식은 LaTex을, 표는 html 문법을 이용하고 동의 질문을 함께 구축함. ‘정답경계추출형’, ‘YesNo 단문형’, ‘표 정답 추출형’, ‘다지선다형’, ‘절차형’ 5가지로 구분 -
심심이㈜ - 공감형 대화 AI 허브
인간과 같이 공감할 수 있는 능력을 갖고 자연스러운 공감 대화 인터페이스를 위한 인공지능 학습용 대화 데이터 한 화자(감정화자)에게는 주어진 ‘감정과 상황에 처해진 것처럼 대화’하라는 임무를, 다른 화자(공감화자)에게는 ‘상대방에게 적절하게 공감’하라는 임무를 부여한 후 생성한 대화 데이터