-
셀바스에이아이 - 웰니스 대화 스크립트 데이터셋 AI 허브
강남 세브란스에서 전달받은 상담데이터 1만 6천건에서 초진이고 환자 본인이 직접 내원한 경우인 4200건 추출 추출된 상담 데이터를 기준으로 문장별 분리 및 대화 의도 분류 분류별로 유저-챗봇 대화스크립트 생성 -
㈜ 아크릴 - 한국어 감정 정보가 포함된 연속적 대화 데이터셋 AI 허브
웹 크롤링 등의 방법으로 대화를 수집하고, 적정 길이와 turn 수 및 주제를 가진 대화를 선정하였으며 감정 레이블링 수행 챗봇이 말하기 부적절한 용어(지나치게 전문적인 용어, 비속어 등)을 가능한 범위에서 필터링 하였음 -
마인즈랩 - 일반상식 AI 허브
한국어 위키백과 내 주요 문서 15만 개에 포함된 지식을 추출하여 객체(entity), 속성(attribute), 값(value)을 갖는 트리플 형식의 데이터 75만 개를 구축한 지식베이스 제공. -
주식회사 에프에스 - 시간 표현 탐지 데이터 AI 허브
본 과제는 텍스트 자료에서 시간표현, 사건, 시간 관계를 탐지하는 인공지능 모델의 학습용 데이터 셋 구축을 목적으로 함. - 뉴스, 대화, 역사, 스포츠 등 시간 정보가 존재하는 문서에서 사건의 발생 시각을 탐지, AI가 자동으로 이에 관한 지식을 추출하여 지능형 질의응답 서비스 등을 가능하게 하는 학습데이터 -
미디어젠 - 한국어 멀티세션 대화 AI 허브
시간 간격이 있는 여러 개의 세션에서 두 명의 참여자가 부여받은 페르소나와 대화 토픽을 바탕으로 자유로운 일상 대화 텍스트를 수집한 뒤 참여자 정보, 대화 주제, 대화방 정보, 시간 간격, 페르소나 정보, 대화 및 요약에 대한 라벨링을 통해 데이터셋을 구성 데이터의 5%는 주제와 관련된 질문-대답이 추가된 전문대화로... -
롯데정보통신 - 소상공인 고객 주문 질의-응답 텍스트 AI 허브
무인 상점에서 고객의 질의에 답변 가능한 고객 응대 학습용 AI 텍스트 데이터 -
㈜솔트룩스 - 방송콘텐츠 대화체 음성인식 데이터 AI 허브
방송콘텐츠 상에서 한국인 대화체의 음성인식(STT) 기술 및 문맥을 이해하는 언어처리 기술 개발을 위한 인공지능 학습용 데이터로서 8개 카테고리, 대화체 음성인식, 문장별 의도 인공지능 학습용으로 정제된 7,000시간의 음성 데이터 -
솔트룩스 - 온라인 구어체 말뭉치 데이터 AI 허브
온라인 플랫폼(게시판, 댓글 등)에서 구어체 위주의 텍스트 데이터를 수집 후 전사 도구를 활용하여 구축된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋 -
솔트룩스 - 대규모 웹데이터 기반 한국어 말뭉치 데이터 AI 허브
웹사이트 기반 (메가뉴스) 대용량의 텍스트 데이터를 수집 후 전사 도구를 활용하여 타이틀, 단락 제목, 본문 텍스트가 구조화된 10억 어절의 말뭉치 요소별(범용용어 및 고유명사) AI 학습 데이터셋