한국어 생성 기반 상식추론 데이터셋

사전에 구축된 AI-HUB의 대화 요약 및 이미지 캡션 텍스트 데이터로부터 Tagger 및 신경망 네트워크를 통해 반자동화 구축 방식을 적용하여 형태소를 추출. 추출한 형태소는 하나의 개념 집합을구성하며, 개념 집합의 내용을 바탕으로 일반 상식에 부합하는 짧은 문장을 재구성하도록 하는 자연어 생성 데이터.

리소스

항목
CKAN dataset id 61889663-7ce6-4f88-a2ac-75882c201a12
상태 active
url https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=459
버전 2023-04-07
라이선스 cc-zero
pricing 무료
업데이트일 2,023-04-07
유/무료 무료
이용방법 다운로드
최초 제공일 2,022-05-26
파일 크기 13,190,354
최초 수집 일시 2022-10-10T02:25:17…
최근 수집 일시 2024-04-21T13:15:00…

  • ㈜나라지식정보 - 일반상식 문장 생성 데이터 AI 허브

    ■ 문장을 자동으로 생성하고 상황에 맞는 대답을 할 수 있는 지능형 어플리케이션 개발을 위한 문장 생성 학습용 데이터셋 ■ ‘한국어 일반 상식 문장 데이터 구축’ 과제 중 15-1 데이터(일반상식 문장 교정 데이터)에서 추출한 개념 정보(동사·명사, 체언, 용언)를 재구성하여 일반 상식에 부합하는 자연스러운 한국어 문장을 생성한...
  • ㈜나라지식정보 - 일반상식 문장 생성 평가 데이터 AI 허브

    ■ 기계가 생성한 문장과 인간이 생성한 문장을 다섯 가지 기준에 따라 평가함으로써 향후 AI가 생성한 문장을 AI가 검증할 수 있도록 하는 데이 ■ 한국어 일반상식 문장 평가 과제 중 세 번째 데이터로서 두 번째 데이터(제2과제 데이터)에서 제작한 문장에 대해 사람이 만든 문장과 기계가 생성한 문장을 네 가지 속성에 따라 3점 리커트...
  • ㈜포티투마루 - 자연어 기반 질의(NL2SQL) 검색 생성 데이터 AI 허브

    데이터베이스에 대해 데이터를 검색하는 자연어 질문과 그와 의미가 동일한 SQL 질의의 쌍으로 구성된 데이터셋으로, 공공기관 데이터 플랫폼에서 수집한 데이터베이스를 활용하여 다양한 분야의 자연어 질문을 SQL 질의로 변환할 수 있는 NL2SQL 모델 개발을 위한 데이터셋을 제공
  • 스파크엑스 - 비디오 장면 설명문 생성 데이터 AI 허브

    인간의 행동을 가장 작은 단위의 동작으로 쪼개어, 그 쪼개진 단위마다 알맞은 자연어 캡션을 붙여 행동을 추론하기 위한 데이터 수집

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기