한국과학기술정보연구원 - 국내 논문 QA 데이터셋

기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋

[개요] ㅇ 국내 한글 논문에서 다루는 주요 개념들인 문제, 방법, 데이터, 모델, 결과 등에 대한 이해능력을 평가할 수 있도록 구축된 질의응답 데이터 ㅇ 용량 및 건수: 276,804 건, 8 GB

[특징] ㅇ [구축 및 수집 방법] - KISTI가 학술논문 데이터베이스 구축을 통해 확보한 국내 학술 논문 중 최근 10년 이내 발행된 한글 논문을 대상으로 함. - 질의 난이도를 상/중/하 중 1가지로 설정. - 핵심 어휘는 논문의 핵심 내용(문제, 방법, 모델, 데이터, 결과 등)으로 판단되는 단어, 구, 문장 등으로 선택하였음. - 핵심 어휘가 포함된 질의 문장을 작성(난이도별 작성 기준에 적합한 질의 작성)하였음. - 작성한 질의에 대한 응답을 논문 내에 존재하는 단어, 구, 문장 등 형식 상관없이 그대로 추출하였음. ㅇ [검증 방법] - 구축된 질의 문장의 핵심 어휘와 질의 의도는 변경하지 않고, 그 외 부분에 대해서 올바르게 작성되었는지 검토하였음. - 1차 응답(구축자 응답), 2차 응답(검토자 응답), 3차 응답(검수자 응답) 간의 유사도 비교 수치(F1)를 참고하여 최종 응답 선정하였음.

[활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 우수상) 사전학습을 활용한 논문 QA

※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.

리소스

항목
CKAN dataset id c1e07497-c560-4ecb-a315-c35ff08860d3
상태 active
url https://dsz.kdata.or.kr/svc/data/search.do
버전 2023-08-09
라이선스 other-closed
담당자 연락처 안심구역 센터 방문, 분석환경에서 무료 이용
분류 연구 > 논문
이용 방법 안심구역 센터 방문, 분석환경에서 무료 이용
제공 기관 한국과학기술정보연구원
최초 수집 일시 2023-08-11T23:28:45…
최근 수집 일시 2023-09-28T07:30:34…

  • 한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋 데이터안심구역

    국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 [개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건 [특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터...
  • 한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋 데이터안심구역

    논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 [개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그 부착 문제정의, 가설설정, 기술정의, 대상데이터,...
  • 한국과학기술정보연구원 - 논문 연구분야 분류 데이터 데이터안심구역

    국가과학기술표준분류체계 기반의 논문 분류 문제를 해결하기 위한 데이터셋 [개요] ㅇ 국가과학기술표준분류체계 기반의 분류 문제를 해결하기 위한 데이터셋 ㅇ 국내 논문 3만 건을 대상으로 전문가가 연구분야를 분류한 데이터셋 ㅇ 용량 및 건수: - 논문개수: 30,000건 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
  • 한국과학기술정보연구원 - 기관식별 데이터 데이터안심구역

    국내외 주요기관의 명칭에 대한 식별 데이터 [개요] ㅇ 공공기관, 교육기관, 의료기관, 민간기업 등 국내외에 존재하는 기관들을 대상으로 같은 기관을 다르게 표현하거나, 서로 다른 기관이 동일한 명칭을 사용하는 경우, 이를 명확히 구분을 하기 위하여 유일한 번호를 부여한 기관 데이터 ㅇ 국가R&D 성과물로 생산되는...

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기