기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋
[개요]
ㅇ 국내 한글 논문에서 다루는 주요 개념들인 문제, 방법, 데이터, 모델, 결과 등에 대한 이해능력을 평가할 수 있도록 구축된 질의응답 데이터
ㅇ 용량 및 건수: 276,804 건, 8 GB
[특징]
ㅇ [구축 및 수집 방법]
- KISTI가 학술논문 데이터베이스 구축을 통해 확보한 국내 학술 논문 중 최근 10년 이내 발행된 한글 논문을 대상으로 함.
- 질의 난이도를 상/중/하 중 1가지로 설정.
- 핵심 어휘는 논문의 핵심 내용(문제, 방법, 모델, 데이터, 결과 등)으로 판단되는 단어, 구, 문장 등으로 선택하였음.
- 핵심 어휘가 포함된 질의 문장을 작성(난이도별 작성 기준에 적합한 질의 작성)하였음.
- 작성한 질의에 대한 응답을 논문 내에 존재하는 단어, 구, 문장 등 형식 상관없이 그대로 추출하였음.
ㅇ [검증 방법]
- 구축된 질의 문장의 핵심 어휘와 질의 의도는 변경하지 않고, 그 외 부분에 대해서 올바르게 작성되었는지 검토하였음.
- 1차 응답(구축자 응답), 2차 응답(검토자 응답), 3차 응답(검수자 응답) 간의 유사도 비교 수치(F1)를 참고하여 최종 응답 선정하였음.
[활용사례]
ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 우수상) 사전학습을 활용한 논문 QA
※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.