한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋

논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋

[개요] ㅇ 논문 자동 요약 및 논문의 목적, 방법, 결과, 결론별 문서 분류를 위한 기계학습 데이터셋 ㅇ 국내 논문 본문 내 문장이 의도하는 역할(연구 목적, 방법, 결과)을 구분하는 태그 부착 문제정의, 가설설정, 기술정의, 대상데이터, 분석방법, 제안방법, 이론/모형, 성능/효과, 후속연구/제안 등 ㅇ 용량 및 건수: - 논문 개수: 14,083건 - 문장 개수: 155,740건 - 용량 : 79 MB

[특징] ㅇ [구축 및 수집 방법] - 논문에서 구조적으로 중심적인 문장에 역할에 대한 의미 범주가 부착된 데이터를 논문 문장 의미태깅 데이터라고 정의함. - 과학연구에서 가장 일반적인 구조인 IMRaD(서론, 자료및방법, 결과, 토론)를 기반으로 정의하였으며, 논문을 보는 9개의 관점 초점에 따라 구조적인 의미로 의미 태그를 부여함. ㅇ [검증 방법] - 작업된 결과물의 품질 및 작업자들이 일관성있는 작업이 되도록 관리하였음. - 일정 비율의 완성된 결과물을 재작업하고 최종 결과에 대해 일관성을 비교하였으며, 구축에 참여한 작업자들 사이에 얼마나 일치하는 지 검사하고 불일치 정도에 따라 관리하였음.

[활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) Hierarchy-aware Label Semantics을 활용한 문장 태깅 분류 ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델

※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.

리소스

CSV TB_KIS_THESIS_SENT_TAGGING.csv CSV

항목	값
CKAN dataset id	70404def-f23c-4fc6-a402-163e64fe200f
상태	active
url	https://dsz.kdata.or.kr/svc/data/search.do
버전	2023-08-09
라이선스	other-closed
담당자 연락처	안심구역 센터 방문, 분석환경에서 무료 이용
분류	연구 > 논문
이용 방법	안심구역 센터 방문, 분석환경에서 무료 이용
제공 기관	한국과학기술정보연구원
최초 수집 일시	2023-08-11T23:28:45…
최근 수집 일시	2023-12-11T10:00:57…

한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋 데이터안심구역

국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 [개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건 [특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터...
- CSV

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기

한국과학기술정보연구원 - 국내 논문 문장 의미 태깅 데이터셋

리소스

메타 데이터

연관 데이터셋

한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋 데이터안심구역

한줄평을 쓰려면 로그인하세요.