한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋

국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축

[개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건

[특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터 논문 말미까지의 모든 구성요소를 대상으로 하며, 제목과 문단, 그리고 표/그림/알고리즘 등 개체의 캡션을 포함함. (1) 제목, 문단, 수식, 캡션 등에 대한 판단이 어려운 경우에는 모두 문단으로 처리함 (2) PDF를 기준으로 띄어쓰기 등을 맞춰서 내용이 변경되지 않는 선에서 편집 (3) PDF를 기준으로 할 때 문단 사이에 공백행이 존재할지라도 제목, 문단, 수식 등은 공백행 없이 엔터(Enter)로 각각 구분함 (4) 제목은 한 줄에 들어 올 수 있도록 엔터(Enter)없이 입력하며, 제목에 띄어쓰기가 불필요하게 들어간 경우에는 교정함. 제목과 문단은 엔터(Enter)로 구분함 (5) 하이픈(-), 동그라미 등 열거형 내용은 PDF의 기호를 유지하되 들여쓰기(순서 있는 목록과 순서 없는 목록 모두 포함) 하지 않음 (6) 본문 내 ""<""와 "">"" 사이에 “Figure”, ”Table”, 알파벳이 포함된 경우 ""<""와 "">""를 각각 ""[""와 ""]""로 변경함 (7) 표/그림/알고리즘 등 실제 개체는 삽입하지 않고 캡션만 편집함""

[활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델

※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.

리소스

항목
CKAN dataset id 7e2c0dd2-15f7-452d-a96f-83eed6fcd058
상태 active
url https://dsz.kdata.or.kr/svc/data/search.do
버전 2023-08-09
라이선스 other-closed
담당자 연락처 안심구역 센터 방문, 분석환경에서 무료 이용
분류 연구 > 논문
이용 방법 안심구역 센터 방문, 분석환경에서 무료 이용
제공 기관 한국과학기술정보연구원
최초 수집 일시 2023-08-11T23:28:44…
최근 수집 일시 2023-12-11T10:01:03…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기