한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋

국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축

[개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건

[특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터 논문 말미까지의 모든 구성요소를 대상으로 하며, 제목과 문단, 그리고 표/그림/알고리즘 등 개체의 캡션을 포함함. (1) 제목, 문단, 수식, 캡션 등에 대한 판단이 어려운 경우에는 모두 문단으로 처리함 (2) PDF를 기준으로 띄어쓰기 등을 맞춰서 내용이 변경되지 않는 선에서 편집 (3) PDF를 기준으로 할 때 문단 사이에 공백행이 존재할지라도 제목, 문단, 수식 등은 공백행 없이 엔터(Enter)로 각각 구분함 (4) 제목은 한 줄에 들어 올 수 있도록 엔터(Enter)없이 입력하며, 제목에 띄어쓰기가 불필요하게 들어간 경우에는 교정함. 제목과 문단은 엔터(Enter)로 구분함 (5) 하이픈(-), 동그라미 등 열거형 내용은 PDF의 기호를 유지하되 들여쓰기(순서 있는 목록과 순서 없는 목록 모두 포함) 하지 않음 (6) 본문 내 ""<""와 "">"" 사이에 “Figure”, ”Table”, 알파벳이 포함된 경우 ""<""와 "">""를 각각 ""[""와 ""]""로 변경함 (7) 표/그림/알고리즘 등 실제 개체는 삽입하지 않고 캡션만 편집함""

[활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델

※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.

리소스

CSV TB_KIS_THESIS_TEXT_DATASET.csv CSV

항목	값
CKAN dataset id	7e2c0dd2-15f7-452d-a96f-83eed6fcd058
상태	active
url	https://dsz.kdata.or.kr/svc/data/search.do
버전	2023-08-09
라이선스	other-closed
담당자 연락처	안심구역 센터 방문, 분석환경에서 무료 이용
분류	연구 > 논문
이용 방법	안심구역 센터 방문, 분석환경에서 무료 이용
제공 기관	한국과학기술정보연구원
최초 수집 일시	2023-08-11T23:28:44…
최근 수집 일시	2023-12-11T10:01:03…

한국과학기술정보연구원 - 논문 연구분야 분류 데이터 데이터안심구역

국가과학기술표준분류체계 기반의 논문 분류 문제를 해결하기 위한 데이터셋 [개요] ㅇ 국가과학기술표준분류체계 기반의 분류 문제를 해결하기 위한 데이터셋 ㅇ 국내 논문 3만 건을 대상으로 전문가가 연구분야를 분류한 데이터셋 ㅇ 용량 및 건수: - 논문개수: 30,000건 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
- CSV
한국원자력연구원 원자력관련 국내 학술논문 목록 공공데이터포털

한국원자력연구원_원자력관련 국내 학술논문 목록 데이터 입니다. 데이터 칼럼 리스트는 저자, 제목, 페이지, 언어, 출처, ISBN, 출판년도, 키워드, 초록 입니다. (국내 원자력관련 산업계(한국전력, 한전원자력연료, 두산중공업 등), 학계(대학교, 한국원자력학회, 한국방사성폐기물학회, 대한방사선산업학회, 한국물리학회, 대한화학회,...
- CSV
질병관리청 국내 의과학 학술논문 국가서지 공공데이터포털

국내 발행 보건의생명과학 학술논문 서지 및 초록 정보를 텍스트 형식으로 제공
- API
한국지질자원연구원 - Radar 위성영상의 토양수분지수 환경 빅데이터

개요 - 2020년에 한반도를 촬영한 Sentinel-1 (ESA 운영중) 영상을 가공하여 제작한 위성레이더 영상의 토양수분지수 아래의 논문에서 제시한 방법에 따라 토양 수분 지수 산출 W. Wagner, G. Lemoine, and H. Rott, “A method for estimating soil moisture from ERS...
- CSV
- CSV

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기

한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋

리소스

메타 데이터

연관 데이터셋

한국과학기술정보연구원 - 논문 연구분야 분류 데이터 데이터안심구역

한국원자력연구원 원자력관련 국내 학술논문 목록 공공데이터포털

질병관리청 국내 의과학 학술논문 국가서지 공공데이터포털

한국지질자원연구원 - Radar 위성영상의 토양수분지수 환경 빅데이터

한줄평을 쓰려면 로그인하세요.