TB_KIS_THESIS_TEXT_DATASET.csv

테이블 미리보기 준비 중...

전체 화면 보기

컬럼 정보 준비 중...

전체 화면 보기

항목
파일명 TB_KIS_THESIS_TEXT_DATASET.csv
파일 포맷 CSV
설명 설명 없음
데이터셋 설명

국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축

[개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건

[특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터 논문 말미까지의 모든 구성요소를 대상으로 하며, 제목과 문단, 그리고 표/그림/알고리즘 등 개체의 캡션을 포함함. (1) 제목, 문단, 수식, 캡션 등에 대한 판단이 어려운 경우에는 모두 문단으로 처리함 (2) PDF를 기준으로 띄어쓰기 등을 맞춰서 내용이 변경되지 않는 선에서 편집 (3) PDF를 기준으로 할 때 문단 사이에 공백행이 존재할지라도 제목, 문단, 수식 등은 공백행 없이 엔터(Enter)로 각각 구분함 (4) 제목은 한 줄에 들어 올 수 있도록 엔터(Enter)없이 입력하며, 제목에 띄어쓰기가 불필요하게 들어간 경우에는 교정함. 제목과 문단은 엔터(Enter)로 구분함 (5) 하이픈(-), 동그라미 등 열거형 내용은 PDF의 기호를 유지하되 들여쓰기(순서 있는 목록과 순서 없는 목록 모두 포함) 하지 않음 (6) 본문 내 ""<""와 "">"" 사이에 “Figure”, ”Table”, 알파벳이 포함된 경우 ""<""와 "">""를 각각 ""[""와 ""]""로 변경함 (7) 표/그림/알고리즘 등 실제 개체는 삽입하지 않고 캡션만 편집함""

[활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델

※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.

url 파일 다운로드 (안 되면 원본 페이지에서 다운 받으세요)
원본 페이지 https://dsz.kdata.or.kr/svc/data/search.do
버전 2023-08-09
파일 크기4 KB
행 수 10 100건 이하의 작은 데이터
컬럼 수9
텍스트 인코딩cp949
컬럼 구분자 , 콤마 (COMMA)

import pandas as pd

df = pd.read_csv('TB_KIS_THESIS_TEXT_DATASET.csv', on_bad_lines='skip', delimiter=',', encoding='cp949', encoding_errors='ignore')

컬럼 타입 샘플
DOC_ID string None
TITLE string None
AUTHORS string None
JOURNAL string None
STD_YY int64 None
ABSTRACT string None
KEYWORDS string None
BODY_TEXT string None
REF_ENTRIES string None

항목
column_info_url https://dsz.kdata.or.kr/member/apply/add/data_detail.do?dataId=KIS_003
생성일시 2023-09-28T04:17:46.884417
아이디 d6e7da9f-6943-4863-b9ee-8bf93e03c824
메타데이터 수정일시 2023-09-28T04:17:46.863964
데이터셋 아이디 7e2c0dd2-15f7-452d-a96f-83eed6fcd058
sample_url https://dsz.kdata.or.kr/member/apply/add/data_detail.do?dataId=KIS_003
상태 active
url https://dsz.kdata.or.kr/member/apply/add/data_detail.do?dataId=KIS_003