TB_KIS_THESIS_TEXT_DATASET.csv

테이블 미리보기 준비 중...

컬럼 정보 준비 중...

항목	값
파일명	TB_KIS_THESIS_TEXT_DATASET.csv
파일 포맷	CSV
설명	설명 없음
데이터셋 설명	국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 [개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건 [특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터 논문 말미까지의 모든 구성요소를 대상으로 하며, 제목과 문단, 그리고 표/그림/알고리즘 등 개체의 캡션을 포함함. (1) 제목, 문단, 수식, 캡션 등에 대한 판단이 어려운 경우에는 모두 문단으로 처리함 (2) PDF를 기준으로 띄어쓰기 등을 맞춰서 내용이 변경되지 않는 선에서 편집 (3) PDF를 기준으로 할 때 문단 사이에 공백행이 존재할지라도 제목, 문단, 수식 등은 공백행 없이 엔터(Enter)로 각각 구분함 (4) 제목은 한 줄에 들어 올 수 있도록 엔터(Enter)없이 입력하며, 제목에 띄어쓰기가 불필요하게 들어간 경우에는 교정함. 제목과 문단은 엔터(Enter)로 구분함 (5) 하이픈(-), 동그라미 등 열거형 내용은 PDF의 기호를 유지하되 들여쓰기(순서 있는 목록과 순서 없는 목록 모두 포함) 하지 않음 (6) 본문 내 ""<""와 "">"" 사이에 “Figure”, ”Table”, 알파벳이 포함된 경우 ""<""와 "">""를 각각 ""[""와 ""]""로 변경함 (7) 표/그림/알고리즘 등 실제 개체는 삽입하지 않고 캡션만 편집함"" [활용사례] ㅇ (2022년 과학기술·공공 AI 데이터 분석활용 경진대회 장려상) 계층적 표현 및 손실함수와 레이블 임베딩을 활용한 논문 문장 의미 분류 모델 ※ 해당 데이터는 한국과학기술정보연구원 심사 후 이용가능합니다.
url	파일 다운로드 (안 되면 원본 페이지에서 다운 받으세요)
원본 페이지	https://dsz.kdata.or.kr/svc/data/search.do
버전	2023-08-09
파일 크기	4 KB
행 수	10 100건 이하의 작은 데이터
컬럼 수	9
텍스트 인코딩	cp949
컬럼 구분자	, 콤마 (COMMA)

import pandas as pd

df = pd.read_csv('TB_KIS_THESIS_TEXT_DATASET.csv', on_bad_lines='skip', delimiter=',', encoding='cp949', encoding_errors='ignore')

컬럼	타입	샘플
DOC_ID	string	None
TITLE	string	None
AUTHORS	string	None
JOURNAL	string	None
STD_YY	int64	None
ABSTRACT	string	None
KEYWORDS	string	None
BODY_TEXT	string	None
REF_ENTRIES	string	None

항목	값
column_info_url	https://dsz.kdata.or.kr/member/apply/add/data_detail.do?dataId=KIS_003
생성일시	2023-09-28T04:17:46.884417
아이디	d6e7da9f-6943-4863-b9ee-8bf93e03c824
메타데이터 수정일시	2023-09-28T04:17:46.863964
데이터셋 아이디	7e2c0dd2-15f7-452d-a96f-83eed6fcd058
sample_url	https://dsz.kdata.or.kr/member/apply/add/data_detail.do?dataId=KIS_003
상태	active
url	https://dsz.kdata.or.kr/member/apply/add/data_detail.do?dataId=KIS_003

TB_KIS_THESIS_TEXT_DATASET.csv

테이블 미리보기

컬럼 정보(원본 포털 제공)

리소스 정보

pandas 샘플 코드

컬럼 정보

추가 정보 (관리자)