-
KDX한국데이터거래소 - AI 학습용 대용량 데이터 - 시간 표현 탐지 텍스트 데이터 셋 유통 빅데이터 유료
시간 표현 탐지 텍스트 데이터 셋 실제 방영된 방송 콘텐츠를 구매함으로써 인위적으로 설정한 영상이 아닌 실제 상황을 사업에 활용 연령대별, 성별 음성 분량 가능한 데이터 셋 제공 지적재산권과 초상권 이슈를 해결한 데이터 셋 제공 -
동양시스템즈 - 대용량 손글씨 OCR 데이터 AI 허브
산업 및 실생활에서 사용되는 각종 신청서등에 포함된 다양한 한글 손글씨를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 다양한 손글씨 원문을 수집하고 작성된 손글씨에 대한 바운딩박스와 라벨링 정보로 구성된 JSON 파일과 해당 손글씨 원문이미지 파일의 쌍으로 구성된 OCR AI 학습용 데이터셋 -
누리IDT - 고서 한자 인식 (OCR) AI 허브
고서 한자 이미지를 인식하기 위한 이미지 데이터 -
㈜메트릭스 - 객체 간 관계성 인지용 한국형 비전 데이터 AI 허브
한국 상황을 잘 설명할 수 있는 한국형 객체인식 데이터셋 구축하기 위해 300만장의 이미지로와 설명문으로부터 객체 간 관계성 지도를 작성함 -
동양시스템즈 - 고서 한자 인식 OCR 데이터 AI 허브
현존 고문헌의 대부분을 차지하고 있는 조선시대 고서의 원문 한자를 AI 기반의 OCR 기술을 통해 디지털 텍스트로 자동 확보하기 위하여, 고서 원문 내의 각 낱자 한자들에 대한 바운딩박스와 라벨링(유니코드 한자) 정보로 구성된 JSON 파일과 해당 고서 원문이미지 파일의 쌍으로 구성된 한자 글자수 기준 1천만 자 규모의 고서 한자... -
한국지식재산연구원 - 산업정보 연계 주요국 특허 영-한 데이터 AI 허브
해외 주요국 영문 특허명세서를 전문가(변리사)가 관여한 한국어 번역, KSIC(표준산업분류) 라벨링 및 기술용어를 태깅한 데이터셋으로, 기술적 관점의 국제특허분류(IPC, International Patent Classification)가 아닌 통계청에 고시하고 있는 표준산업분류를 연계한 데이터를 통해 기술, 경제, 산업 간 유기적... -
제주특별자치도 관내 관광지 다국어 텍스트데이터 공공데이터포털
제주특별자치도 관광지명, 관광지분야 언어, 등의 기준으로 구분되어 기재되어있는 제주특별자치도 관내 관광지의 관광지 안내 텍스트에 대한 정보를 제공합니다. -
한국학중앙연구원 한국향토문화전자대전 텍스트 메타데이터 공공데이터포털
한국향토문화전자대전에서 서비스하는 텍스트 콘텐츠의 메타데이터 목록(항목명(대표, 한글, 한자, 영문), 분야, 유형, 시대, 집필자, URL 등을 포함) -
한국과학기술정보연구원 - 국내 논문 전문 텍스트 데이터셋 데이터안심구역
국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 [개요] ㅇ 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 ㅇ 용량 및 건수: - 논문개수: 481,578건 [특징] ㅇ [구축 및 수집 방법] - 언어 이해 모델 학습을 위해 PDF 형태의 학술 논문을 문단과 문장을 구분하여 텍스트로 변환하였음. - 초록이후부터... -
코난테크놀로지 - 카페 월별 데이터 통신 빅데이터 유료
유명 카페 내의 공개 포스트를 월별로 제공. 카페 포스트의 원문 URL, 작성일시, 제목, 본문 내용을 포하고 있으며, 분석을 위한 제목, 본문 텍스트의 형태소 분석 결과를 제공. -
코난테크놀로지 - 페이스북 사용자 포스트 월별 데이터 통신 빅데이터 유료
페이스북 사용자의 공개 포스트를 월별로 제공. 페이스북 페이지 포스트의 작성일시, 본문 등의 내용을 포하고 있으며, 분석을 위한 제목, 본문 텍스트의 형태소 분석 결과를 제공. -
코난테크놀로지 - 페이스북 페이지 월별 데이터 통신 빅데이터 유료
페이스북 페이지 내의 공개 포스트를 월별로 제공. 페이스북 페이지 포스트의 원문 URL, 작성일시, 제목, 본문 등의 내용을 포하고 있으며, 분석을 위한 제목, 본문 텍스트의 형태소 분석 결과를 제공. -
코난테크놀로지 - TPO-연령대 분석 데이터 통신 빅데이터 유료
7개 채널(블로그, 뉴스, 인스타, 카페, 커뮤니티, 페이스북-페이지, 트위터) 데이터를 TPO(Time Place Occasion) 속성, '연령대'에 대한 일별 일별 분석한 결과입니다. -
코난테크놀로지 - 트위터 월별 데이터 통신 빅데이터 유료
트위터 내의 사용자 포스트를 월별로 제공. 트위터 포스트의 원문 URL, 작성일시, 본문 등의 내용을 포하고 있으며, 분석을 위한 제목, 본문 텍스트의 형태소 분석 결과를 제공. -
코난테크놀로지 - 인스타그램 월별 데이터 통신 빅데이터 유료
인스타그램 사용자의 공개 포스트를 월별로 제공. 인스타그램 사용자 포스트의 원문 URL, 작성일시, 본문 등의 내용을 포하고 있으며, 분석을 위한 제목, 본문 텍스트의 형태소 분석 결과를 제공. -
코난테크놀로지 - 블로그 월별 데이터 통신 빅데이터 유료
유명 블로그 내의 공개 포스트를 월별로 제공. 블로그 포스트의 원문 URL, 작성일시, 제목, 본문 내용을 포하고 있으며, 분석을 위한 제목, 본문 텍스트의 형태소 분석 결과를 제공. -
한국학중앙연구원 장서각 가락삼왕기 공공데이터포털
가락삼왕기 텍스트 28책,가락삼왕기 텍스트 28책,가락삼왕기 텍스트 28책,가락삼왕기 텍스트 28책가락삼왕기 텍스트 28책 -
한국학중앙연구원 장서각 금위영등록 공공데이터포털
한국학중앙연구원내 장서각에 소장중인 금위영등록 본문 텍스트,한국학중앙연구원내 장서각에 소장중인 금위영등록 본문 텍스트,한국학중앙연구원내 장서각에 소장중인 금위영등록 본문 텍스트 -
한국학중앙연구원 유이양문록 공공데이터포털
본 데이터는 장서각에 소장되어 있으며 조선 왕실에서 애독하던 한글 고선 소설 유이양문록의 원문 텍스트 77책에 대한 자료입니다. -
코난테크놀로지 - 브랜드-공공기관 분석 데이터 통신 빅데이터 유료
5개 채널 (블로그, 뉴스, 카페, 커뮤니티, 트위터) 데이터를 분석하여, 브랜드-공공기관에 해당하는 상위 100개의 키워드에 대한 분석 결과를 제공. 분석 정보는 일별 언급량 추이, 일별 감성(긍정/중립/부정) 추이, 월누적 언급량, 월누적 감성, 긍정/부정 연관어들과 해당 연관어의 출현회수 등을 제공.