KDX한국데이터거래소 - 상품명 사전 v.1.3 (업데이트 2020.02.11)

유통소비 분야 다양한 문서의 자연어처리를 위해 한국데이터거래소가 만든 상품명 사전입니다. 기사, 댓글, 소셜 미디어 등 다양한 텍스트의 상품명 인식에 활용할 수 있습니다.

유통소비 분야 다양한 문서의 자연어처리를 위해 한국데이터거래소가 만든 상품명 사전입니다.

기사, 댓글, 소셜 미디어 등 다양한 텍스트의 상품명 인식에 활용할 수 있습니다.
100만여 개의 상품명을 크롤링한 뒤 기계학습과 수작업을 거쳐 분류하고 불용어를 제거했습니다.
1. 브랜드명이 포함된 상품명 사전 19만 4054개
2. 브랜드 사전 37만 6177개
3. 브랜드명이 제외된 상품명 사전 9만 5969개
4. 주류, 담배, 자동차, 의약품 상품명 사전(주류 1,190 건, 담배 217건, 자동차 847건, 의약품 16,051건)
개체명으로 구성되어 있습니다.

가구/인테리어, 디지털/가전, 생활/건강, 스포츠/레저, 식품,여행/문화, 출산/육아, 패션의류, 패션잡화, 화장품/미용, 자동차, 주류, 담배, 의약품 등 13개 카테고리로 대분류했으며 대/중/소 등 3단계로 분류했습니다.
특정 소분류에 과도하게 많은 개체명이 포함되거나 너무 적은 개체명이 포함되지 않은 범용 사전입니다. 
향후 카테고리를 소비재 전분야로 확대할 예정입니다.

저작자표시 동일조건변경허락(CC BY-SA 4.0)
https://creativecommons.org/licenses/by-sa/4.0/deed.ko

리소스

항목
CKAN dataset id a2aa6e85-e88f-4ec2-bc12-abbab1eb8bd6
상태 active
url https://kdx.kr/data/view/2906
버전 2022-02-23
라이선스 cc-zero
pricing 유료
가격 0
담당자 연락처 데이터 구매 문의는 상품 문의를 이용해주세요
제공 기관 KDX한국데이터거래소
최초 수집 일시 2023-09-09T20:23:46…
최근 수집 일시 2023-09-10T09:38:11…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기