Keyword Database

개요

  • 이지메타에서 10년 이상 구축하여 온 어휘 데이터베이스
  • 각 어휘에 대해 유의어, 관련어, 영어, 한자 등의 연관관계 정보 포함
  • 실제로 문헌에서 등장하는 어휘 표현 형태를 반영

특징

  • 오랜 기간에 걸쳐 구축된 국내 최대 규모의 시소러스 자원 보유(1천만 어휘 이상)
  • 연관어에 속성 구분 정보 저장(대역어, 유의어, 이칭, 관련인물, 관련사건, 관련문헌 등)
  • 수작업과 기계적 작업의 결합으로 원하는 형태의 언어자원 구조 제공 가능
  • 연관어의 우선 순위 정보(weight) 계산 가능
  • 검증된 데이터(네이버, ETRI 납품실적, 대전대학교, 전북대학교 API서비스 중)

상품 목록

No 상품명 상품설명
1 토픽 동의어 DB ㅇ 10만 건 어휘에 대한 동의어 데이터(유의어, 이칭, 북한어 등 포함)
ㅇ 국어사전과 각종 사전을 참조하여 제작된 데이터
2 토픽 영어대역어DB ㅇ 한국어 32만 건과 영어 31만 건의 어휘를 대역어로 매핑시킨 사전
ㅇ 한국어를 앞에 놓으면 한-영 대역어, 영어를 앞에 놓으면 영-한 대역어
3 토픽 카테고리DB ㅇ 30만 건의 어휘를 5가지 카테고리 1,000개 분류코드로 분류한 데이터
ㅇ 법률/행정분류, IPC분류, 정보통신분류, 생물분류, 문화유산분류
4 토픽 관련어DB ㅇ 45만 건의 어휘에 대한 관련어 데이터로서, 관련어, 상위어, 하위어 포함
ㅇ 국어사전 및 각종 사전의 설명 및 인터넷 정보를 참조
5 K2R 연관검색어DB ㅇ 2,000만건의 어휘에 대한 연관어 1억2천만건을 수록한 데이터
ㅇ 1,000만건의 학술논문 키워드로부터 알고리즘으로 연관어 데이터를 추출
6 K2R 복합명사-한국어편 ㅇ 어떤 단순명사에 대해 어떤 복합명사가 있는지 조회할 수 있는 데이터
ㅇ 40만건의 한글 단순명사에 대해 150만건의 한글 복합명사를 조회
7 K2R 복합명사-영어편 ㅇ 어떤 단순명사에 대해 어떤 복합명사가 있는지 조회할 수 있는 데이터
ㅇ 35만건의 영어 단순명사에 대해 280만건의 영어 복합명사를 조회
8 학술 연관어 사전 ㅇ 학술문헌에 등장한 한글 240만, 영어 820만, 한자 11만건 어휘의 연관어 데이터.
9 법률 연관어 사전 ㅇ 학술문헌 및 판례의 주요 어휘 한글 42만, 영어 8만건의 연관어
ㅇ 2009헌마170와 같은 사건번호도 포함
10 정보통신 연관어 사전 ㅇ 전기전자공학, 전자/정보통신공학, 컴퓨터공학 분야의 문헌에 등장한 한글 6만, 영어 16만건 어휘의 연관어 데이터
11 경제/경영 연관어 사전 ㅇ 경영학, 경제학, 회계학, 무역학 분야의 문헌에 등장한 한글 9만, 영어 12만의 어휘의 연관어 데이터
12 의약학 연관어 사전 ㅇ 내과학, 외과학, 산부과학, 면역학, 병리학, 약학 등 의약학 문헌에 등장한 한글 10만, 영어 18만건 어휘와 연관어 데이터
13 중국 연관어 사전 ㅇ  「중국 어휘와 영어 어휘의 동시 빈도수」와 「영어-한국어 사전」을 분석하여 중국어 28만건, 영어 36만건, 한국어 18만건의 동의어/연관어 데이터
14 뉴스 연관어 사전 ㅇ 2017~2018년 언론기사에 등장한 주요 어휘 23만건과 연관어
ㅇ 늘공, 꿀알바, 닥공, 미투, 쌍궤병행, 어공, 연명의료 등 신조어 포함
15 한의학 연관어 사전 ㅇ 한의학 고전에 등장한 한의학 어휘 5만건과 한글어휘 5만건의 연관어 데이터
ㅇ 한자용어를 중심으로 구성하여 한글로 한의학 용어 조회 가능
16 북한 연관어 사전 ㅇ 북한의 문헌에 등장한 10만건의 주요 어휘의 연관어 데이터
ㅇ 북한용어와 우리나라 용어의 대조표 1만건 포함
17 연상어 사전 ㅇ 5,000개의 주제어에 대해 연상되는 어휘 12만건을 분류한 데이터
ㅇ 대분류와 중분류 주제는 「Roget Thesaurus」 참조
18 이지메타 어휘 지식베이스 ㅇ 한글 500만, 영어 1,300만, 한자 300만, 중국어 500만 어휘의 식별 데이터
ㅇ 실제 문헌에 출현했던 어휘로서 데이터마이닝, 텍스트마이닝에 활용 가능

 

ezl01

ezl02