이지서치 검색시스템

세만틱 검색 시스템-이지서치

통합검색엔진 이지서치는 순수 자체 기술로 개발된 제품으로 검색결과 자동분류, 주제별 탐색, 다차원 정보 탐색 등 차세대 검색기술이 적용되어 고품질의 검색결과를 제공하며 초대용량 콘텐츠에 대해 매우 빠른 검색 속도를 제공하고 손쉬운 통합 관리 환경을 제공하는 최고 수준의 정보검색엔진입니다.

4

이지서치의 특징

 

안정적이고 빠른 검색속도 - 로드밸런싱/Fault Tolerance 지원 : 안정적이고 효과적인 운영l DBMS를 이용한 색인 저장으로 색인의 안정적인 관리, 빠른 access 속도
적합도 - Term Vector Model에 의한 특성추출(Feature Extraction) 기법 적용l 동의어사전을 적용한 출현빈도율(Term Frequency)과 희소율(Inverted Term Frequency)를 고려한 랭킹 알고리즘 구현l 벡터 모델에 의한 적합도 랭킹(Relevancy Ranking)
동의어 확장 - 내장된 개념분류표(Taxonomy)를 적용한 색인 구축, 동의어 검색에 활용
메타데이터 색인 - 저자, 제목, 날짜 등의 메타데이터 정보를 색인에 반영하여 단일한 인덱스로 통합 관리
다국어지원 - 유니코드에 의해 한글 11,172자, 한글고어(古語) 5,554자, 한자(간자체 포함) 27,480자 등 지구상의 모든 언어/문자 처리 가능
다양한 플랫폼 지원 - Windows 계열, Linux 계열, Unix 계열 등 다양한 플랫폼 지원
- 다양한 형태의 API 지원(JAVA, ASP, PHP 등 다양한 개발언어와 연동)
이지서치는 라이센스나 모방제품이 아닌 100% 원천 기술력에 의해 개발되어 고객의 요구사항에 유연하게 대응할 수 있습니다. 인터넷 환경은 끊임없이 변화하고 있습니다. 이런 변화에 민첩하게 대응하지 못하면 검색 솔루션의 활용도는 시간이 지날수록 떨어질 수밖에 없습니다. 그렇기 때문에 원천기술의 보유 여부는 검색 솔루션을 도입할 때 매우 중요한 판단기준이 되어야 합니다.
문의처
전화: 02)584-3489, 메일: tkyoon@ezmeta.co.kr


시스템 구성

image004

이지서치의 주요기능

1. 색인기

- 전문색인 및 동의어 색인 – 유니코드(utf-8), 복합명사 처리 등
- 본문 내의 모든 어휘를 후방절단(n-gram) 방식으로 추출
- 복합명사 처리를 위해 2개 어휘그룹의 색인 추출
- 적합도 랭킹(Relevancy) : 특성추출기법에 의해 키워드별 최적의 적합도 계산
- 주제분류 : 자동으로 주제분류코드 부여, 시각도구에서 활용

2. 개념분류표(Taxonomy)

- 검색시스템에 최적화된 분류체계로 100개 분류어, 2,000개 주제어, 2,000개 동의어 기본 내장
- DB 구축, 타DB 연동, Migration 및 확장에 용이
- 필요시 자체보유한 세만틱 아카이브로부터 고객 업무영역(Domain)별 확장 및 커스터마이징 가능

3. 시각도구

- 개념분류표와 색인을 결합하여 검색 시각화
- 컴포넌트화된 아키텍쳐 : Backend 엔진과 Visualizing UI가 독립적으로 운영 가능

image006 image008
HyperViz : 개념의 상하위어 및 관련어 연관관계를 시각화. 현재의 검색어를 중심으로 상하위 주제가 Refresh되는 구조 TreeViz : 개념의 상하위어 및 관련어 연관관계를 시각화. 원점에서 하위분류로 방사형으로 이동하는 Tree 구조

 

적용사례

순간검색(한국전자출판협회) image010 순간검색의 의미사용자가 키워드를 입력하는 순간 검색창 하단에 실시간으로 검색결과 제공“검색 -> 검색결과 -> 상세정보”의 3단계 검색과정이 “검색 -> 상세정보”의 2단계로 단축
운영환경 : Windows 2003 / MSSQL 2005DB Size : 188만 건 / 800MB
Index Size : 2,140만 건 / 1.2 GB
Query속도 : 0.1초 이내
법령검색(나라아이넷㈜) image012 법령, 판례 통합검색법제처 법률분류를 주제어사전(Taxonomy)의 분류체계로 사용각 키워드에 의해 법령, 법조문, 판례 통합검색
운영환경 : Web 서버 Apache/LinuxDB 서버 Windows 2008 MSSQL 2005
DB Size : 30만건 / 915MB
Index Size : 2억3970만건 / 18.5 GB
Query속도 : 0.1초 이내
북한자료아카이브(통일부) image014 신문(PDF), 저널(PDF & TEXT), 사전/연감(PDF) 통합검색AND/OR 연산, 발행연도별 검색, 자료유형별 검색이 가능하며, 일반검색과 확장검색이 있다. 확장검색을 선택하면 남한의 용어로 북한의 자료를 찾을 수 있다.
운영환경 : Windows 2003 Server / MSSQL 2005DB Size : 382,000 건 / 374 MB
Index Size : 7,047만 건 / 11.8 GB
Query속도 : 0.1초 이내
특허판례검색(Testbed) image016 특허판례 DB에 대한 검색국제특허분류(IPC)를 개념분류표(Taxonomy)의 분류체계로 사용각 주제어에 의해 한국, 미국, 영국, 일본의 판례 동시검색
운영환경 : Windows 2000 / Apache / MySQLDB Size : 7,000건 / 254MB
Index Size : 1,083만건 / 0.9 GB
Query속도 : 0.01초 이내

 

전자사전

kdic table

이지메타의 전자사전(또는 Semantic Archive)은 진정한 의미의 어휘 메타데이터 사전입니다. 어휘 Table을 중심으로 카테고리, 동의어, 유의어, 영어, 일본어 Table이 정규화되어 어떤 Application에서든지 전자사전을 원하는 패턴으로, 자유로이 불러와 응용할 수 있습니다.

총 450,000건의 어휘가 수록되어 있으며, 116,184건에 대해 영어가, 59,775건에 대해 일본어가 매핑되어 있습니다.

123,000건의 어휘가 2,845개의 주제별로 그루핑되어 있으며, 107,000건의 어휘에 대해 유의어가 매핑되어 있습니다. 214,413건의 어휘에 대해 문화재분류, IPC코드, 정보통신분류 등의 어휘 메타데이터를 사전으로 구축했습니다. 어휘는 다음과 같이 분류되어 있습니다. (중복분류 허용)

ㅇ KDC 분류 – 65,535건 ㅇ 문화재 분류 – 33,161건 ㅇ 종교 분류 – 38,225건
ㅇ 정보통신 분류 – 19,097건 ㅇ 의학분류 – 31,572건 ㅇ 법률분류 – 10,775건
ㅇ 경제ㆍ경영 분류 – 8,160건 ㅇ 생물 분류 – 13,600건 ㅇ 역사 분류 – 11,928건
ㅇ 시대코드 부여 – 41,256건 ㅇ 연도정보 – 15,426건 ㅇ 국가코드 부여 – 90,228건
ㅇ 문학 작품 – 8,254건

전자사전1

어휘에 대해서 한자, 영어, 분류, 유의어, 동의어, IPC코드, 일본어가 매핑되어 있습니다. 또한 검색된 어휘에 대해서 복합어일 경우 단위어를, 단위어일 경우 그 어휘를 포함하는 복합어를 분석하여 화면에 제시하므로 정보탐색에 유용하게 활용할 수 있습니다.

전자사전_디스크_브레이크

동시에 영어사전과 일본어사전을 서비스합니다. ㅇ 국어사전의 116,222개 어휘에 대해 영어단어 142,228개가 매핑되어 있습니다. ㅇ 국어사전의 57,020개 어휘에 대해 일본어 단어 123,383개가 매핑되어 있습니다.

전자사전2

  • K-시소러스 샘플 – IPC Sample 이지메타의 특허용어사전으로서 어휘, 한자, 영어, 동의어, 이형어, 관련어 5개의 컬럼으로 구성되어 있다.
  • 시소러스의 활용 – 모든 종류의 문필, 집필 활동에 활용 “Thesaurus는 사전의 반대이다. 단어는 알지만 의미는 모를 때 사전을 찾는다. 그러나 Thesaurus는 의미는 알지만 단어를 모를 때 찾는 것이다.