Search Engine

특징

  • Apache Lucene을 이용하여 라이선스 무료
  • 검색엔진에 필요한 거의 모든 기능을 Built-in 제공
  • Web Admin Interface가 제공되어 편리한 관리 가능
  • 소스코드의 제공으로 Customizing 가능
  • Scalability: 대규모 데이터에 대비한 확장성 제공

자체 보유 언어지식베이스와 결합

  • 2,000만건 이상의 한국어, 영어, 한자 어휘 지식베이스
  • 다국어 번역을 위한 대역어 사전

검증된 Reference

  • China Academic Journal (중국학술논문 한글검색 서비스)
  • 동양고전번역지원 (말뭉치, 용례 검색 – 전통문화연구회)
  • K-Discovery (오픈 액세스 검색 포털, http://kdiscovery.kr)
  • 북한자료 아카이브 (통일부 북한자료센터)

Lucene

  • Java 기반으로 개발(1999), 2001년 Apache 재단 기증
  • 활용사례 (Powered by Lucene)
    • IBM Omnifind Y! Edition, Technorati
    • Wikipedia, Internet Archive, LinkedIn, monster.com
  • TF-IDF Similarity & Normalizing에 기반한 랭킹 산출

Solr

  • CNET의 Yonik Seeley 개발. 2006년 Apache 재단 기증
  • 특장점
    • Servlet, Web Administration Interface
    • XML/HTTP, JSON Interfaces
  • 활용사례 (Powered by Solr)
  • Netflix, CNET, Smithsonian, GameSpot, AOL(sports and music)
  • Drupal module

[사례1] Open Access Portal

  • 학술논문, 저자, 저널, 발행기관 검색
  • 분류, 주제어, 저널, 저자, 간행물, 발행연도, 발행처, 출처 패싯(Facet)

see01

[사례2] China Academic Journal

  • 학술논문, 저자, 저널, 발행기관 검색
  • 분야별, 저자별, 저널별, 연도별, 주제별 패싯(Facet)

see02

[사례3] 동양고전번역지원

  • 고전번역용례, 어휘출전, 말뭉치검색
  • 사용자가 입력한 한문의 어휘를 분석하여 가장 유사한 번역문을 찾아줌

see03

[사례4] 북한자료 아카이브

  • 북한의 신문, 저널기사, 도서, 영화 등의 자료를 통합 검색
  • 통일부 북한자료센터 내부에서만 열람 가능(특수자료)
see04