猎兔网站搜索系统解决方案

产品概述

功能简介

环境要求及性能指标

成功案例

 

一、      产品概述

猎兔网站搜索系统解决方案可用于站内搜索或者网上信息集成。由负责网站扫描的服务器端程序和前台搜索页面构成。其主要特点是:结构清晰,安装简单,可提供用户顶级的搜索体验。产品总体结构如下:

二、功能简介

中文分词

中文分词可以全面提升返回结果的准确率。猎兔做为专业的中文分词技术提供商,专注基础研发,不断打破查准率的极限。搜索“美的”效果:

       下面是google搜索“美的”的效果:

       猎兔可定制的全系列中文分词模块主要包括完全本地化的java版本,.net(c#)版本和c++版本,同时提供分行业的词库,完全满足多行业,多种平台应用的需要。

中英文同义词查找

可以同时查找中文和英文的多项同义词:

       搜索引擎会根据同义词库查找出更多的相关结果。

拼写检查

       能够检查错误的英文拼写,并给出提示。

例如,当错误的拼写单词Machina时,搜索将给出正确的拼写提示Machine

关键字飘红显示及自动摘要

自动摘要边界显示准确:

网页内容提取

       用户只需指定专题网页的URL,程序可以自动找出网页模版。提取出页面内的标题或者日期,内容等。

分类查找

       文档可以自动分类。用户可以按类别查询文档。

自定义监测网站

       可以指定一个或者多个网站作为搜索的信息来源。同时可以定义网站的目录URL做为文档分类的依据。可以定义遍历网站的层次。

实时监测网站

通过服务器端程序实时监测指定网站。程序可以自动监测指定网站,采用每天或者每小时轮询方式发现新网页。可以通过配置文件指定扫描网站的方式。当然也可以通过命令行建立文档索引。建立索引方式可以是全量或增量。

内部采用智能适应算法发现新增文档速度快。一般的行业性网站每天的增量文档处理只需要100多秒即可完成。

自定义排序方式

可按时间或者相关度返回搜索结果,并显示相关度。

高级查询功能

支持包括按关键字查询和词组查询,组合查询,以及查询修饰符等。举例如下:

任意字符匹配

Ro?e

前缀匹配

rom*

模糊匹配

rome~   rome~0.8

把搜索范围限定在标题中

title:木工

把搜索范围限定在内容中

body:机械

逻辑查询

        电脑 && !IBM

增加关键词的重要度

相机^4 手机

 

三、  环境要求及性能指标

全面支持WindowsLinux及各种Unix操作系统。可在如下环境稳定运行:

Operating System

SDK

Linux

Sun Java 2 SDK 1.4

Sun Java 2 SDK 1.5

Windows2000 SP4

Sun Java 2 SDK 1.4

Sun Java 2 SDK 1.5

       网站增量数据的索引一般可以在3分钟之内执行完毕。10G左右的纯文本信息在数小时内即可索引完毕。

四、成功案例

l         机电贸易网作为为全国近一半的机电贸易信息的来源,使用猎兔网站搜索解决方案对其上百万数据分类整理。用户可以检索全文。通过和猎兔的合作,他们能够提供机电行业最权威和详细的参考信息。

l         天下互联公司作为国内竞争情报分析的领导厂商,选择了猎兔提供的分词程序java版对互联网上的所有新闻类信息根据中文分词结果做整理。

l         全文检索者为了满足《中国经济导报》等用户对查准率的要求选择了猎兔提供的分词程序.net版,同时提供桌面端和服务器端的搜索软件。