您的位置首页百科知识

搜索引擎评价体系应该分几个方面

搜索引擎评价体系应该分几个方面

的有关信息介绍如下:

搜索引擎评价体系应该分几个方面

搜索引擎评价体系应该分为以下几个方面:

1、对于搜索引擎系统而言,语料库集合就是指万维网数据的全体,搜索引擎需要利用网页抓取子系统自行获取万维网数据。

2、查询样例集合构建:(真实性,代表性,信息需求表达的完整性)

虽然搜索引擎每日需要处理的用户查询数目十分庞大,但是进一步观察查询频率的分布时,将会发现,搜索引擎查询频度的分布在很大程度上符合“二八定律”(Pareto principle),这带来的启示是:可以使用少量的高频查询样例集合来代表大多数用户的查询请求。

导航类:用户检索时具有确定的检索目标页面,目的是查找某个已知存在的页面资源;

信息类:用户检索时没有确定的检索目标页面,目的是查找与某个主题相关的信息;

事务类:用户检索时没有确定的检索目标页面,目的是查找与某个特定需求相关的资源。

3、正确答案集合构建

对于搜索引擎性能评价任务而言,手工标注正确答案的环节是必不可少的,但手工标注的准确性不可避免地受到标注人员知识背景、理解水平等因素的影响,这一定程度上阻碍了搜索引擎性能评价所期望的客观、公正目标的达成。针对此,不少自动结果标注的方法出现,但都由于选择的标注方式不可靠而没有获得成功。

4. 搜索引擎评价指标

对于传统信息检索系统而言,最基本的评价指标是”Precision / Recall“指标

Retrieved集合,待评测检索系统处理查询样例返回的结果集合。

Relevant集合,正确答案集合。

Precition衡量的是检索系统所返回的结果列表中正确答案的比例,而Recall衡量的则是正确答案集合中有多大比例的答案在检索系统中返回的结果列表中。