信息检索PPT
信息检索(Information Retrieval, IR)是一种能帮人们查找到所需信息的技术,这种技术通常是基于计算机的。1. 信息检索系统信息检索系...
信息检索(Information Retrieval, IR)是一种能帮人们查找到所需信息的技术,这种技术通常是基于计算机的。1. 信息检索系统信息检索系统是信息检索技术的最主要的载体,典型的现代信息检索系统基本上都是由Web化的搜索引擎组成的。目前较有影响的有Google、Bing、Yahoo等。其实质上是一种大规模的、实用的、可用的、针对数字环境的信息检索技术系统,能对大规模的、处于不断动态变化中的数字化信息进行组织和管理,从而使得人们在任何时间、任何地点都能存取信息,并能很快查找到所需的信息。2. 信息检索技术信息检索技术是信息检索系统的核心,主要有以下三种:全文检索技术是信息检索中最主要的技术,是将原始数据直接输入计算机,以全文数据为处理对象,运用计算机中一整套程序对文本进行处理,包括数据的采集、分词、索引等,进而实现机器对数据的自动识别超文本/超媒体检索技术是20世纪90年代初发展起来的,基于超文本/超媒体技术的信息检索就是利用超文本或超媒体网络的固有特点,充分发挥其能按内容相似性关联文档的功能,在散了整个Web的基础上再增加一层以内容为主题的知识结构,从而把搜索范围由字面信息扩展到内容信息多媒体信息检索技术是20世纪90年代中期发展起来的,基于内容的多媒体信息检索主要围绕图像和视频的内容表达展开研究。其核心是从图像和视频中提取特征和语义,利用这些特征和语义建立索引来进行查询3. 信息检索服务从服务层面来看,目前主要的信息检索服务模式主要包括以下几种:提供目录罗列服务这是最早的信息检索服务形式,主要是提供一个树状分类目录列表,用户通过浏览这些目录来获取感兴趣的信息资源搜索引擎服务搜索引擎可以说是目前信息检索服务的最大提供者。它基于全文检索技术、超文本/超媒体检索技术和多媒体检索技术等技术实现。用户通过搜索引擎的关键词查询,就可以快速地找到所需的信息数据库检索服务数据库是存储和管理各类结构化数据的主要手段。目前很多企业和机构都提供各种数据库检索服务。如学术数据库、科技数据库、数字图书馆等个性化信息服务个性化信息服务是指根据用户的需求特征,主动为用户推送相关的信息服务。这种服务模式通过用户特征的建立和分析,能有效地把握用户的需求特征,提供个性化的服务知识问答服务这是一种面向普通大众的信息获取服务模式。用户只需通过自然语言进行提问,系统就可以自动或半自动地返回相关答案。如百度知道、新浪爱问等推荐系统服务推荐系统的目的是把用户可能需要的信息推送给用户,以帮助用户进行更好的决策。推荐系统的关键技术主要包括聚类、分类、关联规则挖掘等聊天机器人服务聊天机器人是一种能进行自然语言对话的信息检索系统,它借鉴了自然语言处理和人工智能技术的最新研究成果。目前很多企业都提供基于聊天机器人的客服服务4. 信息检索评估信息检索评估是从用户需求角度出发,以用户满意度为最高准则,从相关性、准确性、完整性、权威性、及时性等方面对检索结果进行评价的方法和策略。通常来说,评估主要从以下四个方面进行:查全率查全率是指系统在进行某一课题检索时,选出与这一课题有关的文献所占比重。计算公式为:查全率=(检中相关文献量/检中文献总量)×100%。一般来说,查全率越高说明系统的性能越好。但需要注意的是查全率过高则可能意味着误检率也越高查准率查准率是指系统在进行某一课题检索时,检中与这一课题完全相关的文献所占比重。计算公式为:查准率=(检中相关文献量/检中文献总量)×100%。查准率反映了系统区分相关和非相关信息的能力,查准率越高说明系统的性能越好精确率精确率是指系统在进行某一课题检索时,选出的有关某一课题的文献中与其课题完全相关的文献所占的比重。计算公式为:精确率=(检中相关文献量/检中文献总量)×100%。精确率反映了系统区分相关文献的能力。精确率越高说明系统的性能越好召回率召回率是指系统在进行某一课题检索时,检出的与这一课题有关的文献占全部相关文献的比重。计算公式为:召回率=(检中相关文献量/全部相关