登陆注册
11416800000008

第8章 数字图书馆中基于文本的网络信息检索技术

王艳

【摘 要】 数字图书馆具有信息资源数字化、网络化、共享化、跨区域化的特点。为了提高查找效率,优化信息检索的性能,文章讨论基于文本的网络信息检索技术,着重讨论了基于内容信息检索技术、基于敏感信息检索技术和基于语义信息检索技术,并对其性能进行比较。

【关键词】 数字图书馆 内容检索 敏感检索 语义检索

一、数字图书馆的发展与特点

在国外,早在20世纪40年代,美国科学家就提出了数字图书馆这个崭新的概念。1993年9月,美国国家科学基金会、国家宇航局、国防部高级研究项目局联合提出“数字图书馆倡议”。因而美国数字图书馆的研究和建设起步最早,发展最快。于是从20世纪90年代开始,世界范围内的网络化、自动化、信息化的新型图书馆及其服务模式迅猛发展。

在国内,20世纪90年代以来,我国数字图书馆脱颖而出,应运而生。

90年代初,国家图书馆就安排专人负责跟踪掌握国外研制数字图书馆的技术和发展动态,取得了数字图书馆整体框架的认识,并把相关技术引入相关研究项目进行研究。上海图书馆的数字工程起步于1997年;中国国家基本设施工程1995年立项,1999年6月正式启动;万方数据资源系统1997年8月在因特网上开通对外服务;中国高等教育文献保障系统是教育部的重点工程,1997年1月正式启动;中国数字图书馆工程立项于1998年,2000年4月开通运行;国家科技图书文献中心于2000年6月12日成立,还有国家科学数字图书馆“中美数字图书馆”工程等国家重点项目,建设规模大,投入力度大,建设速度快,发挥效益高。

数字图书馆是建立在计算机网络技术、数字技术、信息技术基础上的数据信息资源系统。跨行业、跨区域、跨数据库的信息检索,将分散于各种载体、不同地理位置的信息资源以数字化储存、以网络化形式相连接,提供给分散于不同地理位置的用户使用,实现信息资源共享。数字图书馆具体要达到如下特点:

1.信息资源数字化。用网络技术、信息技术、数字技术,对收藏的图书、图像、资料、音响、影像和数据等信息资源进行搜集、组织、加工。

把本馆和分散在不同地域的各类文献信息资源进行压缩而转化为数字信息,高质量的存储和管理。

2.信息资源网络化。以高速宽带网构筑的因特网为依托,以高速度、大容量、高保真的计算机网络系统,将世界各国的图书馆和无数台计算机联为一体。使得信息服务跨时空化,信息利用的开放化,信息传递的标准化和规范化。

3.信息资源跨区域化。信息资源检索跨数据库化,以互联网为依托的数字图书馆既能通过网络交换各自的数字馆藏信息资源和电子出版物,跨行业、跨地域和跨数据库的检索,又能使分散在各地的用户利用分散在不同区域、不同储存单位的信息资源。信息资源检索跨数据库化不仅体现了跨行业、跨地域、跨国界的资源无限的特征,而且充分体现跨区域、跨国界的资源共建的协作化和数字图书馆的资源共享。只要有电脑的用户,均可享用数字图书馆资源体系中分布在世界上任何一个图书馆的资源,用户对馆藏信息资源的利用不受时间和地理位置的限制。

数字图书馆给用户提供了极大的方便,同时对其如何更加充分地利用也提出了更高的要求。如何使得用户可以快速、全面、有效地检索到用户所需要的信息,是数字化图书馆的一个技术难题。

二、数字图书馆网络信息检索机制

信息检索是指用户根据自身的需要对数字图书馆信息资源进行检索的过程。信息检索技术应用于用户提问信息与数字图书馆信息资源匹配比较的一种技术,可以分为精确检索技术与模糊检索技术两大类。精确检索技术要求检索出的信息资源必须与用户所提交的需求信息完全匹配。其包括:布尔逻辑检索、原文检索和字符串检索技术,被绝大多数检索系统所采纳。而模糊检索技术允许信息资源与用户所提交的需求信息有一定的误差。其中包括:语意检索、内容检索等模糊检索技术,代替了关键词、概念知识的检索。

网络信息检索过程包括三个阶段:1.有用信息提取阶段。2.查找匹配阶段。3.匹配结果输出阶段。

用户根据自身的需求,在数字图书馆系统所提供的用户界面上填写检索内容与要求,然后提交给系统。系统的信息提取模块从用户检索需求中提取出相对用户来说有用的信息的过程,称之为有用信息提取阶段。在该阶段中,信息提取模块要对检索需求进行分类、关键字提取、语义分析等操作。信息匹配模块根据提取的关键信息与数据库进行交互,查找出满足关键信息要求的数据。在匹配结果输出阶段,系统将检索的结果按照某种系统设定的排序法则输出给用户,以供用户进行有目的的选择。

网络信息检索系统结构主要由三部分组成:Web服务,客户端(浏览器端)和数据库与文件集的入口模块。Web服务基于Tomcat+Apache Axis服务器。客户端可供用户提交检索需求和浏览检索的结果。数据库与文件集入口模块用于与数据库进行的交互,以检索出满足条件的信息资源。

三、数字图书馆网络信息检索技术与性能

信息检索包括两个方面核心技术:如何建立和维护检索索引库和如何提供快速有效的检索机制。基于文本的信息检索是涉及文本(包括纯文本和超文本)内容查寻的检索技术。检索模型的构造是基于内容的信息检索的核心技术,检索模型包括:有用信息提取、检索匹配、匹配结果输出。

如何从丰富的自然语言中提取出能够满足用户需要的关键信息是人工智能、模式识别中的热点问题。关键信息的提取直接决定了检索结果的好坏。对信息提取的研究结果也层出不穷。目前而言,性能最好包括如下三种方法:

1.基于内容的信息检索。数字图书馆所处理的对象是数字化的信息资源,既包括数字化的文本信息、图形与图像信息、又包括数字化的音频和视频信息。对于这些非结构化信息,简单的标引方法为主的目录或摘要二次文献,或一词检索为主的全文检索都不能满足数字图书馆信息检索的内在要求,应该采取与内容相匹配的一种检索方式——基于内容的检索(CBR content-based retrieval)。

数字图书馆基于内容的网络信息检索技术的思想是:通过对信息的模式识别和分析理解,从中抽取信息的相关内容特征并加以标记和组织,用户以此为检索的依据,完成信息数据库中存储信息的匹配,从而实现信息的直接定位和查找。

CBR所具有的特点主要包括以下内容。

(1)从网络资源中直接提取信息线索。相对比传统的基于关键字的检索而言,CBR突破传统的检索的局限性,它直接对文本、图像、多媒体进行分析,提出特征并建立索引以供匹配过程调用。

(2)能满足用户的多层次的检索需求。CBR检索要求数据库系统划分成信息资源集、特征集与知识集,信息资源集包含所有的数据,如图像、视频、文本等;特征集包含用户输入的需求特征与预处理自动提取的内容特征;知识集包括领域知识与常用知识,知识的特征可以随时变化,以适应不同的需求。CBR检索可以从不同的信息资源中查找出满足用户需求的信息,为用户提供了多层次多方面的检索信息。

(3)CBR是一种智能化、交互式、高效率检索。CBR是基于内容的特征值的检索方式,因此CBR也是一种模糊检索。通常CBR以一定的相似度来选中信息并按照相似度的高低来输出检索结果。其人机交互式的操作也为其高效性提供一定的保证。

(4)CBR是一种层次化的检索方式。相对采用精确匹配技术的传统信息检索而言,CBR采用的是近似匹配的方法,输出第一层次的检索结果,让用户来选择下一层次的检索信息。

2.基于敏感信息的检索。研究表明:个人的自主浏览习惯通常集中在相对固定的知识点。基于该原因,基于敏感信息检索随之诞生。其目标是:把传统的检索功能和具体用户的自主浏览采集信息集合起来,利用检索工具把特定的信息采集放入特征值集,当用户需要时,检索该特征值集就可以找到相关信息,该检索系统不对整个数据库进行检索,只是根据特征值对用户关心的、经常浏览的信息资源进行检索,按照重点优先的信息检索策略,可以在很大程度上满足用户的需求,且减少检索的时间和次数,极大地提高了检索的性能。

敏感信息检索系统包括客户端(后端)与服务器端(前端)。前端负责信息的发现、定位、采集、描述和分类。后端负责对用户需求信息的分析处理与查询提交。其工作流程是:通过安全的扫描检测,比如扫描In鄄ternet服务器、Telnet服务器或者监听TCP、UDP端口,发现提供服务的节点,存储该节点的端口与域名。利用该信息建立敏感站点资源库。根据后端模块的反馈和用户查询要求自动分类,也可以进行用户自行手工建立、或者由文件导入。设置相应的敏感度参数。随时保持对敏感库的监控,包括敏感信息的添加、跟踪更新,及时获取最新时效信息。用户通过用户接口模块完成用户与系统的交互。一方面,系统根据敏感信息库中的特征查询用户所需求的信息,按照信息的敏感值依次输出检索结果;另一方面,系统自动采集本次用户需求,用来更新敏感信息库。

敏感信息检索的特点主要包括以下几个方面。

(1)智能化程度高。敏感信息检索系统通过不断地对敏感信息库进行更新、追踪,及时地掌握信息的敏感程度。根据不同的用户提供相应的敏感信息。

(2)检索效率高。敏感信息检索系统不同于传统的检索系统,其通过提取敏感信息的特征直接进行网络服务,其检索的目的是明确的,减少了不必要的检索操作。

3.基于语义分析的检索。如何从丰富的网络资源中提取自然语言问题的答案是现在语言学、人工智能学科的热点问题。各种搜索引擎(如谷歌、百度)能够根据问题的关键词检索到大量的相关网页,而如何从这些网页中提取问题的答案是研究的难点。为了提取答案,首先可以提取包含答案的句子,然后再从句子中提取答案。通常是计算问题和文档中的各个句子的相似度,并提取相似度最大的句子作为答案。目前主要的方法是通过计算问题和句子中拥有共同的关键词的数量值来确定其相似度,但是句子中的同义或者多义字会导致正确答案的遗落与错选。

基于上述原因,Landauer,Dumains等人率先提出潜在语义分析(Latent Semantic Analysis,LSA)。其基本思想是:文档中的词与词之间存在某种联系,即存在某种潜在的语义结构,同义词之间存在基本上相同的语义结构;多义词的使用具有不同的语义结构。词汇之间的这种语义结构与其在文档中的出现频率有直接的关系。因此LSA的目的是通过统计方法提取并量化这些潜在的语义结构,进而消除同义词、多义词的干扰,提高文档表示和检索的精确性。

语义信息检索的特点主要包括以下几个方面。

(1)检索准确度高。语义信息检索从潜在的语义分析的角度出发,排除同义词、多义词的干扰,做到有的放矢。可以从语言的角度对用户信息的进行提取,该技术能够更全面的掌握用户需求、对信息更具有针对性。

(2)智能化程度高。语义信息检索的智能性不同于敏感信息检索的智能性。敏感信息检索系统通过不断地对敏感信息库进行更新、追踪,及时地掌握信息的敏感程度。根据不同的用户提供相应的敏感信息。而语义信息检索从语言学角度对有用信息进行提取,力求找到语义上的最优匹配。

基于内容信息检索、敏感信息检索、语义信息检索是目前比较新的检索技术。各个方法有自身的特点也有自身的缺陷。其性能对比表如下:

四、结束语

数字图书馆是一个应用前景非常广阔的研究领域,它不仅是国家的数字文化平台,而且是国家数字教育平台,更是国家数字资源中心。检索是数字图书馆的核心业务之一,也是怎样去利用这些网络信息资源的关键。

目前数字图书馆网络信息检索在国内外仍处于研究、探索阶段。基于网络的信息检索技术必然存在不少的问题和缺陷,主要包括特征值的提取、信息同步、匹配算法设计、语义分析等。这些问题也是未来研究中需要解决的。

参考文献:

(1)李晓明,李星.搜索引擎与Web挖掘进展.北京:高等教育出版社,2003

(2)W-M Ke,Y-Y Fu,J.Mostafa.Advanced information retrieval Webservices for digital libraries.Library Collection,Acquisitions & Technical Services,2005(29)

(3)王预.数字图书馆信息检索技术及其应用.计算机技术与发展,2006(16)

(4)屈强,魏鑫,梁延华.一种基于敏感站点处理的Web信息检索系统.微计算机信息,2006(22)

(5)T.K Landauer,W.P Foltz,D.Laham.Introduction to latent semanticanalysis.Discourse Process,1998(25)

(6)余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取.计算机学报,2006(29)

同类推荐
  • 大学生社会实践研究

    大学生社会实践研究

    本书主要以甘肃高校(兰州商学院为主)大学生社会实践活动为例,对大学生社会实践进行了比较理性的解读,分为社会实践概论、社会实践的组织和管理、社会实践基地的建立和完善、社会调查的方法和基本程序、社会实践活动范文、附录共6大部分,旨在确立大学生社会实践活动的操作规范,提高它的可操作性,使这项活动能够顺利地开展。
  • 西北民族地区生态安全与水资源制度创新研究

    西北民族地区生态安全与水资源制度创新研究

    西北民族地区生态安全与水资源制度创新的历史回顾与现状分析、西北民族地区生态安全与水资源产权制度创新、西北民族地区生态安全与水价制度创新、西北民族地区生态安全与水资源保护非正式制度创新等。
  • 媒介演化论:历史制度主义视野下的中国媒介制度变迁研究

    媒介演化论:历史制度主义视野下的中国媒介制度变迁研究

    本书聚焦中国媒介制度的变迁与演化过程,史论结合,以论带史,详尽而生动地揭示出中国媒介制度变迁的发生学原理;运用历史制度主义整合“行动”与“结构”分析的理论框架,本书构建了一个中国媒介制度变迁的“四维模型”,以简驭繁,将中国媒介制度变迁的内在逻辑清楚地呈现出来。全书理论深厚、内容充实,逻辑严密,新见迭出,具有鲜明的中国媒介研究的本土意识和问题意识,堪称中国媒介制度变迁研究的扛鼎之作。
  • 新闻有常 俯仰百变:新闻采访与写作技巧谈

    新闻有常 俯仰百变:新闻采访与写作技巧谈

    一篇好的通讯可以是一篇很好的文学作品。但通讯毕竟不是文学。在实践中,为了不使自己盲目,我注意研究文学作品与通讯作品的差异,并归纳出一些规律:哪些文学的表现手法可以在通讯写作中运用,又有哪些文学的表现手法不适宜在通讯写作中运用。
  • 伦敦AB面:首次展示真正的英伦贵族范儿

    伦敦AB面:首次展示真正的英伦贵族范儿

    《伦敦AB面》不仅仅是一部旅游书,它还是一部关于英伦文化的“大观园”。《三联生活周刊》《ELLE世界时装之苑》《南方人物周刊》资深主笔王星、李孟苏、黄景路、王年华娓娓讲述你所不知的英伦故事。全书总体上分为两部分:A面,上流贵族阶层;B面,市井伦敦。内容共四章,分别从贵族和平民两方面讲述故老伦敦的过去、现在还有将来。包括英国皇室的渊源、贵族生活、贵族运动、新旧贵族之间的微妙关系及与普通民众息息相关的市井街区的历史文化和现状等,为读者呈现出与传统认知完全不同的更为亲民的英国皇室、贵族及与之和谐共存的传统却不保守、轻松、自由与日趋繁华的市井生活,并由内而外解读了伦敦所特有的文化内涵,即:上流与市井泾渭分明,有阶层没斗争;对王室真心敬爱,有君主无专制。此外,《伦敦AB面》收入了大量真实、有价值的一手照片,囊括了大量珍贵素材,包括珍贵的白金汉宫全景图、英国王室成员的日常照片以及众多伦敦实景唯美照片,极大地增强了该书的审美和可读性。
热门推荐
  • 二酉缀遗

    二酉缀遗

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 首席大人玩够了没

    首席大人玩够了没

    他折磨她,摧残她,却在看到她隐忍,逆来顺受的时候,为何心痛了?当爱意生起的时候,身边却迎来了一个又一个的阴谋,冰冷的楼道间,她滚落了下来,血水如毒绽放,赤红了他的眼……五年后,真相蔓延……他与她,又该何去何从?
  • 宁不为妃:站在墙外等红杏

    宁不为妃:站在墙外等红杏

    【相遇篇】初次见面,她窘迫于被识破身份。尴尬的看着眼前的少年。少年,雍容华贵,容貌靓丽,凤眼笑吟吟。客人闹事,他出手相救,却是以假婚为由天天缠着她。古礼在即,他悉心呵护,却以手间的一丝嫣红吓跑了她。雅湖相约,他抚琴告白,她羞涩点头,最终醉倒在他的怀中。可是当她怀着孩子回到他的身边,她泪流满面。颤抖的伸出手,轻轻抚摸着他苍白的容颜。【二嫁篇】她愤怒的接过圣旨,怀着怨恨入主西宫。从此以后,她是一人之下,万人之上的皇贵妃。君王的一再容忍换不回她的一次的回眸。只因她爱的不是他。而他,却是害死他的元凶。孩子的出世,令她再次陷入危险。她狠下心,忍着泪看着那个狂傲的男人抱走她的孩子。【尾声】“娘,我真的没有嗲嗲?”男孩睁着亮亮的大眼睛,口齿不清的问着面前的美丽少妇。“没有。”少妇专注的绣着手里的小布鞋。男孩不死心,拽了拽少妇的裙角,小手一指:“他说他是我嗲嗲。”少妇转头,然后低头:“不认识。”秀眉一皱,针头刺到了手指。男孩心疼的拉过少妇的手指,含在嘴里:“嗯!小昭有娘就够了!”……********************************************请看:《宁不为妃:站在墙外等红杏》(一卷温情篇,需要读者耐心阅读)(二卷虐恋篇,预计在83章起卷)愿者请上钩!求被踩,求人气,求收藏!********************************************【读者可以加QQ:834032530注意备注一定要写】
  • 末世追美记

    末世追美记

    穿越了,孔圣很不解。为什么别人都是穿到古代,坐拥娇妻美妾,笑看江山如画,而他却穿到了鸟不生蛋的未来世界?这个世界,与其说是末世,不如说是很特别的都市。物竞天择,适者生存,是这个世界的基本规则。当然,至少有一点孔圣感到很高兴,在这个世界,初中毕业的他,完全称得上文武双全了。不管怎么说,这一世,他要为自己而活,要活的精彩,要活的疯狂。有人挡住他前进道路,杀!有人阻挡他追求梦想,杀!二十一世纪强悍的灵魂,绝不可能甘心做别人眼中的弱者,更不可能成为所谓的低等人类!无论谁敢这么说,那就让他去死!
  • 超级复仇者联盟

    超级复仇者联盟

    超级复仇者联盟,也可以说是新复仇者联盟,美国的复仇者为了捕捉神秘人,来到了中国,可不能呆太久(因为,美国还有事情),所以他们在中国收徒,保卫中国!
  • 烧香坟

    烧香坟

    一百五十年前,金家曾收到一封书信,写道“葬世荒漠,活即为死,死即得生”。五十年前,金老九一行人带着一本旧书前往荒漠,从此音信全无。五十年后,断指老人带着一个孩子安居荒村,从此为巨坑添纸烧香。老人为何一夜失去双眼?金老九一行人为何离奇失踪?诡异的荒漠和那旧书到底有何关系?这一切的一切只等这孩子去寻找,也许他将找到自己,也许他会被......
  • 坦然面对

    坦然面对

    古情结,生死连,万古情缘一线牵;为了不日情与怨,甘上云端闹九天!
  • 爱你在光年之外

    爱你在光年之外

    在宇宙中有个神秘的银河系,它由六大星球领导着,太阳,月星,宝石星,子木星,人鱼星,焰王星,他们守护着神秘的魔法,分别是,光,引,金,木,水,火魔法掌控着银河系,随着科技的发展,人们来回穿梭星球只要半小时,时间空洞的设定,在那的人们最多能活到一万岁,心灵纯洁。在太阳上,住着恩氏皇族,他们领导着这个银河系,恩宁是太阳国的公主,可在他成人礼那天,意外得知自己是第二代和平女神,拥有着改变世界的力量,她的生活会发生怎样的变化?在她上学的第一天她便偷偷的跳级,来到自己哥哥的班,并隐藏公主身份学习,在学习中她喜欢上月星的王子,他们之间又会发生什么,又会有谁出来组织呢。。。。。
  • 邓小平与马克思主义中国化

    邓小平与马克思主义中国化

    本书分析邓小平怎样解决马克思主义中国化的一系列基本问题,有利于揭示和掌握马克思主义中国化的规律,从而指导马克思主义中国化的不断发展。
  • 传说中的北极星

    传说中的北极星

    绿光,一种非常罕见的天文现象,常在日落时发生。发生该现象需要具备很多条件,包括能见度高、海面附近没有云等。北欧有一个古老的传说:人的一生只要看到一道绿光,许下的愿望都会实现。情书:你如星光般耀眼,却又如阳光般温和,让人忍不住去遐想最真实你的模样,在看到你的第一眼,我的整个世界都亮了,你在我的世界就如天神般的存在,让我想要贪婪的独占你,你是那么的遥远,却又那么的近,让我渐渐的融化在你那深邃却也温柔的眼眸里!(本文纯属虚构,请勿模仿。)