登陆注册
12551300000040

第40章 计算机信息检索原理及系统构成

一、计算机信息检索原理

人类的信息检索需求千差万别,获取信息的方法也各种各样,但信息检索的基本原理却是相同的。其本质的部分就是对信息集合和需求集合的匹配和选择。

匹配和选择是一种机制,它负责把需求集合与信息集合进行比较,寻找两者之间的相同或相似之处,然后根据一定的标准选出符合需要的信息。要想进行有效的匹配和选择,首先必须对大量的信息进行收集和加工处理,使之从无序到有序,并通过某种方法对这些信息的各类特征进行描述,让原来隐含的、不易识别的特征显性化,成为能被一般人所认识并理解的信息;另一方面,对用户提出的信息需求也要做类似的加工处理,即分析需求的内容,提取出主题概念和其他属性,并利用与信息集合相同的标识系统来表示需求中包含的概念和属性。

信息检索过程中要储存大量的数据,要对这些数据进行各种组合,有大量的排序和对比操作。为了提高信息处理的速度、准确性和可靠性,人们将计算机应用到信息检索中。计算机信息检索的本质与手工检索的本质没有区别,但信息的表示方式、存储结构和匹配方法变化了,即要用计算机可以识别的代码来表示信息,又要用便于计算机快速存取的方式存储信息。信息的匹配方法也由人工匹配变为机器匹配,匹配方式由隐式变为显式。在这种机器匹配过程中,原先在人工匹配中用于表达概念的语词符号变为没有内涵的字符串。因此计算机检索原理就是表示用户需求的字符串与计算机内存储的大量字符串(信息资料的集合)的比较和逻辑运算的过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,然后将命中的信息输出给用户。

从上图可以看出,计算机一方面接受文献记录(即表示文献特征的各种款目及其标识),另一方面接受信息提问(即用户检索提问表达式),然后进行两者之间的匹配,以找出符合检索要求的文献。在计算机检索中,文献记录是以机读代码的形式存储在磁带上或存放在计算机磁盘上的,这样,计算机才能“阅读”和“理解”。磁带上或磁盘上机读记录的集合,叫做文档,或称为“数据库”。一条文献记录相当于手工检索工具的一条文献款目,即一张卡片目录。但是一条记录除了文献款目的内容外,还加上—些供计算机处理所必需的符号,如指示符、分隔符、字段或记录结束符等。记录中的数据单元又称为字段,相当于目录、文摘、题录中的基本著录项目,如书名、著者等项目。书目数据库是计算机检索的情报资源,除书目数据库外,还有事实型或数值型数据库、目录数据库、全文数据库等。

综上所述,计算机信息检索的原理可归纳为:将检索提问标识与系统中的存储文献的特征标识进行比较,进行字符串匹配和逻辑运算,并输出命中文献的过程。

二、计算机信息检索系统构成

(一)计算机信息检索系统的物理构成

1.硬件部分

它是系统采用的各种硬设备的总称,主要包括具有一定性能的主机、外围设备(包括外部存储器、输入输出设备等)以及与数据处理或数据传递有关的其他设备。主机要适应信息检索的需要,必须具有高速处理和超量存贮功能和分时多任务处理的功能。外围设备包括外部存储器、输入输出设备等。外部存储器应具有较大的存储容量。大型检索系统的外存容量一般都在数千兆字节以上。而且,还应具有多级存储系统,即调整缓冲存储器、主存储器、虚拟存储器、外部存储器,以便与中央处理机的速度相匹配,建立相对平衡的存储系统。输入输出设备包括各种必要的数据录入装置和输出装置,如键盘、光笔、鼠标器、光学字符识别装置、语音或图像输入装置、显示终端、打印机、绘图机、COM输出设备等。

2.软件部分

它是计算机检索系统中有关程序和各种文件资料的总称,包括系统软件和应用软件。系统软件一般包括操作系统、编译程序与汇编程序等。应用软件是根据具体工作需要而设计的数据库管理系统、词表管理程序、检索处理程序等。计算机软件是计算机检索系统所必需的技术。

3.数据库

要建立计算机检索系统,必须对所收集到的大量文献资料按一定的体系和规则加以处理,使之成为机读形式的数据。这种在计算机存储设备上按一定方式存储的相互关联的数据集合,就是数据库。数据库的本质是提供可以共享的有一定组织方式的相关数据。数据库是系统的核心组成部分,也是检索操作的直接使用对象。提供检索用的数据库存储在磁盘里。这些数据库一般是由数据库生产者提供、系统自建或与他人合建。一个计算机信息检索系统一般可提供数十到数百个数据库。在计算机信息检索系统中,多数数据库为关系型数据库。

按国际上通用的基本分类方法即根据数据库所含信息内容,数据库可以划分为参考数据库和源数据库。

(1)参考数据库(REFERENCEDATABASE)

参考数据库主要存储一系列描述性信息内容,指引用户到另一信息源以获得原文或其他细节的一类数据库。参考数据库主要包括书目数据库和指南数据库两种。

———书目数据库(BIBLIOGRAPHICDATABASE)是指存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献数据库。

———指南数据库(DIRECTORYDATABASE)又称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述的一类数据库。通过该类数据库可以查到公司、机构的地址、电话、产品目录、研究项目或名人简历等信息。

(2)源数据库(SOURCEDATABASE)

源数据库主要存储全文、数值、结构式等信息,是能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。它的特点在于它本身含有一次情报,即用户作为检索目的而要求获取的数值、事实或文本。因此,源数据库可以包含数值数据库、文本-数值数据库、全文数据库、术语数据库和图像数据库等多类型数据库。

———数值数据库(NUMERICDATABASE)是一种专门提供以数值方式表示数据的源数据库。该类数据库提供了科学研究中试验、测量、计算、工程设计、经济分析和工业规划等方面的数据,也涉及社会科学中经济统计与预测、金融、商业及人口等方面的内容。与其他数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。

———文本-数值数据库(TEXTUAL-NUMERICDATABASE)是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品市场报告数据库、毒物数据库和物性数据库等。

———全文数据库(FULL-TEXTDATABASE)是一种存储原始信息全文或其中主要部分的源数据库,简称全文库。如法律法规全文数据库、期刊全文数据库、专利全文数据库、新闻消息全文库等。从信息源类型来看,它又属于文献数据库的范畴。目前全文数据库逐渐增加,如人民日报全文数据库和中国期刊全文数据库等。全文数据库虽然要占用很大的存储空间,但因它能使用户获得最终的一次文献,因此具有很大的发展前景。

———术语数据库(TERMINOLOGICALDATABASE)是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,俗称电子辞典。

———图像数据库(GRAPHICSDATABASE)是一种用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。

另外,按其载体形式还可分为磁媒体数据库、光盘数据库、多媒体数据库等。

(二)计算机信息检索系统的逻辑构成

一个完整的信息检索系统通常必备以下六个功能模块:文献与数据选择与采集子系统、词表子系统、标引子系统、建库子系统、系统-用户接口子系统、提问处理子系统。

1.文献与数据选择与采集子系统

本功能模块的任务是根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛地、连续不断地采集各种数据,为系统提供充足而适用的数据源。

信息检索系统中的信息主要来自各种公开文献,如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文,二次文献中的文摘、索引和目录,三次文献中的百科全书、专科词典、辑录、指南、手册等。而这些情报源又可以以不同形式出现,如印刷型、机读磁带或软盘、光盘、缩微品或音像资料。在早些时候这项任务主要由系统工作人员承担,计算机只起辅助作用。采集的手段有订购、交换或利用行政手段搜集下属机构的数据,或利用已有的传统数据,如文摘索引、目录、手册、指南等。

随着通信技术与网络的发展,信息采集的内容与方法在很大程度上发生了很大的变化。从内容上看,采集的对象在原有的基础上有了扩展,增加了网络信息这一庞大的信息资源。从方法上看,检索系统也不再全部由工作人员完成,而是更多地借助计算机,通过编制一种机器人程序,自动地在各网页间搜集信息,以满足网络环境下信息采集的要求。

2.词表子系统

主题词表是控制标引用词和检索用词并使二者尽量取得一致的有效工具。词表子系统的主要功能是管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户的各种词汇查询操作,从提问、对话或其他文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。在信息检索系统中,此子系统既可独立存在,亦可以和建库子系统中的词典文档合并在一起。

3.标引子系统

标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予文献一定数量的内容标识(分类号、主题词、关键词等),作为存储与检索的依据。这是分析揭示文献主题特征,并使之显性化的过程,再录入计算机中。标引分为手工标引和自动标引。目前主题标引和分类仍靠手工完成,抽词标引可由计算机自动完成。通过标引,能将分散的资料彼此联系起来。标引子系统的功能决定数据库的标引深度和检索点,标引的一致性和实际的查全潜力,标引的贴切性和实际的查准潜力。

4.建库子系统

建库子系统的实质是将采集子系统所采集的无序信息进行有序化组织的过程。它的任务是对所采集的信息进行组织,建立并维护可直接用于计算机检索的数据库。主要功能包括数据评价与转换、数据录入、数据库的维护与更新。

数据评价与转换都是对信息进行规范化的过程。数据评价的目的是在数量庞大、种类繁杂的各种信息中,确保数据来源的可靠性、准确性和实用性。对于直接获得的数字信息还需要对其格式进行检测与统一标准化转换。

数据录入有手工录入与自动录入两种方式。手工录入在录入过程中应注意保持原始数据的完整性和准确性。自动录入主要用于对光盘数据库、磁带数据库等数字信息的套录或转录,以及通过扫描仪与OCR(光学字符识别)技术结合完成文献的数字化。

数据库的维护与更新是系统能够持久稳定运行的保证。维护主要指对数据库系统硬件设备的维修、保养和对系统软件功能的修改、扩充。更新主要指对数据库的内容进行添加或重新组织。

5.系统-用户接口子系统

系统-用户接口简称用户接口,是面向系统用户的一种“人—机”接口。它承担用户与系统之间的通信功能,是两者之间实现通信不可缺少的连接系统。系统-用户接口子系统通常由用户模型、信息显示、命令语言和反馈机制等部分构成。用户模型即是系统建立的用户认识模型;信息显示是指系统以屏幕显示形式提供给用户的各种信息,如菜单、窗口、帮助信息、错误信息等;命令语言是指系统提供给用户的检索命令集,包括基本命令(如检索开始、结束、选词、组配、显示、打印等)和扩充集(如截词、位置运算、限制检索、暂存检索策略、套录等);反馈机制,即系统对用户反馈的信息所作出的反应或操作。

此外,直接供用户输入信息的设备,如键盘、鼠标、触摸式显示屏和输出设备,也是用户接口的组成部分。依照这个子系统。检索系统可分为脱机检索系统和联机检索系统,指令驱动检索系统和菜单选择检索系统等。

6.提问处理子系统

该子系统负责处理用户输入的检索式或提问式,并将它们与数据库中存储的数据进行比较运算,也就是系统对检索式同文献记录进行比较而决定其取舍,然后把运算结果输出给用户的过程。该模块主要由检索程序构成,即根据用户的提问,从数据库中读入一批记录,与提问式进行比较,把满足要求的记录记入输出文档。信息检索系统中,计算机实际上是个高速的匹配器。这种匹配方式是对文档有顺序扫描和随机存取的方式。提问处理子系统实际上包括数据库在机器内文档的结构、信息检索软件。执行检索程序过程包括:接收提问—分析需求—提问校验—语法用词检查—提问加工—解释转换—提问检索—匹配选择—结果输出。

同类推荐
  • 空穴来风

    空穴来风

    本书之对历史谣言做一番研究,分析了谣言从古到今其威力和破坏力将是多么巨大,无论是对谣言者自己还是对别人。
  • 对外报道策略与技巧

    对外报道策略与技巧

    在系统梳理我国对外报道业务变革历程的基础上,对我国对外报道机构及其规制、对外报道的外部环境进行理论分析并从实务操作层面探讨对外报道的方式、策略,内容采集与制作,信息加工与整理,对外报道的策划与组织,对外报道的受众策略及效果评价,网络时代对外报道业务的演进与变革等问题。
  • 美国高校学生事务管理

    美国高校学生事务管理

    本书选取了哈佛大学、斯坦福大学、耶鲁大学、哥伦比亚大学等私立大学和加州大学伯克利分校、弗吉尼亚大学、密歇根大学、北卡罗来纳大学教堂山分校等公立大学,逐一对其办学理念、学科特色、学生事务管理架构、学生事务管理工作内容进行梳理,并对公寓住宿管理、法律申诉服务、多元文化教育、学生社团管理、新生入学指导、心理咨询、奖励资助、学术咨询等诸多具体学生事务的内涵、理念、实际操作等进行了描述,为我国高校学生工作者了解美国高校学生事务管理实务的重要参考书。
  • 中国都市卫生风险与社会治理

    中国都市卫生风险与社会治理

    现代化、全球化的迅速推进加快了“高风险社会”的来临,市场失灵、社会道德缺失等则令形势更加严峻。作为后发展国家,中国都市所遭遇的治理危机的挑战更为复杂和严峻。构建高效型城市和维护城市生态文明必须强化卫生风险的监测预警,推进卫生危机的事中处置和善后修复,需要各级政府从国家安全的高度共同重视卫生风险的防范和危机的治理,强化危机治理过程中的国家、市场和社会的良性互动,从而为和谐社会的建设做出贡献。
  • 王学泰自选集:江湖旧梦

    王学泰自选集:江湖旧梦

    这本书浓缩了作者几十年的研究心血,在字里行间中折射出了作者对于“游民文化”“江湖文化”牵动中国社会变迁的密切关注和深刻思索,让读者在“游民文化”和“江湖文化”中发现另一个中国。
热门推荐
  • 穿越:潇洒王妃

    穿越:潇洒王妃

    原是一位大学刚毕业的女神云婉馨,可阴差阳错地穿越到了古代,原想着安安稳稳地过一生,却不料一位霸道王爷横空出世,她只能认了!!!所谓既来之,则安之!(本书若有雷同,纯属巧合。不喜勿喷~亲!)
  • 武道神明

    武道神明

    天之大陆,武道为尊,弱小的武装者,都有千万斤巨力,开碑裂石。而强大的武者,可斩断河流,劈开高山,更有武道大能,摘星捞月,神通广大。武道,决定命运,决定生死,弱者,受人欺凌,强者俯瞰天下。
  • 误惹血族女亲王:魅尊

    误惹血族女亲王:魅尊

    异界重生,她成血族女亲王,前世挚友的背叛,今生她用鲜血来祭奠!大陆之巅,强者为尊,站在塔尖的男子却对她百般刁难的同时又宠爱有加,她犹如他的逆鳞,旁人碰触,定是挫骨扬灰!这般爱恋,让她如何是好?情节虚构,切勿模仿。
  • 半生轮之魔鬼千金

    半生轮之魔鬼千金

    “乾坤逆转,九道轮开,吾已半生为契,穿梭时空,绝不反悔!!!”祭台上,一袭红衣妖冶,赤发血眸,滔天恨意令女子毅然划破自己的手腕以自身血液开启半生轮,半生轮启…不-死-不-休!二十一世纪,Z国京都,圣安医院夜,微凉一间病房内,一名瘦弱约莫十五六岁的女孩躺在病床上,苍白的小脸毫无血色,脆弱的样子仿佛下一秒就会死掉。这时天空一道妖异的红光穿过窗户射入病床上的女孩身上!女孩猛的睁开眼坐了起来,乌黑的眸子空洞无神,红光闪烁,若是有人在此定会吓得大喊‘有鬼’!可惜没人看到,也不会有人知道从今起Z国的京都将会因为此女而迎来一场腥风血雨……
  • 戒备

    戒备

    你拉紧戒备,我突出重围。许漠南的作战目标,就是突破林浅的戒备与封锁最终抱得美人归,不正经竹马中校和泼辣小女人的爱情故事。
  • 庶女不淑之无良正妃

    庶女不淑之无良正妃

    她本是相府嫡小姐,却因母亲早逝而沦为庶女?与她指腹为婚的安王殿下钟情她家二妹,送来退婚书?无妨,她正为怎么摆脱要嫁给那个风流王爷这件事而发愁,如此正好。可是她都这么好说话了,不争不吵不闹的,任由你们折腾,你们却为什么还是这样不放心?落水、投毒、放蛇、陷害、污蔑……各种好戏轮番上演啊。情节虚构,切勿模仿
  • 宁远州志

    宁远州志

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 洛洛向何处

    洛洛向何处

    这是个关于抉择的故事!洛悠然一个身世成谜的普通女孩,在三个男人之间来回周旋,命运之手究竟会将她推往何处?她最后的归宿又将会是谁?
  • 逆往吾前

    逆往吾前

    灾难爆发,往日喧闹的城市以不复从前,人类感染病毒变异成僵尸,越来越多僵尸,越来越多的城市沦陷,人类如何面临史上最大危机,后面又是否有黑手操控?可治愈僵尸的血清,可变异僵尸的血液,这一切,又和主角有什么关系?请关注逆往吾前。我是隔离,谢谢大家!
  • 烟灰系美男

    烟灰系美男

    米雅觉得,顾爵是自己见过的,史上最man爆的纯爷们儿,桀骜不羁,又痞又坏。他是这样告白的:“乐队弟弟们缺个嫂子做饭,你要不要跟了我?”在被漂亮女星追求时他不耐烦道:“小姐您能离我远点儿吗?您挡着我接受阳光的洗礼了。”在米雅被人欺负时他冷酷站出来:“嗬,她男人还站在这儿喘气儿呢,你就上赶着来找死。”就连求婚,他也言简意赅:“妞儿,跟我回家过年。”米雅:你……这就算是求婚了?顾爵:没求,通知你。