登陆注册
13852400000071

第71章 科普搜索的研究与实现(2)

五、实验验证及比较分析

系统选用Java作为开发语言,使用开源的MySql数据库和Eclipse集成开发环境、resin服务器以及JSP技术最终完成系统的开发和部署。

1.实验验证

为求检索效果鲜明,本文设计实验与Google进行了查询效果对比。实验描述:首先,用机器人抽取百度百科开放分类的自然类别的全部词条作为科普词条测试集;其次,随机从词条中选取500个词条作为一次实验的实验样本;再次,分别以相同词条查询科普深度搜索引擎和Google,统计两者查询结果中百度百科词条首页出现的概率。累计做五次实验,实验结果

DSEPS科普深度搜索引擎简称(The Deep Search Engine of Popular

Science)与通用的搜索引擎如百度、Google相比,系统具有以下特色:

(1)在科普领域检索效果更专业化,适用于对检索科普知识有专业需求的用户。

(2)适用于多种行业信息搜索,具有较强的针对性,使用不同的网页分类训练集,训练网页分类信息抽取机器人后可用于多种专业的情报信息的自动搜集、分析和检索。

(3)具有实时性。对深网的信息集成是一种实时的信息检索机制,可以在一定程度上缓解传统搜索引擎因url失效所致的一系列问题。

2.相关工作比较分析

主题搜索引擎面向某一特定的专业领域,保证了对该领域信息的完全收录与及时更新。

常用的主题搜索爬行策略主要有:(1)人工预选策略即为此策略;(2)基于文字内容的启发策略,主要包括:Best first search方法、Fish search方法、Shark search方法就是采用Fish方法;(3)基于Web超链图评价的方法,主要的爬行算法是Back-Link和Page-Rank。文献就采用了Page-Rank,而文献采用的是改进的Page-Rank。

页面主题相关性的判断,即判断一篇网页是否与主题相关。目前常用的方法是基于关键词的向量空间模型(VSM)算法,就是采用这种算法。此外,基于分类器的方法也越来越多地被应用到主题相关性判断中,有关实验结果表明,使用主题分类器来指导网络爬虫爬行主题相关网页的效果要好得多。Chakrabarti等人第一次提出基于朴素贝叶斯分类模型引导主题Web爬虫,采用基于类中心分类法的分类器,文献采用的是Widrow-Hoff分类器,采用了Rocchio算法作为分类器的基本算法,则采用了距离分类器,本文选择了文本分类技术中效果较好的SVM分类器。

主题网络爬虫覆盖度的提高,主要指穿越与主题无关的网页得到与主题相关的网页。目前隧道穿越技术(Tunneling)正是在这个方向上的研究。隧道的穿越问题被公认为主题爬行中的困难问题,在相关论文中讨论较少。Donna Bergmark等人研究得出从一个主题相关网页到另一个主题相关网页的路径对后继爬行具有指导作用。PantPant,G.,P.Srinivasan,and F.Menczer.“Exploration versus Exploitation in Topic Driven Crawlers”等人采用了一种利用单个贪婪参数和Best-N-First方法来控制爬行算法的探索过程。将隧道分为灰色隧道(Grey Tunneling)和黑色隧道(Black Tunneling)两种类型分别给出爬行方式。本文从搜索领域深度着手,采用深网信息集成技术扩大搜索范围。

与以上工作比较,本文研究工作的主要特点在于:(1)在页面主题相关性判断上,采用基于SVM分类模型的分类器,分类准确率达90%以上,大大提高了主题分类机器人的爬准率;(2)在领域覆盖范围上,首次将领域深度考虑到搜索范围内,利用深网信息集成技术采集科普领域深网信息,深化了领域搜索范围;(3)实时性,本文在深网信息集成部分采用了实时的设计方案,根据用户输入查询条件实时进行采集并快速返回查询结果,有效地缓解了主题爬虫链接失效所带来的问题。

六、结束语

本文综合运用主题搜索引擎技术和深网信息集成技术设计并实现了科普深度搜索引擎,其中主题搜索部分针对科普领域信息的特点,设计出人工干预与先采集后过滤相结合的主题搜索引擎信息采集策略,采用基于SVM分类器的主题分类机器人进行数据采集。深网信息集成部分采用基于网页结构分析的表单填写技术实现。目前该项目正在建设中,本设计方案还有待进一步验证和完善。进一步要做的工作是:(1)扩大深网集成规模,提高实时查询效率;(2)进一步优化爬行策略,将url链接相关性预测添加到爬行策略中,指导主题分类机器人爬行;(3)进一步提高分类准确率,一般认为html的结构对文本特征有指向作用,将其添加到特征提取的权值计算中,能提高对网页的分类准确率。

同类推荐
  • 防火墙之巅峰对决

    防火墙之巅峰对决

    铁路交通枢纽后台被控制,世界顶级中心城市即将被满载烈性爆炸物的火车撞击毁灭……这一切,都来源于黑客人侵。谁是幕后的主使者?谁又能拯救这濒危的一切?--情节虚构,请勿模仿
  • 办公软件高级应用

    办公软件高级应用

    日新月异的信息技术使计算机的应用渗透到各行各业,融入到我们的工作、学习和生活中,特别是在办公领域中运用计算机技术,可以实现办公自动化,成倍地提高工作效率。在众多的办公软件中,微软公司的Office系列软件是办公自动化软件中的佼佼者,其强大的功能深受全世界广大用户的青睐。根据当前业界的需求以及办公软件的实际应用范围,本书针对Office 2003系列产品,深入讲解其高级应用知识和操作技能。
  • 信息革命

    信息革命

    随着经济社会的快速发展,电子产品走进了千家万户,与电子产品相伴的信息技术也已渗透到人们生产生活的方方面面。加强信息技术普及,已成为业内人士的共识。鉴于此,在有关部门的大力支持下,经过认真筹划,我们编辑出版了《信息革命》一书。该书以时间为经,在记述信息技术发展历程的同时,深入浅出地介绍了信息技术的相关知识,对人们更好地利用现代信息技术服务经济社会建设和个人生产生活必将产生积极作用。本书由李大东主编。
  • 音视频合成制作

    音视频合成制作

    本书共分4篇6章,其中第1篇简介音视频合成的编导基础,第2篇主要介绍Sony Cinescore 1电影音乐自动合成,第3篇主要介绍Vegas 7.0音视频剪辑合成,第4篇主要介绍Adobe Audition 2.0、Cakewalk SONAR 6和Steinberg Nuendo 3的音视频合成。本书可以作为音乐、美术、动画、舞蹈、影视、戏剧等艺术院校视听艺术合成制作课程的教材,也可以作为相关人员的自学用书。
  • 悟道:一位IT高管20年的职场心经

    悟道:一位IT高管20年的职场心经

    本书是一位有20多年职场经验的IT企业高管撰写的一系列有关职场悟道的短文集成,讲述的是在企业里如何修炼自己,如何摆平自己的心态,怎样做到“世事洞明”和“人情练达”,如何“搞定老板”,怎样做到工作和生活平衡等诸多话题,涉及到跳槽、转行、升迁、环境、沟通、老板、下属、老外等等。每一篇都以作者的亲身经历或者身边的故事说明道理,语言简洁流畅,妙趣横生,更有不少经典片段和发人深省的职场警句,读起来就像是一个睿智幽默的老朋友坐在你面前娓娓道来。
热门推荐
  • 古镇排客

    古镇排客

    本书收录了作者近几年创作的15个短篇小说作品,很多情节是以其家乡长沙望城的靖港、铜官、乔口、高塘岭等古镇为背景写成的。
  • 沈少的甜妻好迷人

    沈少的甜妻好迷人

    这一夜,她被人下药。自知清白不保。在理智尚在时,抓住了眼前的男人。从此开启了另一种生活方式。程阅问:“你爱我吗?”沈作棠说:“为你的美神魂颠倒。”程阅问:“为什么?”沈作棠说:“为了跟你鬼混。”他害她羞于见人。她以为自己遇到了真爱。有一天却发现,扼杀自己孩子的是他……当头顶的光环不在,当他的宠爱变成阴谋……
  • 恋爱二次方

    恋爱二次方

    美丽的校园,意外的邂逅,性格外向的她遇见了古板严肃的他。到底是谁先爱上了谁,已经不重要!但爱情的路是坎坷的!背负着家族的复兴母亲的期望弟弟的命运,他选择放弃了她!失踪了六年的她再次出现,但过去的记忆却不再存在!默默守在她身边温柔的他决定不再沉默!两个男人,同样出色,究竟她会选择哪一个呢?
  • 舍我其谁:胡适(第二部)

    舍我其谁:胡适(第二部)

    1917—1927年是青年胡适名满天下、如日中天的巅峰十年。他引爆五四新文化运动,引领公众舆论,参与思想、政治论争,争夺文化霸权,时刻站在时代的风口浪尖。短短十年,青年胡适一跃成为“20世纪中国第一公共知识分子”、“中国自由主义的先驱”。本书大量征引第一手材料,跳出胡适研究窠臼,纠正周策纵、唐德刚、林毓生、周质平、罗志田等名家旧说,还原一个有血有肉的“多面胡适”
  • 耻言

    耻言

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 宝贝儿,咱们再婚

    宝贝儿,咱们再婚

    【新文《柔情蜜意,陆少婚前试爱》正在连载更新】谁能告诉苏倾,贿赂巡考员不把作弊的事情报给学校,是要以身相许的?直到从民政局走出来,手里捧着喜庆的结婚证的时候,苏倾看着旁边笑得一脸意味深长的男人,傻了。从此,A市总裁宋城尧,在商界多了一个头衔“宠妻无度”。他说:我要给你A城最盛大的婚礼。却让她成了A城最大的笑柄。他说:你怎么就不明白呢,除了我,你不能嫁给任何人,任何。可是她却在和他离婚之后,执意嫁给那个青梅竹马的男人。原来一开始的时候,这就是一个已经布好的局。他在她怀着孩子的时候强行要了她,随后离家七天,七天后,满城风雨,他和另外一个女人进出酒店。“宋城尧,我们……离婚吧。”苏倾清楚的听见他说:“好。”再次相遇,宋城尧却誓要将她再次夺回身边!修长的手指执起她的下巴,声音温柔专注:“我说过,苏倾,除了我,你不能嫁给任何人。我说的话,你都当耳边风了么?”“我还说过,苏倾,孩子的父亲是我,不是你那位青梅竹马。”最让我难过的事,不是你不爱我了,而是我们曾相爱,想到就心酸。【你以为是虐文?看文的时候绝对会被甜到啦】
  • 离别亦悲伤

    离别亦悲伤

    也许,早就注定了吧!终究还是爱他的,终究还是放不下,像掉进了一个漩涡,逃离只会陷得更深!怎么无数次的放手也没办法忘了他。对与否也不该是个人决定的吧!
  • 梦落天晴

    梦落天晴

    她和哥哥因为一条项链而穿越。在这里,她经历了太多太多。家族落败,爹娘失踪……不过,这好像才刚刚开始。
  • 极品风月大亨

    极品风月大亨

    颜祥道前生是一个传奇故事。而今生,他是一个17岁的中专生。卖盗版,写小说,摆地摊!青葱岁月里,苦辣酸甜。奋斗不息,精彩不断。
  • 疯人魔都

    疯人魔都

    三个性格迥异的都市女子相识、相知,离奇的魔幻出都市生活的多棱魔方,老夫少妻的恩爱情仇、曲折离奇的故事、无不跌宕起伏,过山车式的楼市、风云际会的商海淘洗出多变的都市情缘,司法的反腐倡廉、社会的公平正义、人性的良善与本真、信仰的回归与崇尚,都走的坚韧执着。