计算机信息检索概述(7)课件

PPT
  • 阅读 25 次
  • 下载 0 次
  • 页数 79 页
  • 大小 1.688 MB
  • 2022-11-13 上传
  • 收藏
  • 违规举报
  • © 版权认领
下载文档30.00 元 加入VIP免费下载
此文档由【小橙橙】提供上传,收益归文档提供者,本网站只提供存储服务。若此文档侵犯了您的版权,欢迎进行违规举报版权认领
计算机信息检索概述(7)课件
可在后台配置第一页与第二页中间广告代码
计算机信息检索概述(7)课件
可在后台配置第二页与第三页中间广告代码
计算机信息检索概述(7)课件
可在后台配置第三页与第四页中间广告代码
计算机信息检索概述(7)课件
计算机信息检索概述(7)课件
还剩10页未读,继续阅读
【这是免费文档,您可以免费阅读】
/ 79
  • 收藏
  • 违规举报
  • © 版权认领
下载文档30.00 元 加入VIP免费下载
文本内容

【文档说明】计算机信息检索概述(7)课件.ppt,共(79)页,1.688 MB,由小橙橙上传

转载请保留链接:https://www.ichengzhen.cn/view-5258.html

以下为本文档部分文字说明:

信息检索天津职业大学经管系张海燕绪论1、信息的客观性2、信息的价值性3、信息的时效性4、信息的传递性5、信息的共享性6、信息的可存储性文献概念文献是记录有知识的一切载体。文献的构成要素信息内容载体材料信息符号载体形态生产方式文献的属性知识信息性物质

实体性人工记录性动态发展性文献的功能1、认识功能2、存储功能3、传递功能文献的载体类型印刷型文献缩微型文献声像型文献电子型文献印刷型文献载体:纸张实例:教科书记录手段:油印、石印、铅印、胶印、复印特点:可直接阅读,方便使用;但难于实现机械化和自动化;收藏文献占用空间大。缩微型文献载

体:感光材料实例:缩微平片、缩微胶片记录手段:光学缩微技术特点:体积小;价格低;不能直接阅读声像型文献载体:磁性材料、感光材料实例:录像带、幻灯片记录手段:磁记录、光学技术特点:直观、生动、形象;成本高;不易检索和更新。电子型文献载体:磁性材料实例:磁盘、光盘记录手段:计算机输入特点:

存储密度高、速度快;易复制;成本高;不能直接阅读。按出版形式的不同图书连续出版物特种文献会议文献专利文献标准文献学位论文政府出版物科技报告产品样本期刊报纸年鉴图书的含义凡篇幅达49页以上并构一个书目单元的文献称为图书。图书的特征*主题突出,内容系统,论述全面深

入,知识成熟稳定。*出版的周期长,因而其内容一般就缺乏最新的研究成果。期刊定义期刊又称杂志,它是指定期或不定期连续出版的、有统一的名称、固定的开本、版式、有连续的序号、汇集了多位作者分别撰写的多篇文章,并由专门的机构编辑出版的连续性出版物。期刊的特点A、期刊以

品种为单位形成知识流;B、内容新颖、及时、广泛,但不如图书成熟;C、期刊一般不修订再版。D、科技期刊是最重要的一次文献。核心期刊*少数刊载某一学科大量高质量专业论文的期刊。*特点(1)刊载专业文献密度高,信息含量高;2)水平较高,代表本学科的最新发展水平;3)出版相对稳

定,所载文献寿命较长;4)利用率和被引率较高。目前,许多单位核心期刊的判定是以《中文核心期刊要目总览》为标准形式特征:有统一的名称,定期连续出版,每期汇集许多篇文章、报道、消息等,多为对开或四开,以单张散页形式出版。报纸内容特征:时间性强,

能以最快的速度报道国内外发生的最新事件和科学技术的最新研究成果,内容广泛。类型:按出版周期分,有日报、双日报、周报、旬报等;按范围划分,有全国性报纸、地方性报纸、系统性报纸等;按内容划分,有综合性报纸、专业性报纸。报

纸科技报告科技报告是科技工作者对科学、技术研究结果或研究进展的记录科技报告的特点(1)反映新的科研成果迅速;(2)内容多样化;(3)质量参差不齐;(4)保密性强;(5)每份报告独立成册,有连续编号。会议文献会议文献是指在

各种会议上宣读、交流的论文、报告及其它有关文献。政府出版物政府出版物是指由政府机构制作出版或由政府指定出版商出版的文献。政府出版物的类型(1)行政性文件(2)科技文献政府出版物政府出版物政府出版物的特点(1)内容广泛,涉及各学科领域;(2)数量巨大;(3)资料可靠性强;(4)出版发行方式多样

,有重复现象;(5)保密性;(6)售价低廉。标准文献与标准化活动有关的一切文献都称为标准文献。其主体是标准,还包括标准形成过程的各种档案、宣传推广标准的手册及其它出版物。标准是按规定程序制订,经权威机构公认或主管部门批准的在特定范

围内执行的规格、规则、技术要求等规范性文件。标准的主要特点(1)标准的制订、审批程序有专门规定,并有固定的代号,格式整齐划一;(2)一个标准一般只能解决一个问题;(3)时效性强;(4)不同种类、不同级别的标准在不

同范围内执行;(5)有一定的法律效力和约束力;(6)有自身的检索系统。中国标准概况*1957年中国成立了国家标准局,并于1958年颁布了第一批国家标准;*1978年成立国家标准总局,1979年颁布“中华人民共和国标准管

理条例”*1978年中国标准化协会(CAS)加入了国际标准化组织(ISO)*中国标准的等级:国家标准、行业标准、地方标准、企业标准*中国标准的分类:按《中国标准文献分类法》学位论文学位论文是指高等院校和科研单位中的本科生、研究生为获得学士、硕士和博士学位,在导师指导下完成的科

学研究、科学试验成果的书面报告。*1180年巴黎大学授予了第一批神学博士学位。*学位论文答辩制度是由德语国家首创的。按文献的加工深度分一次文献二次文献三次文献零次文献一次文献*作者以自己的研究成果为基础创作或撰写的文献;*对知识的第一次加工;具有创造性;*大多数期刊论文、科技报告、学术论文

……*对一次文献进行加工整理而成的具有报道和检索作用的文献;*对知识的第二次加工;有序化;提供一次文献线索;*目录、题录、文摘等检索工具。二次文献*利用二次文献系统地检索出一批有关的文献,对其内容进行比较分析,综合述评而编撰的文献。*对知识的再加工;提供文

献检索;*综述、专著;字词典、百科全书三次文献*还未形成一次文献的非出版物;*论文草稿、谈话记录、实验记录、书信……零次文献一次文献是检索的对象(目标)二次文献是检索的工具(手段)三次文献是情报研究的成果(检索目标+检索手段)从检索的角度来看:一次文献是对知识的第一次加工(创造性)二次文献是对知识

的第二次加工(有序化)三次文献是对知识的再加工(有序化+创造性)从知识加工角度来看:现代文献的整体特征1、数量激剧增加2、载体形式和文种多样3、内容交叉重复4、文献聚散有序5、新陈代谢加快信息资源凡是能够产生、储存以及传递信息的一切事物。信息资源文献信息

源非文献信息源通过文献而获得情报信息,文献是获取情报信息的来源即非记录性信息资源,如实物信息资源、口头信息资源、智力信息资源等。文献信息系统定义文献信息系统主要是指在一定的范围内,有计划、有组织地建立起的合理的多层次的文献信息资源保障体系。其目的在于使文献信息收藏相对完

备、保证最大限度地满足社会对文献信息的需求。我国信息系统的体系结构(1)图书馆系统(2)科学技术研究所及其系统(3)档案系统(4)专利系统(5)标准系统学习电子检索的目的与意义电子检索是培养学生综合能力的基本技

能和方法之一。学习电子检索的目的与意义在于:1、节省查找文献的时间2、避免重复别人的劳动3、促进专业学习4、克服自然语言和学科专业语言障碍学习电子检索的目的与意义(续)5、更好地借鉴先进国家的科学技术

6、现代科研的需要7、适应我国不完善的检索环境的需要文献检索的步骤1、明确检索要求2、选择检索工具:根据课题要求及检索工具的特点和检索者的外语水平选择最合适的检索工具。3、选择检索途径:一般检索工具都有

分类目次、著者、主题词等检索标志。4、查找文献线索:将检索词与检索工具中的文献标志进行比较而决定文献的取舍过程。5、找到原始文献:根据文献线索提供的文献出处,再利用馆藏目录查找文献收藏单位,而后复制。第一章计算

机信息检索概述一、计算机信息检索概述计算机诞生于20世纪40年代中期,而信息检索(又称情报检索)这个术语则出现在20世纪40年代末。除了科学计算外,计算机最擅长于各种信息的加工和处理,因此计算机很早就应用于信息检索。早在1954年,美国海军兵

器中心就已研制出基于IBM701计算机的情报检索系统,从此产生了计算机信息检索这一新的领域。信息检索是将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,即人类信息活动的一种过程,都包括存与取两个环节。存是指

一种面向来自各种渠道的大量信息而进行的高度组织化的存贮;即对这些信息迸行序化,在序化的基础上进行存贮:取就是面向随机出现的信息需求而进行的高度选择性的检索,强调快速便利地检出与需求相关的信息,即根据

用户的需要,查出所需的信息。信息管理专业人员,应当熟悉存与取两个环节,而最终的信息用户,主要关心的是取,取什么,如何取。信息检索从本质上讲,信息检索也是一个通讯过程,信息检索涉及一切有目的和组织化的信息存取活动。随着计算机多媒体技术、数据库技术、网络通信技术和信息存贮技术的发展,

各种信息都可纳入计算机系统,成为数字化的信息。利用计算机存取数字化信息,就是计算机信息检索。与传统形式的信息相比,数字化信息存取的效率会大大提高,它代表着信息检索的方向。第一节计算机信息检索基本概念一、什么是计算机信息检索计算机信息检索就是

在人和计算机的共同作用下去完成信息存取操作,从机器存贮的大量数据中自动分拣出用户所需要的信息的过程。在检索过程中,用计算机可以识别的代码来表示信息,用便于计算机快速存取的方式存贮信息,表达概念的语词符号为没有内涵的字符串。检索过程就是字符串匹配和逻辑运算的过程,即表示用户

需求的字符串与计算机内存贮的大量字符串(信息集合)的比较和运算的过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,然后将命中的信息输出给用户。二、计算机信息检索的服务方式(一)定题服务定题服务,简称SDI,是根据用户信息需求,将预先确定的检索策略长期保留在检索系统中

,每当数据库更新时,检索系统便自动输出检索结果,定期向用户提供某一课题的最新研究成果、动向和发展趋势。SDI检索还可以作为累积专题资料的手段,相当于订阅了一种定期的专业刊物。这种检索方式可以大大节省用户的时间,同时又便于他们及时掌握学科发

展的最新动向。重点理解(二)回溯检索简称RS,也称追溯检索。用户若要查找一定时间之内或特定时间以前的文献信息可采用回溯检索方式,这种检索方式不仅允许用户查找最新资料,而且允许用户查找数据库存储的全部文献信息。这种检索对于着手研究新课题、申报科研成果

、申请专利者尤为适用。(三)联机订购原文一般情况下联机检索到的是二次文献,即原始文献的题录、索引、文摘,如果需要原始文献,而又无馆藏时,则可通过检索终端向检索系统订购原文的复制品、缩微胶卷或缩微平片。(四)

全文检索在全文检索系统中存储的是文献全文,这种检索系统具有多种功能,除了获取原文文字外,还可获得声音、图片、图像和视频等多媒体信息.还可以提供文献中某个同的出处、某个词出现的频率等。基于任意字符串的全文检索方式是当前计算机信息检索的发展方向之一。第二节计算机信息检索原理一、计算机信息检索原理

信息检索是将信息按照一定的体系排列存贮在某种介质上,并按照用户的提问要求查找出所需信息的过程,包括存贮和检索两部分。信息检索按检索对象划分,有文献检索、数据检索和事实检索,其中文献检索尤为重要,目前在信息检索领域仍处于主要地位。下面以文献检索为例,来说明计算机信息检索的基本原理。信息存贮是

把信息按照一定的体系和格式加以整理后记录在计算机专用介质(如磁带、磁盘、光盘)上,信息存贮通常分为三个环节,如下所述:(1)文献主题分析:标引人员浏览文献摘要或正文,确定它的主题内容,用若干个能表征其内容的概念来揭示文献的主题内容。(2)转换:利用系统使用

的词表把信息提问转换成检索词,再把检索词加上较严格的条件限制后用逻辑运算符连接起来,编成检索提问式输入计算机中。(3)输出:检索提问式输入计算机后,在数据库中自动进行检索,只要数据库中的文献特征标识及其逻辑组配关系与检索提问相匹配

,则属检索命中,即找到了符合要求的信息,将检索结果存盘或打印输出。重点记忆、理解、掌握(二)计算机信息检索系统数据库的特点为了能够进行随机检索,每个数据库都存有一个顺排文档和两个倒排文档。顺排文档存

入了数据库的全部记录;倒排文档存入了数据库全部记录的文献特征标识(即索引单元)。1、顺排文档:将数据库中全部完整记录按一定格式和顺序排列而成的文献记录集合,其中一条文献记录信息是由记录号、文献内容特征及文献外部特征标识构成。信息检索系统数据库的特点(续)2、倒排文档:将顺排文档记录中的全

部文献特征标识分门别类地按一定的顺序排列而成的信息集合,其中的一条记录信息是由特征标识、含这些特征的文献号集合及文献号集合地址所构成。在实际的检索系统中,为了提高检索速度,把索引倒排文档分成两个文档

:索引文档和存取号倒排文档。信息检索系统数据库的特点(续)1)索引文档中主要存入:·数据库的索引单元(按字母或数字顺序排列)·索引单元的字段或字段位置标识符·数据库中含有索引单元的记录篇数·与索引单元对应的存取号集合的地址指针2)存取号倒排文

档中存入:·上一文档中的地址·包含上一文档中索引单元的记录的存取号,对每一索引单元都有一组相应的存取号集第三节数据库的类型数据库(database)被定义为:“至少由一种文档组成,并能满足基本数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存贮设备上

按一定方式存贮的相互关联的数据集合。在欧洲,多用“databank”一词表示数据库,且一般指非文献型的数值型数据库。数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源管理工具,也是计算机信息检索的

基础。数据库的类型(续)划分数据库类型有多种标准,按照国际上通用的分类方法,数据库通常划分为以下三种类型:(l)参考数据库(referencedatabases):指引用户到某一信息源以获得原文或其它细节

的一类数据库。曾经占主流地位的联机信息检索系统就以文摘数据库为主。如:《中国科技期刊篇名数据库》(2)源数据库(sourcedatabases)能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其它信息源。目

前最流行的全文数据库和多媒体数据库就是典型的源数据库,如《人民日报》全文光盘,《中国学术期刊光盘》。(3)混合型数据库(mixeddatabases)能同时存贮多种不同类型信息的数据库,可能包括全文文本、多媒体信息或文摘、题录性信息。许多专题数

据库系统都是混合型的。另外,还可按其载体形式区分为磁媒体数据库和光盘数据库,也可根据是否适用于网络环境来分成单机版数据库和网络版数据库。值得一提的是,近几年涌现的多媒体数据库是一种新型的数据库,能将文字、数值、声音、图像等性质不同的信息

存贮于不同媒体上进行一体化处理和管理。数据库的类型(续)在实际应用中,我们往往按内容来划分数据库类型:一、书目数据库书目数据库只存贮有关主题领域各类文献资料的书目信息,为用户鉴别和获得有关文献提供必要的文献属性信息和来源指示。所以,人们通常把它归入参考数据库的范畴,它的内

容、结构和使用方法都有别于其它数据库。书目数据库(续)书目数据库中的数据来源于期刊论文、会议论文、研究报告、专利文献、学位论文、图书、政府出版物、报纸等各种不同类型的一次文献,是经过加工、压缩的派生性数据。书目数据库通常都是文摘索引期刊和图书目录实现计

算机化生产的产物,故每个数据库一般都有相应的书本式检索工具或卡片式目录。图书馆自建的馆藏书目数据库是一种特殊的书目数据库,也是图书馆信息检索系统的基本组成部分。二、全文数据库目前,一些报纸、法律文本、百科全书以及辞典等,以电子出版物的形式存贮在联机检索系统中,可以通过某些信息检索

系统进行检索。全文数据库允许用户查找的是整个文献,而不象书目数据库那样只提供文献的题录或文摘;许多系统允许检索出现于文献中任何地方的文字,而并非只能检索主题标目中所用的文字。全文数据库(续)在这里,全文数据库的定义只限于那些以机读形式出现的文章、图书、报纸资料、百科全书等等的文本

。通过某些检索系统,可以联机检索这些文本中的每一个字,此类检索通常称为自由文本检索,也称全文检索。这里所说的全文数据库不包括以全文形式存在,而不具备检索功能的全文数据库。全文数据库的种类比较丰富。全文数据库(续)按出版方式划分,全文数据库可分为两类:一类是与印刷型文献平行出版的全文库,另一

类是纯电子出版物,无相应的印刷型文本。按存贮内容划分,全文数据库有直接原文型和文摘型。前者直接存贮文献的正文,有时甚至还包括正文以外的其它信息,如脚注、参考文献目录、文摘等。文摘型就是原文经过压缩提炼,改写成若干篇一定长度的

摘要。现在的全文数据库多为直接原文型。按应用领域划分全文数据库类型按应用领域划分,目前主要有以下类型:1、法律法规全文库或条例库。法律信息多年来一直是全文检索的领先者。众所周知,法律条文中的每句话甚至每个字都是很重要的。有的甚

至可以说是一言九鼎,而实际生活中各种法律多如牛毛,手工查找非常困难,书目数据库又不能直接提供原文。所以,法律界对全文数据库的需求最为迫切。国内比较有影响的是《法律之星》和《中国法律法规数据库》。按应用领域划分全文数据库类型(续)2、新闻资料数据库。在商业性的信息检索系统中,也广泛

提供报纸、新闻公报之类的材料。3、杂志和参考书数据库。从1983年起,DIALOG信息检索服务公司和书目检索服务公司(BRS)开始将专业杂志和参考书增加到它们的服务中来。我国也出现了这种检索方式,如清华大学出版的《中国学术期刊(光盘版)》全文数据

库。按应用领域划分全文数据库类型(续)4、商情全文库。如英国Datasolve公司的市场新闻和研究报告全文库,美国《哈佛商业评论》全文库。5、医学文献全文库。全文数据库是一个发展中的领域,市场潜力很大。自上世纪60年代末以来,已有越来越多的公司、政府机构、专业图书馆、信息中心、档案馆及

其他研究机构利用它来管理科技报告、试验记录、专利申请、预印本等。三、数值数据库数值数据库是一种以自然数值形式表示、计算机可读的数据集合。与它相类似的是文本-数值数据库。后者除含有数值性数据外,还包括文本数据。数值型数据是人们从文献资料中分

析提取出来的,或是从实验、观测或统计工作中直接得到的。数据库生产者把这些数据收集起来,经过核实、检验和加工整理,按一定方式组织起来,利用计算机进行存贮和检索,就成了数值数据库。如果数据库中还含有定义数值和

说明这些数据项所必需的文字(文本数据),那它就是文本—数值数据库。它可以直接提供解决问题时所需要的数据,是进行各种统计分析、定量研究、管理决策和预测的重要工具。目前世界上200多个联机信息检索系统所用的数据库中,以数值数据库为主的源数

据库占91%。数值数据库主要涉及科学技术和社会科学,科技领域的数值数据库有两个明显特征:一是学科特性,即每一库都涉及到某一科学技术领域的专门化语言,如化合物数据库的化学结构图就是一例;二是国际性,许多数值库的建设都要依赖于国际合作。社会科学领域的数值库,

主要分布在经济和商业领域,即有关经济统计与预测、财政金融及商务等方面的数据库。这类数据库的内容覆盖着广泛的主题和地理区域以及较长的历史时期,能回答有关物价、利率、金融、贸易、产值、就业、住房、人口、工资等许多方面的问题。如北京市的人

口数据库。四、指南数据库指南数据库是存贮有关某些客体(如机构、人物等)的一般指示性描述的一类参考数据库。有人称之为“指示性数据库”或“事实数据库”(factdatabase),它的主要用途是供用户查询有关某一事

物的发生时间、地点、过程或简要情况,主要包括名录数据库、传记数据库等。指南数据库可分为以下几种类型:l、人物传记数据库l、人物传记数据库收录各种人物的传记信息,大多是传记词典的机读版。如《马奎斯传记词典》的机读版“MARQUISWHO’SWHO”就是一种较有代表性的传记数据库。它存贮有

75000名来自政界、商界、科学界、体育与艺术界及娱乐界的知名人士的传记信息,包括他们的职业、教育、成就、政见、宗教信仰、工作单位、家庭住址等方面,有50多个可检字段。2、公司名录数据库收录各种公司的生产与经营活动信息。较重要的有“电子黄页”、“TRINET机构数据库”等。“电子

黄页”(ElectronicYellowPages)是美国市场数据检索公司,根据全美4800部电话簿中所夹印的“黄页”(广告页)中提供的公司信息而生产的一种名录数据库。它提供有各公司企业的内部组织机构、雇员数量、公司资产等内容。用户可以通过公司名称、地址、标准工业分类表(SI

C)、邮政号码等途径进行检索。“TRINET机构数据库”由“TRINET”公司生产。它提供美国各产业部门拥有雇员20人以上的公私营机构40万个,包括机构的名称、地址、SIC号、销售额、市场份额、电话号码等数据。3、基金指南库存贮各种基金信息。如美国“基金指南数据库”(

FoundationDirectory)存贮有3500种基金的名录信息和细节描述,包括基金的用途,每年拨款数额,基金会的活动等信息。4、技术标准指南库存贮各种技术标准或规程的有关信息。如美国的“标准与规程”(StandardandSPecifications)指南库收录有

美国颁布的各种军用标准、联邦标准以及私营工业部门的标准或规程。5、软件数据库存贮有各种计算机软件目录信息。如美国“菜单”(MENU)指南库存贮有55000多种软件包的信息,包括每种软件包适用的计算机类型

、操作系统、应用的领域、经销商、生产者、需要的最低内存空间、售价、或获得的担保等。6、产品指南库存贮各种产品或商品信息。如我国有关部门研制的“机电产品数据库”、“中国化工产品数据库”以及各种科技成果数据库。“中国化工产品数据库”收录有全国8000多个企业,15000多种化工产品的生产方法、生

产能力和产量等数据。“机械工业科技成果数据库”收录有我国机械行业中各科研机构、高校和企业提供的科研成果信息,包括科研项目、新产品、技术革新项目。技术转让项目、技术引进项目、标准化工作成果和信息工作成果。五、术语数据库术语数据库(TerminologicalBan

k)是一种计算机化的术语词典或词库,俗称电子辞典或机读词典,英文称‘Lexicon”。术语库是一种非常有效的术语控制和规范化工具,对事物或现象的名称和概念起规范作用。六、多媒体数据库目前,在数据库家族内,出现了一支引人瞩目的新军,那就

是多媒体数据库(multimedia-database)。它提供人们存贮和检索文字、图形图像、声音或动画、视频等多种媒体资料的一种源数据库。多媒体数据库主要应用于下面几个领域:多媒体资料检索与提供(传送)。多媒体数据库主要应用领域(续)在日常工作中,一

个记者或教师可能要为他的文章或课程寻找合适的图像来加强效果;导游人员可能要借助图像资料来选择旅游点;历史学家可能要利用图像资料来研究某一时期的历史;软件开发人员可能要查询声音、音乐或贴图资料。这些场合,多媒体数据库可成为他们的一种有用的检索工具。

基于多媒体的计算机辅助教学。多媒体数据库往往可以作为多媒体教学的工具。多媒体数据库主要应用领域(续)计算机辅助诊断或鉴别。存贮有医用图像或照片的数据库可以成为计算机辅助诊断系统的一部分。有关的图像资料,可以帮助分析患者的症状。

小橙橙
小橙橙
文档分享,欢迎浏览!
  • 文档 25747
  • 被下载 7
  • 被收藏 0
相关资源
广告代码123
若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理。侵权客服QQ:395972555 (支持时间:9:00-21:00) 公众号
Powered by 太赞文库
×
确认删除?