信息检索

来自英文维基百科:

Information retrieval (IR) is the process of obtaining information system resources that are relevant to an information need from a collection of those resources. Searches can be based on full-text or other content-based indexing. Information retrieval is the science of searching for information in a document, searching for documents themselves, and also searching for the metadata that describes data, and for databases of texts, images or sounds.

Automated information retrieval systems are used to reduce what has been called information overload. An IR system is a software system that provides access to books, journals and other documents; stores and manages those documents. Web search engines are the most visible IR applications.

定义

广义上,将信息按一定方式组织和存储起来,并根据用户需要找出有关信息的过程。

狭义上,只包括“找”的过程。

原理

通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和尚手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。

历史

信息量的增大,使得简单的分类已不能完全解决快速茶红枣有用信息的问题。

  1. 手工检索(1876-1945)
  2. 机械信息检索(1945-1954)
  3. 脱机批处理检索(1954-1965)
  4. 联机检索(1965-1991)
  5. 网络信息检索(1991 年至今)

网络信息检索方法

  • boolean logic AND * OR + | NOT AND NOT BUT NOT -
  • proximity search
  • phrase search
  • truncation/wildcats ? *
  • field limiting

搜索引擎

工作原理

  • 网页搜集
  • 预处理
  • 查询服务

分类

  1. 按信息内容的组织方式
  • 目录式(Yahoo!)
  • 机器人(Google、百度)
  1. 按专业范畴
  • 综合性(Google、Yahoo!、百度)
  • 专业性(化学搜索引擎 ChemGuide)
  1. 检索功能

多媒体信息搜索

专题信息检索

  • 专利
  • 商标
  • 学位论文
  • 会议论文
  • 科技报告

专利

免费专利信息资源

学位论文

「灰色文献」:指不经盈利性出版商控制,而由各级政府、科研院所、学术机构、工商业界等所发表的各类印刷版与电子版文献资料

「白色文献」:指公开出版发行且具有国际标准刊号(ISSN)或国际标准书号(ISBN)的正式出版物

「黑色文献」:指不对外公开、具有完全保密性质的文献

OpenDOAR: OpenDOAR is the quality-assured, global Directory of Open Access Repositories. We host repositories that provide free, open access to academic outputs and resources. Each repository record within OpenDOAR has been carefully reviewed and processed by a member of our editorial team which enables us to offer a trusted service for the community.

有的国外学位论文可根据条件免费获取

科技报告

科技报告(Science & Technical Report)是围绕着某个课题的科技活动所取得的阶段性进展或最终性成果的记录和书面报告,是科技生产活动的第一手资料。

网络信息检索与利用中的有关问题

科技查新

搜索技巧

  1. site:在某个网站或域名下搜索
  樱花 site:http://edu.cn
  # 在中国教育网下搜索
  1. Filetype:搜索某种类型的文件
  2. 逻辑与、或:AND、OR
  • 注意 AND、OR 必须大写,否则会被认为是普通的单词,而不是搜索指令。
  • 与普通编程语言不一样的是,OR 指令优先于 AND 指令。
  • 简写:AND 指令一般以空格代替,不明确写出。另外 AND 指令还可以用+代替。OR 指令可用 | 代替。
  1. 逻辑非:-

逻辑非 - ,也就是减号,代表搜索不包含减号后面的词的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。Google 和 baidu 都支持这个指令。

  1. 双引号 “”

把搜索词放在双引号中,代表完全匹配搜索,也就是说搜索结果返回的页面包含双引号中出现的所有的词,连顺序也必须完全匹配。bd 和 Google 都支持这个指令。

  1. 通配符:? 和*
  • 与我们通常的习惯一致,“*”代表一连串字符,"?"代表单个字符。样例:progr?m
  • 提示:不要指望 Google 可用通过 progr?m 搜索到 program,因为 progr 和 m 分别被当作一个独立的单词,并且这两个单词之间允许出现一个字符,如此而已。
  1. in 指令:位置关键词查找
  • intitle: 在网页标题中查找。这通常对讨论比较多的热门话题很有效。例如:intitle:"GeForce 7800"+测试
  • allintitle: 该指令属于排他指令,不能与其他指令混用。例如:allintitile:"GeForce 7800" 测试 与 intitle:"GeForce 7800"+测试 的含义一致。但是,allintitile 是排他的,不能加上其他非 intitle 方面的限制条件。
  • 注意:在这里,你会发现用+代替 AND 指令是很有意思的。如果没有+指令,我们就需要写:intitle:"GeForce 7800" intitle: 测试,因为 Google 不支持这样的写法:intitle:("GeForce 7800" 测试)
  • inurl: 在网页的 url 地址中查找。例如:inurl:dowload 表示查找 url 中包含 download 的网页。
  • allinurl: 结果中带有“XXX”和“YYY”,相当于“inurl:XXX inurl:YYY”
  • inanchor: 在网页的链接锚中查找。
  • 需要注意区别于 inurl:inurl 是网页本身的 url 地址,而 inanchor 是查找网页内容中的超链接。例如:inanchor:download,你可能会发现有 FlashGet 最佳的下载管理程式,而该页面中根本就没有 download 字样。
  • allinanchor
  • intext: 在正文中检索。
  • allintext
  1. link: 搜索所有链接到某个 URL 地址的网页
  2. related: 寻找某网页的“类似网页”
  3. 数值范围:.. 数码相机 600..900 万像素 3000..4000 元
  4. 利用垂直领域搜索

Google 等搜索引擎有专门的高级搜索页面 https://www.google.com/advanced_search

利用搜索引擎解决问题的思路

  • 搜索意识,逆向思维与换位思考
  • 哪里会有这些信息?谁会知道?
  • 怎么才能搜索到,去哪里搜会最高效?(网站、社交平台、专家、电商)
  • 是否会在网上出现?哪里会收录?那个搜索引擎会收录?
  • 发布者会怎么表述?发布者会怎么宣传他的东西?会以什么载体表示?

其他搜索引擎

  • 如果需要查询一个商品如何使用、安装,其实淘宝是一个最好的搜索引擎,不仅可以搜索,还可以问售卖该商品的客服
  • 如果查询图书、电影等,豆瓣是个好去处
  • 需要查询颜色
  • 需要查询论文
  • 需要查询病症
  • 需要查询百科
  • ……

人物志

  • TK 教主(搜索能力很强,来自 caoz)
欢迎通过「邮件」或者点击「这里」告诉我你的想法
Welcome to tell me your thoughts via "email" or click "here"