当前位置: 首页 > news >正文

网上的搜索

Internet中蕴含的信息资源非常丰富,但如何在这浩瀚如海的信息空间内快速找到自己所需要的资源呢?我们需要借助于搜索引擎。在网络上,提供搜索功能的网站非常多,如百度、谷歌、搜狗等,另外有一些门户网站也提供了搜索功能,如新浪、网易、搜狐、腾讯等。在这些网站上都可以搜索到我们需要的信息。

▶搜索引擎的定义

搜索引擎是为用户提供检索服务的系统,它根据一定的策略,运用特定的计算机程序搜集互联网上的信息,并对信息进行组织和处理,将处理后的结果显示给用户,通俗地理解,搜索引擎就是一个网站,但它专门为网民们提供信息检索服务。与一般网站的区别是,它自动搜寻Web服务器的信息,然后将信息进行分类、建立索引,再把索引的内容放到数据库中,供用户进行检索。搜索引擎的工作过程分为3个方面。
(1)抓取网页。每个搜索引擎都有自己的网页抓取程序,通常称为“蜘蛛”(Spider)程序、“爬虫”(Crawler)程序或“机器人”(Robot)程序,这3种叫法意义相同,作用是顺着网页中的超链接连续抓取网页,被抓取的网页称为网页快照。
(2)处理网页。搜索引擎抓取网页以后,需要进行一系列处理工作,例如,提取关键字、建立索引文件、删除重复网页、判断网页类型、分析超链接等,最后送至网页数据库。
(3)提供检索服务。当用户输入关键字进行检索时,搜索引擎将从网页数据库中找到匹配的网页,以列表的形式罗列出来,供用户查看。

▶搜索引擎的基本类型

按照搜索引擎的工作方式划分,可以将搜索引擎分为4种基本类型。

▶1.全文索引

全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们都是从互联网提取各个网站的信息并建立网页数据库,然后从数据库中检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引与检索系统,如Google和百度;另一类是租用其他搜索引擎的数据库,如Lycos搜索引擎。

▶2.目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎。它将网站链接按照不同的分类标准进行分类,然后以目录列表的形式提供给用户,用户不需要依靠关键字来查询,按照分类目录就可以找到所需要的信息。
目录索引中最具代表性的网站就是Yahoo,新浪、网易也属于这一类。它们将互联网中的信息资源按照一定的规则整理成目录,用户逐级浏览就可以找到自己所需要的内容。

▶3.元搜索引擎

元搜索引擎又称多搜索引擎,它是一种对多个搜索引擎的搜索结果进行重新汇集、筛选、删除、合并等优化处理的搜索引擎。“元”为“总的”“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

▶4.垂直搜索引擎

垂直搜索引擎是2006年以后逐步兴起的一种搜索引擎,它专注于特定的搜索领域和搜索需求,如机票搜索、旅游搜索、生活拽索、小说搜索等。垂直搜索引擎是针对某一个行业的专业使系引擎,是通用搜索引擎的细分和延伸,它对网页数据库中的某类信息进行整合,抽取出需要的数据进行处理并返回给用户

▶确定关键字的原则

搜索网络信息时,关键字的选择非张重要,它直接影响到我们的搜索结果。关键字的选择要准确,有代表性,符合搜索的主题。确定关键字时可以参照以下原则。

▶1.提炼要准确

提炼查询关键子的时候一定要准确,如果在询的关键字不准确,就会搜索出大量的无关信息,与自己要查询的内容毫不相关。

▶2.切忌使用错别字

在搜索引擎中输入关键字时,最好不要出现错别字,特别是使用拼音输入法时,要确保输入关键字的正确性。如果关键字中使用了错别字,会大大降低搜索的效率,致使返回的信息量变少,甚至搜索到错误信息。

▶3.不要使用口语化语言

我们的日常交流主要运用口语,但是在网络上搜索信息时,要尽可能地避免使用口语作为关键字,这样可能得不到想要的结果。

▶4.使用多个关键字

搜索信息时要学会运用搜索法则,运用多个关键字来缩小搜索范围,这样更容易得到结果。

互联网上的搜索引擎种类很多,但它们的技术基础都是互联网技术、数据库技术以及一些人工智能技术和多媒体技术。按照搜索引擎提供的功能和使用的技术,可以将搜索引擎划分为多种类型,下面介绍其常用的分类方法。

▶常用的搜索引擎

目前,许多大型网站都提供了搜索引擎服务,如Google、百度、雅虎、搜狐、新浪、网易等。下面将对其中使用较多的搜索引擎进行介绍。

▶1.百度

百度由毕业于北京大学的李彦宏及徐勇于1999年年底在美国硅谷创建,2000年百度回国发展。“众里寻她千百度”,“百度”两字正是源自辛弃疾的《青玉案》,它象征着百度对中文信息检索技术执着的追求。百度是全球最大的中文搜索引擎,其网址是http;//www.baidu.com。在地址栏中输入该网址,按Enter键即可打开百度搜索首页。
百度搜索页面与Google搜索页面大同小异,查询框上面提供了多个分类链接,单击某超链接,可把搜索范围规定在该类里面。例如,在搜索文本框中输人要查找的关键字“二进制”,然后单击“百度一下”按钮,即可显示与此有关的相应网页列表。
打开搜索页面后,每个搜索链接后面都包含一个“百度快照”超链接,百度快照是百度网站最具魅力和实用价值的一项服务。用户在上网的时候经常会遇到“该页无法显示”(找不到网页的出错信息)的情况,造成这种情况的原因很多,如网站服务器暂时中断或堵塞、网站已经更改链接等,百度搜索引擎在搜索过程中已先预览各网站,拍下网页的快照,保存了几乎所有网站的大部分页面,使用户在不能链接所需网站时,也可通过百度快照救急。

▶2.搜狐

搜狐是目前Internet上最著名也是最全面的中文网站搜索引擎,网址是http://www.sohu.com/。搜狐提供的是中文网站搜索,更符合中国用户的需求。该网站并不是一个专门的搜索网站,其综合性很强,涉及Internet的各项功能,如网络新闻、股市行情、网上聊天、BBS、免费电子邮箱、购物、求职等,因而从某种意义上说,搜狐是一个“网站大杂烩”。由于搜狐收录的中文网站齐全,如果要搜索中文网站,搜狐应该是首选之一。

相关文章:

网上的搜索

Internet中蕴含的信息资源非常丰富,但如何在这浩瀚如海的信息空间内快速找到自己所需要的资源呢?我们需要借助于搜索引擎。在网络上,提供搜索功能的网站非常多,如百度、谷歌、搜狗等,另外有一些门户网站也提供了搜索功能&#xf…...

【算法-哈希表2】快乐数 和 两数之和

今天,带来哈希表相关算法的讲解。文中不足错漏之处望请斧正! 理论基础点这里 1. 快乐数 分析题意 出题者已经把题意明确告诉我们了: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1&am…...

MR外包团队:MR、XR混合现实技术应用于游戏、培训,心理咨询、教育成为一种创新的各行业MR、XR形式!

随着VR、AR、XR、MR混合现实等技术逐渐应用于游戏开发、心理咨询、培训、教育各个领域,为教育、培训、心理咨询等行业带来了全新的可能性。MR、XR游戏开发、心理咨询是利用虚拟现实技术模拟真实场景,让学生身临其境地参与学习和体验,从而提高…...

【P1008 [NOIP1998 普及组] 三连击】

[NOIP1998 普及组] 三连击 题目背景 本题为提交答案题,您可以写程序或手算在本机上算出答案后,直接提交答案文本,也可提交答案生成程序。 题目描述 将 1 , 2 , … , 9 1, 2, \ldots , 9 1,2,…,9 共 9 9 9 个数分成 3 3 3 组&#xff…...

机器学习算法——集成学习

目录 1. Bagging 1. Bagging Bagging(bootstrap aggregating:自举汇聚法)也叫装袋法,其思想是通过将许多相互独立的学习器的结果进行结合,从而提高整体学习器的泛化能力,是一种并行集成学习方法。 工作流…...

java springboot在当前测试类中添加临时属性 不影响application和其他范围

目前 我们的属性基本都写在 application.yml 里面了 但是 如果 我们只是想做一下临时变量的测试 有没有办法实现呢? 显然是有的 这里 我们还是先在application.yml中去写一个 test属性 下面加个prop 然后 我们尝试在测试类中 获取一下这个属性 直接用 Value 读取…...

原型网络Prototypical Network的python代码逐行解释,新手小白也可学会!!由于工作量大,准备整8个系列完事,-----系列5

文章目录 前言一、原始程序---计算原型,开始训练,计算损失二、每一行代码的详细解释2.1 粗略分析2.2 每一行代码详细分析 前言 承接系列4,此部分属于原型类中的计算原型,开始训练,计算损失函数。 一、原始程序—计算原…...

milvus数据库的数据管理-插入数据

一、插入数据 1.准备数据 数据必须与数据库中定义的字段元数据一致,与集合的模式匹配 import random data [[i for i in range(2000)],[str(i) for i in range(2000)],[i for i in range(10000, 12000)],[[random.random() for _ in range(2)] for _ in range(2…...

系列一、请谈谈你对JVM的理解?Java8的虚拟机有什么更新?

一、请谈谈你对JVM的理解?Java8的虚拟机有什么更新? JVM是Java虚拟机的意思。它是建立在操作系统之上的,由类加载器子系统、本地方法栈、Java栈、程序计数器、方法区、堆、本地方法库、本地方法接口、执行引擎组成。 (1&#xff0…...

恕我直言,大模型对齐可能无法解决安全问题,我们都被表象误导了

是否听说过“伪对齐”这一概念? 在大型语言模型(LLM)的评估中,研究者发现了一个引人注目的现象:当面对多项选择题和开放式问题时,模型的表现存在显著差异。这一差异根源在于模型对复杂概念的理解不够全面&…...

Apache Airflow (九) :Airflow Operators及案例之BashOperator及调度Shell命令及脚本

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹…...

IJ中配置TortoiseSVN插件:

文章目录 一、报错情况:二、配置TortoiseSVN插件: 一、报错情况: 由于公司电脑加密,TortoiseSVN菜单没有提交和更新按钮,所以需要使用IJ的SVN进行代码相关操作 二、配置TortoiseSVN插件: 需要设置一个svn.…...

个人实现在线支付,一种另类的在线支付解决方案

Hi, I’m Shendi 个人实现在线支付,一种另类的在线支付解决方案 个人实现在线支付的方式 对于在线支付,最多的是接入微信与支付宝。但都需要营业执照,不适用于个人。 当然,可以去办理一个个体工商户,但对我这种小额收…...

浅谈智能安全配电装置应用在银行配电系统中

【摘要】银行是国家重点安全保护部分,关系到社会资金的稳定,也是消防重点单位。消防安全是银行工作的重要组成部分。在银行配电系统中应用智能安全配电装置,可以提高银行的智能控制水平,有效预防电气火灾。 【关键词】银行&#…...

macOS下如何使用Flask进行开发

👨🏻‍💻 热爱摄影的程序员 👨🏻‍🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻‍🏫 一位高冷无情的编码爱好者 大家好,我是全栈工…...

记一次服务器配置文件获取OSS

一、漏洞原因 由于网站登录口未做双因子校验,导致可以通过暴力破解获取管理员账号,成功进入系统;未对上传的格式和内容进行校验,可以任意文件上传获取服务器权限;由于服务器上配置信息,可以进一步获取数据库权限和OSS管理权限。二、漏洞成果 弱口令获取网站的管理员权限通…...

合众汽车选用风河Wind River Linux系统

导读合众新能源汽车股份有限公司近日选择了Wind River Linux 用于开发合众智能安全汽车平台。 合众智能安全汽车平台(Hozon Automo-tive Intelligent Security Vehicle Plat-form)是一个面向高性能服务网关及车辆控制调度的硬件与软件框架,将于2024年中开始投入量产…...

PTA平台-2023年软件设计综合实践_5(指针及引用)

第一题 6-1 调和平均 - C/C 指针及引用 函数hmean()用于计算整数x和y的调和平均数,结果应保存在指针r所指向的浮点数对象中。当xy等于0时,函数返回0表示无法计算,否则返回1。数学上,两个数x和y的调和平均数 z 2xy/(xy) 。 直接…...

智慧卫生间

智慧卫生间 获取ApiKey/SecretKey获取Access_token获取卫生间实时数据返回说明 获取ApiKey/SecretKey ApiKey/SecretKey采用 线下获取的方式,手动分配。 获取Access_token 向授权服务地址http://xxxxxx:12345/token(示意)发送post请求,并在data中带上…...

Cadence virtuoso drc lvs pex 无法输入

问题描述:在PEX中的PEX options中 Ground node name 无法输入内容。 在save runset的时候也出现无法输入名称的情况 解决办法: copy一个.bashrc文件到自己的工作目录下 打开.bashrc文件 在.bashrc中加一行代码:unset XMODIFIERS 在终端sour…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题: 下面创建一个简单的Flask RESTful API示例。首先,我们需要创建环境,安装必要的依赖,然后…...

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令&#xff1a; return <value>;在收到客户端连接后&#xff0c;立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量&#xff08;如 $time_iso8601、$remote_addr 等&#xff09;&a…...

day52 ResNet18 CBAM

在深度学习的旅程中&#xff0c;我们不断探索如何提升模型的性能。今天&#xff0c;我将分享我在 ResNet18 模型中插入 CBAM&#xff08;Convolutional Block Attention Module&#xff09;模块&#xff0c;并采用分阶段微调策略的实践过程。通过这个过程&#xff0c;我不仅提升…...

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多&#xff0c;如何一步解决&#xff0c;采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集&#xff08;每个目录代表一个类别&#xff0c;目录下是该类别的所有图片&#xff09;&#xff0c;你需要进行以下配置步骤&#x…...

leetcodeSQL解题:3564. 季节性销售分析

leetcodeSQL解题&#xff1a;3564. 季节性销售分析 题目&#xff1a; 表&#xff1a;sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例&#xff0c;模拟20个网页的爬取&#xff0c;每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程&#xff1a;允许程序同时执行多个任务&#xff0c;提高IO密集型任务&#xff08;如网络请求&#xff09;的效率…...

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界&#xff1a;MCP协议与服务器的工作原理 MCP&#xff08;Model Context Protocol&#xff09;是一种创新的通信协议&#xff0c;旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天&#xff0c;MCP正成为连接AI与现实世界的重要桥梁。…...

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中&#xff0c;部分节点存储的数据量或访问量远高于其他节点&#xff0c;导致这些节点负载过高&#xff0c;影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...

华硕a豆14 Air香氛版,美学与科技的馨香融合

在快节奏的现代生活中&#xff0c;我们渴望一个能激发创想、愉悦感官的工作与生活伙伴&#xff0c;它不仅是冰冷的科技工具&#xff0c;更能触动我们内心深处的细腻情感。正是在这样的期许下&#xff0c;华硕a豆14 Air香氛版翩然而至&#xff0c;它以一种前所未有的方式&#x…...

C#学习第29天:表达式树(Expression Trees)

目录 什么是表达式树&#xff1f; 核心概念 1.表达式树的构建 2. 表达式树与Lambda表达式 3.解析和访问表达式树 4.动态条件查询 表达式树的优势 1.动态构建查询 2.LINQ 提供程序支持&#xff1a; 3.性能优化 4.元数据处理 5.代码转换和重写 适用场景 代码复杂性…...