当前位置: 首页 > news >正文

MindSearch:AI 时代的“思考型”搜索引擎

随着AI技术的飞速发展,搜索引擎领域也迎来了新的变革。继 OpenAI 发布 SearchGPT 之后,国内也涌现出一批优秀的AI搜索引擎,其中,由中科大和上海人工智能实验室联合研发的 MindSearch(思·索)尤为引人注目。这款开源AI搜索引擎,不仅性能媲美Perplexity.ai Pro,更重要的是,它跳脱了传统搜索引擎的窠臼,不再仅仅依赖关键词匹配,而是模拟人类的思维过程,深度理解用户的搜索意图,并提供更精准、更全面的搜索结果。这款开源AI搜索引擎的出现,无疑为我们打开了一扇通往未来搜索引擎的大门。

MindSearch vs 传统搜索引擎:一场思维方式的革新

试想一下,当你想要了解“量子计算的应用”时,传统的搜索引擎会提供给你什么?

大概率是大量关于量子计算基本概念的网页,需要你花费大量时间自行筛选出关于应用的内容。而 MindSearch 则截然不同,它会像人类一样思考,分析你的问题,并直接呈现量子计算在各个领域的应用案例和深入分析,让你快速精准地获取所需信息。

这种革命性的改变源于 MindSearch 独特的多智能体框架它不再仅仅关注关键词,而是会分析问题的上下文,并结合知识图谱等技术,深度理解用户的搜索意图,提供更精准、更全面的搜索结果

MindSearch的优势:深度、广度、准确性兼备

相比于传统的搜索引擎,MindSearch 的优势在于:

  • 深度知识探索: MindSearch 能够浏览数百个网页,提供更广泛、更深层次的答案,帮助用户深入了解某个主题。
  • 透明的解决方案路径: MindSearch 会展示其思考路径和搜索关键词等详细信息,提高了搜索结果的可信度和可用性。
  • 多种用户界面: MindSearch 提供React、Gradio、Streamlit和本地调试等多种用户界面,方便用户根据自己的需求进行选择。
  • 动态图构建: MindSearch 能够将用户查询分解为图中的子问题节点,并根据WebSearcher的搜索结果逐步扩展图,实现更灵活的搜索策略。

MindSearch vs 其他AI搜索引擎:更深度、更透明、更开放

ChatGPT-WebPerplexity.ai(Pro)等 AI 搜索引擎相比,MindSearch 在深度、透明度和开放性方面更胜一筹:

  • 更深度: MindSearch 的多智能体框架能够进行更深层次的推理和分析,提供更深入的知识探索。
  • 更透明: MindSearch 会展示其思考路径和搜索关键词等详细信息,提高了搜索结果的可信度和可用性。
  • 更开放: MindSearch 是开源的,这意味着开发者可以参与贡献,共同推动其发展,这对于 AI 搜索引擎技术的进步和生态建设具有重要意义。

为了更直观地展现 MindSearch 的优势,我们用 100 个由人类专家精心设计的现实问题,对 ChatGPT-Web、Perplexity.ai(Pro)和 MindSearch 的表现进行了评估,并由 5 位专家进行评分,结果如下:

MindSearch的“思考”之道:多智能体框架,模拟人类认知

MindSearch 的核心竞争力在于其创新的多智能体框架,它包含 WebPlanner 和 WebSearcher 两个关键组件,分别扮演着“思考者”和“执行者”的角色,就如同人类大脑中多个功能区域协同工作。

突破传统搜索引擎的局限,WebPlanner 赋予 MindSearch “思考”的能力

传统的搜索引擎,就像一个只会机械地执行命令的“机器人”,只能根据用户输入的关键词进行匹配,无法理解用户的深层需求。而 MindSearch 的 WebPlanner 则更像一位经验丰富的“侦探”,它能够将用户提出的复杂问题分解成多个子问题,并构建一张清晰的“搜索地图”——有向无环图(DAG),来引导搜索引擎找到最佳答案。

WebPlanner 如何像人类一样思考?

  • 理解逻辑关系,构建“搜索地图”: WebPlanner 能够理解用户问题中各个关键词之间的逻辑关系,并将这些关系转化为 DAG 图中的节点和边。每个节点代表一个独立的搜索任务,而边则代表节点之间的逻辑和推理关系。通过构建 DAG 图,WebPlanner 能够清晰地展现解决问题的思路,并引导搜索引擎沿着正确的路径前进。
  • 利用 LLM 的代码能力,动态调整搜索策略: WebPlanner 不仅能够构建静态的 DAG 图,还能够根据搜索结果动态调整搜索策略。它利用大型语言模型 (LLM) 强大的代码生成能力,编写代码来与 DAG 图进行交互,例如添加新的节点或边。这样,WebPlanner 就可以根据新的信息不断完善搜索策略,确保最终找到最优解。
  • 并行处理,提高搜索效率: 由于 DAG 图中的节点之间存在依赖关系,WebPlanner 可以将这些节点分配给 WebSearcher 并行处理,从而大大提高信息收集的速度。

WebPlanner 的工作流程:

  1. 接收用户问题: WebPlanner 接收用户提出的问题。
  2. 构建初始 DAG 图: WebPlanner 根据对问题的理解,构建初始的 DAG 图,并将起始节点设置为用户的问题。
  3. 启动 WebSearcher 进行搜索: WebPlanner 启动 WebSearcher,根据 DAG 图中的节点进行搜索。
  4. 根据搜索结果,动态调整 DAG 图: WebPlanner 根据 WebSearcher 返回的搜索结果,动态调整 DAG 图,例如添加新的节点或边。
  5. 重复步骤 3 和 4,直到找到最终答案: WebPlanner 不断重复步骤 3 和 4,直到找到最终答案。
  6. 添加结束节点,输出最终答案: 找到最终答案后,WebPlanner 将添加结束节点,并将最终答案输出给用户。

WebPlanner 就像 MindSearch 的“大脑”,它能够像人类一样思考,理解用户的搜索意图,并制定最佳的搜索策略,从而帮助用户更快、更准确地找到所需的信息。

如果说 WebPlanner 是 MindSearch 的“大脑”,负责思考和制定搜索策略,那么 WebSearcher 就像它的“千里眼”,能够在互联网的汪洋大海中精准锁定关键信息,为用户提供最 relevant 的答案。

海量信息,如何高效检索?WebSearcher 的分层检索策略

面对互联网上浩如烟海的信息,即使是强大的大型语言模型 (LLM) 也无法一下子处理完所有的页面。为了解决这个问题,MindSearch 的研发团队设计了一种巧妙的策略——分层检索,并将其应用于 WebSearcher。

WebSearcher 的工作流程:

  1. 接收 WebPlanner 分配的任务: WebSearcher 接收 WebPlanner 分配的搜索任务,例如搜索“量子计算的应用”。
  2. 生成多个类似的搜索问题: 为了扩大搜索范围,WebSearcher 会根据 WebPlanner 分配的任务,生成多个类似的搜索问题,例如“量子计算的应用场景”、“量子计算的实际应用案例”等。
  3. 调用多个搜索引擎 API: WebSearcher 会调用多个搜索引擎的 API,例如 Google、Bing 和 DuckDuckGo,并使用生成的多个搜索问题进行查询。
  4. 获取关键信息: WebSearcher 会从搜索引擎返回的结果中获取关键信息,例如网页链接、标题和摘要等。
  5. 筛选重要网页: WebSearcher 会根据关键信息,筛选出最重要的网页,例如排名靠前、内容相关的网页。
  6. 深度阅读,提炼关键信息: WebSearcher 会深度阅读筛选出来的重要网页,并提炼出关键信息。
  7. 汇总信息,返回给 WebPlanner: WebSearcher 将提炼出来的关键信息汇总,并返回给 WebPlanner。

WebSearcher 的分层检索策略,就像一位经验丰富的“情报员”,先进行广泛的调查,收集大量的线索,然后再进行精细的分析,筛选出最有价值的信息。

WebSearcher 的优势:

  • 高效检索: 分层检索策略能够帮助 WebSearcher 快速锁定关键信息,避免在海量信息中迷失方向。
  • 全面覆盖: 通过调用多个搜索引擎 API,WebSearcher 能够覆盖更广泛的信息来源,确保搜索结果的全面性。
  • 精准筛选: WebSearcher 能够根据关键信息,精准筛选出最重要的网页,避免浪费时间阅读 irrelevant 的内容。

WebSearcher 是 MindSearch 的“千里眼”,它能够精准锁定关键信息,为用户提供最 relevant 的答案。它与 WebPlanner 密切配合,共同构成了 MindSearch 的核心竞争力,使其能够像人类一样思考,深度理解用户的搜索意图,并提供更精准、更全面的搜索结果。

MindSearch的“超能力”:3分钟“翻阅”300页,效率远超人类专家!

MindSearch的效率令人惊叹!它能够在短短3分钟内完成300多页信息的搜集和整合,这可是人类专家需要花费3小时才能完成的工作!这意味着,你可以更快地获取所需信息,节省宝贵的时间和精力。

试想一下,当你需要了解某个领域的最新研究成果时,MindSearch能够迅速帮你搜集整理数百篇论文,并提炼出关键信息,让你在短时间内掌握该领域的最新动态。

MindSearch的“魅力”:深度知识探索,开启智能搜索新时代!

MindSearch不仅能够快速找到你所需的信息,更能够帮助你深入探索某个主题,了解其背后的知识体系。它就像一位博学的导师,带领你进入知识的殿堂,开启智能搜索新时代!

例如,当你想要了解“量子计算”这个领域时,MindSearch不仅会为你提供相关的网页链接,还会帮你梳理量子计算的发展历程、核心概念、应用领域以及未来发展趋势,让你对量子计算有一个全面的了解。

MindSearch的“开放”:开源共享,共创AI搜索新未来!

MindSearch已开源,这意味着开发者可以参与贡献,共同推动其发展。这种开放的姿态,不仅体现了研发团队的自信,也为AI搜索引擎的未来发展指明了方向。

我们相信,在开源社区的共同努力下,MindSearch将会不断进化,解决当前存在的局限性,例如信息幻觉和搜索引擎偏见等问题。同时,MindSearch也将探索更多信息源,为用户提供更全面、更可靠的搜索体验。

MindSearch的未来:无限可能,值得期待!

MindSearch的出现,预示着AI搜索引擎将进入一个全新的时代。它不再仅仅是信息的搬运工,而是能够真正理解用户需求,并提供个性化、智能化的搜索体验。

我们有理由相信,在未来,MindSearch将会成为我们探索知识、获取信息的重要工具,引领我们进入一个更加智能化的未来!

MindSearch的意义:不止于搜索,更在于思考

MindSearch的出现,不仅仅是一款新的搜索引擎的诞生,更是一场关于“思考”的革命。它让我们看到了AI的无限可能,也让我们对未来充满了期待。

让我们一起期待MindSearch在未来的发展,期待它为我们带来更多惊喜!

MindSearch部署

值得一提的是,MindSearch 已于 7 月初正式开源!上海人工智能实验室慷慨地分享了搭载 MindSearch 架构的 InternLM2.5-7B-Chat 模型及完整的前后端代码,为广大开发者和研究者提供了宝贵的学习和实践机会。

零距离体验 MindSearch 的魅力:

  • 在线 Demo: 无需下载安装,点击链接即可体验 MindSearch 的强大功能:https://mindsearch.openxlab.org.cn/

技术爱好者:本地部署,定制专属 MindSearch!

  • 开源代码:https://github.com/InternLM/mindsearch
  • 基于智能体框架 Lagent,MindSearch 的本地部署也非常简单:

1、在 GitHub 下载 MindSearch 仓库。

2、启动服务:

python -m mindsearch.app --lang en --model_format internlm_server

3、一键启动多种前端:

# Install Node.js and npm
# for Ubuntu
sudo apt install nodejs npm
# for windows
# download from https://nodejs.org/zh-cn/download/prebuilt-installer
# Install dependencies
cd frontend/React
npm install
npm start

总结

MindSearch 是一款极具潜力的开源 AI 搜索引擎,它模拟了人类的思维过程,实现了深度知识探索,为用户带来了更精准、更全面的搜索体验。相信在未来,MindSearch 将会在 AI 搜索领域发挥更大的作用,引领搜索引擎进入一个全新的智能化时代。

附:

  • 🌐 项目主页: https://mindsearch.netlify.app
  • 📃 技术报告: https://arxiv.org/abs/2407.20183
  • 💻 项目体验: https://mindsearch.openxlab.org.cn
  • 🐍 开源代码: https://github.com/InternLM/mindsearch

相关文章:

MindSearch:AI 时代的“思考型”搜索引擎

随着AI技术的飞速发展,搜索引擎领域也迎来了新的变革。继 OpenAI 发布 SearchGPT 之后,国内也涌现出一批优秀的AI搜索引擎,其中,由中科大和上海人工智能实验室联合研发的 MindSearch(思索)尤为引人注目。这…...

机器学习练手(四):基于SVM 的肥胖风险分类

总结:本文为和鲸python 机器学习原理与实践闯关训练营资料整理而来,加入了自己的理解(by GPT4o) 原活动链接 原作者:vgbhfive,多年风控引擎研发及金融模型开发经验,现任某公司风控研发工程师&…...

AutoGPT项目实操总结

AutoGPT项目介绍 AutoGPT是一个基于GPT-4的开源项目,旨在简化用户与语言模型的交互过程,使文本生成和信息收集更轻松、更高效。它具备互联网搜索、长短期记忆管理、调用大模型进行文本生成、存储和总结文件等能力,并且可以通过插件扩展功能与…...

uniapp 荣耀手机 没有检测到设备 运行到Android手机 真机运行

背景: 使用uniapp框架搭建的项目,开发的时候在浏览器运行,因为项目要打包成App,所以需要真机联调,需要运行到Android手机,在手机上查看/运行项目。通过真机调试才能确保软件开发的准确性和页面显示的完整性…...

【EtherCAT】Windows+Visual Studio配置SOEM主站——静态库配置+部署

目录 一、准备工作 1. Visual Studio 2022 2. Npcap 1.79 3. SOEM源码 二、静态库配置 1. 修改SOEM源码配置 2. 编译SOEM源码 3. 测试 三、静态库部署 1. 新建Visual Studio工程 2. 创建文件夹 3. 创建主函数 4. 复制静态库 5. 复制头文件 6. 配置头文件…...

【Python小游戏示例:猜拳游戏】

当然可以!以下是一个简单的Python小游戏示例:猜拳游戏。在这个游戏中,玩家将与计算机进行猜拳(石头、剪刀、布)。 import randomdef get_computer_choice():choices [石头, 剪刀, 布]return random.choice(choices)d…...

多态实现的必要条件,实现多态的三个方法,输入一个URL的过程,死锁产生的原理和条件,进程和线程的定义及区别,进程通信的几种方式

继承:面相对象编程中的核心概念,子类可以使用父类的属性和方法,无需重新编写,子类还可以添加新的属性和方法来提供特定的实现多态:同一件事,发生在不同的对象上,会产生不同的结果,传递不同的对象会调用对应类中的方法重载(Overload),同一个类中多个同名的方法,参数列表不同,提高…...

Springboot+MybatisPlus项目中,数据库表中存放Date,查出后转为String

新增一条记录时,数据库表中会有一个gmt_created 的字段,存放创建时间。 该值在数据库中的默认值为:CURRENT_TIMESTAMP 在对应的JavaBean中,该值为 gmtCreated, 那么问题来了: 如何让在表中的Date类型&…...

JavaDS —— AVL树

前言 本文章将介绍 AVL 树的概念,重点介绍AVL 树的插入代码是如何实现的,如果大家对 AVL 树的删除(还是和二叉搜索树一样使用的是替换删除法,然后需要判断是否进行旋转调整)感兴趣的话,可以自行去翻阅其他…...

NSSCTF练习记录:[SWPUCTF 2021 新生赛]jicao

题目: 这段PHP代码的意思是: 对index.php文件进行语法高亮显示,插入flag.php文件,变量id的值为POST传递的值,变量json的值为GET传递的json类型的值。当id值为wllmNB且json中含有键为“x”,值为“wllm”的时…...

LabVIEW位移检测系统

工业控制器的位移检测在保证机械设备精确运行中发挥着重要的作用。开发了一种基于LabVIEW的高精度位移检测系统,该系统通过集成硬件与软件的优化配置,实现了对工业控制器位移的精确测量和分析。 项目背景 在传统工业生产中,位移检测系统往往…...

02、MySQL-DML(数据操作语言)

目录 1、添加数据(INSERT) 2、修改数据(UPDATE) 3、删除数据(DELETE) 1、添加数据(INSERT) 注意: 插入数据时,指定的字段顺序需要与值的顺序是一一对应的字符串和日期型数据应该包含在引号中插入的数据大小,应该在字段的规定范围内 给指定…...

vue3 项目部署到线上环境,初始进入系统,页面卡顿大概一分钟左右,本地正常无卡顿。localStorage缓存1MB数据导致页面卡顿。

使用vue3进行项目开发,前端框架使用jeecg-boot进行开发,项目初期,打包部署到生产环境,无异常。某天,进行前端项目打包部署到生产环境,突然出现异常情况,部署到线上环境,初始进入系统…...

软件更新中的风险识别与质量保证机制分析

​ ​ 您好,我是程序员小羊! “微软蓝屏”事件暴露了网络安全哪些问题? 近日,一次由微软视窗系统软件更新引发的全球性“微软蓝屏”事件,不仅成为科技领域的热点新闻,更是一次对全球IT基础设施韧性与安全性…...

QT下载与安装

我们要下载开源的QT,方式下载方式: 官网 登录地址:http://www.qt.io.com 点击右上角的Download. Try.按钮;进入一下画面: 如果进入的是以下画面: 直接修改网址:www.qt.io/download-dev; 改为w…...

Java 2.2 - Java 集合

Java 集合,也叫做容器,主要是由两大接口派生而来:一个是 Collection 接口,主要用于存放单一元素;另一个是 Map 接口,主要用于存放键值对。对于 Collection 接口,其下又有三个主要的子接口&#…...

Linux驱动.之I2C,iic驱动层(二)

一、 Linux下IIC驱动架构 本篇只分析,一个整体框架。 1、首先说说,单片机,的i2c硬件接口图,一个i2c接口,通过sda和scl总线,外接了多个设备device,通过单片机,来控制i2c的信号发生&…...

【STM32】USART串口和I2C通信

个人主页~ USART串口和I2C通信 USART串口一、串口1、简介2、电路要求3、参数及时序 二、USART外设1、USART结构2、波特率发生器 三、数据包1、HEX数据包HEX数据包接收 2、文本数据包文本数据包接收 I2C通信一、简介二、通信协议1、硬件电路2、I2C时序基本单元 三、I2C外设1、简…...

【Material-UI】按钮组:垂直按钮组详解

文章目录 一、按钮组概述1. 组件介绍2. 基本用法 二、垂直按钮组的应用场景1. 导航菜单2. 表单操作3. 选项切换 三、按钮组的样式定制1. 变体(Variants)2. 颜色(Colors) 四、垂直按钮组的优势1. 空间利用2. 可读性与易用性3. 视觉…...

DDR5 的优势与应用

DDR5 是新一代 DRAM 内存,具有一系列强大的功能,可提升可靠性、可用性和可维护性 (RAS),降低能耗并显著提高性能。请查看下方表格,了解 DDR4 和 DDR5 之间的一些主要特性差异。 DDR5 的优势 特性/选项 DDR4DDR5DDR5 优势数据速率…...

【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)

升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点,但无自动故障转移能力,Master宕机后需人工切换,期间消息可能无法读取。Slave仅存储数据,无法主动升级为Master响应请求&#xff…...

Mysql8 忘记密码重置,以及问题解决

1.使用免密登录 找到配置MySQL文件,我的文件路径是/etc/mysql/my.cnf,有的人的是/etc/mysql/mysql.cnf 在里最后加入 skip-grant-tables重启MySQL服务 service mysql restartShutting down MySQL… SUCCESS! Starting MySQL… SUCCESS! 重启成功 2.登…...

scikit-learn机器学习

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: # Also add the following code, # so that every time the environment (kernel) starts, # just run the following code: import sys sys.path.append(/home/aistudio/external-libraries)机…...

Vite中定义@软链接

在webpack中可以直接通过符号表示src路径,但是vite中默认不可以。 如何实现: vite中提供了resolve.alias:通过别名在指向一个具体的路径 在vite.config.js中 import { join } from pathexport default defineConfig({plugins: [vue()],//…...

如何应对敏捷转型中的团队阻力

应对敏捷转型中的团队阻力需要明确沟通敏捷转型目的、提升团队参与感、提供充分的培训与支持、逐步推进敏捷实践、建立清晰的奖励和反馈机制。其中,明确沟通敏捷转型目的尤为关键,团队成员只有清晰理解转型背后的原因和利益,才能降低对变化的…...

Python 高效图像帧提取与视频编码:实战指南

Python 高效图像帧提取与视频编码:实战指南 在音视频处理领域,图像帧提取与视频编码是基础但极具挑战性的任务。Python 结合强大的第三方库(如 OpenCV、FFmpeg、PyAV),可以高效处理视频流,实现快速帧提取、压缩编码等关键功能。本文将深入介绍如何优化这些流程,提高处理…...

【FTP】ftp文件传输会丢包吗?批量几百个文件传输,有一些文件没有传输完整,如何解决?

FTP(File Transfer Protocol)本身是一个基于 TCP 的协议,理论上不会丢包。但 FTP 文件传输过程中仍可能出现文件不完整、丢失或损坏的情况,主要原因包括: ✅ 一、FTP传输可能“丢包”或文件不完整的原因 原因描述网络…...

聚六亚甲基单胍盐酸盐市场深度解析:现状、挑战与机遇

根据 QYResearch 发布的市场报告显示,全球市场规模预计在 2031 年达到 9848 万美元,2025 - 2031 年期间年复合增长率(CAGR)为 3.7%。在竞争格局上,市场集中度较高,2024 年全球前十强厂商占据约 74.0% 的市场…...

webpack面试题

面试题:webpack介绍和简单使用 一、webpack(模块化打包工具)1. webpack是把项目当作一个整体,通过给定的一个主文件,webpack将从这个主文件开始找到你项目当中的所有依赖文件,使用loaders来处理它们&#x…...

PydanticAI快速入门示例

参考链接:https://ai.pydantic.dev/#why-use-pydanticai 示例代码 from pydantic_ai import Agent from pydantic_ai.models.openai import OpenAIModel from pydantic_ai.providers.openai import OpenAIProvider# 配置使用阿里云通义千问模型 model OpenAIMode…...