当前位置: 首页 > news >正文

大模型能否生成搜索引擎的未来?

文|郝    鑫

编|刘雨琦

ChatGPT火爆之前,水面下,也有中国公司也在朝着智能助手的方向努力。夸克便是其中之一。在GPT风靡科技圈后,国内就开始陆续冒出一些大模型厂商。对当时夸克而言,做大模型毋庸置疑,但做什么样的大模型还需要结合自身优势去制定详细方案。本质上,这是一个技术性和实用性谁是第一性的问题。同样是做大模型,有的厂商选择先攻克技术,大模型研发出来后再找业务场景;而有的厂商,则是从已有的确定性场景出发,匹配满足业务需求的大模型。夸克显然属于后者,从搜、存、用三个主要核心场景出发,打造知识准确性高、逻辑理解能力强的大模型底座。事实上,大模型问世之后,落地速度并没有想象中那么快,核心原因便在于找不到场景,拿着锤子满世界找钉子,效率自然不高。而夸克则从原有的场景出发,产生价值是关键。正是源于这样的思考,夸克大模型的诞生贯穿着实用性的思考,也自我定位为:面向搜索、生产力工具和资产管理助手的应用型大模型。更准确的说,夸克借着大模型的技术东风,将原有产品功能进行智能化升级,也再次明确了打造集工作、生活、学习一体的AI助手的初心。

“学霸”是怎样炼成的?

什么样的土壤,结出什么样的果实,夸克大模型从出生起就自带着搜索引擎的基因。搜索的本质是将用户的搜索意图和信息进行匹配,而这也正是帮助大模型形成逻辑的过程。用户的每次查询、点击,都会建立、强化和拓展匹配的关联性,比如在浏览页面的过程中,就能自然地建立起“ChatGPT-OpenAI-奥特曼”之间的关系。循环往复,通过搜索就积累起了庞大的数据,建立起了涵盖文字、图片、视频的多模态知识图谱,正是在这些错综复杂的知识图谱中构建起了逻辑关系。可以说,用户的每一次搜索行为,都是在辅助大模型训练。基于此,以Transformer为架构,从搜索引擎中长出来的夸克大模型,天然就擅于理解和逻辑。得益于在理解和逻辑上的天赋,让夸克大模型确定了最核心的能力——知识正确性能力。“要开发大模型应用,首先就要解决知识正确性的问题。现在内容生成,主要靠大模型的创意能力,而不是知识能力,这可能拥有一部分市场。但更进一步,我认为,好用的大模型产品和创新产品,应该是知识和创意能力的结合”,夸克技术负责人蒋冠军表示。但从发现到构建,这中间还需要解决两个核心问题,一是如何降低幻觉,提高大模型输出的准确率?二是如何让大模型真的去理解和学会,不止是学会,更要做“学霸”。因此,“学霸计划”正式确定成立,夸克打出了一套组合拳。首先是参数要大,夸克大模型参数达到了千亿级。更大的参数量,意味着模型的知识容量更大,可学习语言的模式也更丰富,有利于大模型的分析和推理。其次是从数据价值上下功夫。从数量上做到全,据悉,夸克大模型几乎涵盖了所有的中文知识,以及丰富的英语和其他语言知识;从数据质量上做到优质,基于搜索引擎经验,夸克团队有一套科学的知识评估、对齐和校验体系,可以筛选出哪些数据是有价值的,同时过滤出无用、有害的数据;从数据与数据关系层面,采用大量知识图谱、文档和网页知识去做知识增强。最后是靠专业团队来生产和审核知识。在医疗、教育、文档行业,夸克不仅沉淀了大量的数据,还引进了专业的医生、老师等角色,一边生产出专业优质的知识喂给大模型,一边也为最后结果生成的准确性加筑了一道防线。蒋冠军告诉光锥智能,靠专业团队供给大模型训练,才让其走到了现在,“最初我们做一个版本,但是效果不太好。于是,我们立马组建起专业团队,不仅有正式员工、行业资深从业者,也建设了专门的第三方团队”。不过,真学霸还是假学霸,还得拿成绩说话。在提升准确率方面,夸克大模型在健康等高精专行业,知识错误率降到了5%以下,基本上达到较高可用性。在国内最权威的两个大语言模型测试榜单中,夸克大模型经过了上万道专业考题的检验,覆盖几十个学科和不同学段,无论是常识问题还是社会科学知识,夸克大模型都展现出了处理复杂、多层次问题的能力。

在C-Eval榜单中,夸克大模型平均分达到89分,位居榜单第一,同时在社会科学、人文科学和其他三个类目中位列榜首。

在CMMLU榜单评测中,夸克大模型以平均77.08分的成绩位列总成绩第一,并占据社会科学和其他两个类目的首位。

临床执业医师资格考试、计算机等级考试、公务员考试、教师资格证考试,夸克大模型摇身一变,成了各领域的“专业人才”。

重要的是,夸克是什么

一个以知识能力为核心,兼具对话、创作、安全的锤子打造好后,下一步就要考虑楔钉子的顺序以及怎么用大模型的底座把夸克的产品功能挨个智能化改造一遍。蒋冠军介绍,他们对夸克的最新定位是一款集搜、用、存的智能信息产品。该定位来自于夸克团队对其主要用户群体,即25岁以下的年轻用户长期使用场景的分析,蒋冠军表示,“在大家工作、学习和生活的过程中,无外乎是找资料、存资料,并且最好还能在云端进行编辑和加工”。梳理后发现,“搜”的功能中包含了通用搜索、文档、图片、视频、医疗、教育等场景;“用”的功能具体指所提供的工具,其中有扫描王、高考填报、网页、资料生成等工具;“存”则指向个人云盘系列功能,内含了资产管理、资产搜索、资产编辑等功能。搜索一向是夸克的“灵魂”,自然也成为了落下的第一颗“钉子”。对夸克来说,“搜索”是引擎,牵一发而动全身。因此,对搜索的改造,绝不能浅尝辄止。具体来看,目前有三个主要方向的升级:对通用搜索结果的优化,对生成内容的增加以及对健康、教育和法律等核心场景的再产品化。过去,用户在搜索引擎中的查询、点击和结果返回的行为,本身就是一种交互方式,只不过在这种情况下搜索不具备针对性,搜索结果呈现也是散状的。而有了大模型以后,搜索的行为更像是对话,既可以展现通用的答案,也可以针对用户个性化提问、追问进行补充。搜索结果可以聚合和整合,不用再同时打开十几个网页,并且结果正确性可追溯。夸克认为搜索本身就是一个以内容为驱动的产品,AIGC技术趋渐成熟催化了搜索内容的进一步爆发。现阶段,夸克在搜索上推出了大量的AIGC内容,比如支持消息祝福、语文作文、合同、规章制度、新闻稿等短、中、长的文案创作。健康、教育和法律行业都是对知识性要求极高的行业。首先是有进入门槛,如果没有长时间的行业积累,很难把行业摸透,做到深、精和专。再者,用户对这些行业的知识需求,量要足够大,知识的难易程度要有阶梯性的区分。更为关键的是,用户搜即用,从学术写作、实验室到手术台、法院,对准确性都有极高的要求。上述要求或许对其他玩家存在挑战,但对夸克而言,从行业经验、数据积累到知识的准确性,本该水到渠成。“在健康场景上,我们做了很多行业数据建设和知识建设,具备完整的健康知识图谱,储备了大量医典百科、医典问答的C端用户数据,还整理了大量的指南、标准和书籍等一系列数据”,蒋冠军说道。此外,夸克的优势还在于有成熟的场景和用户。大模型对健康和法律行业的改造,早在年初就在国外兴起,也被视为具有潜力的市场。几乎同时期,国内就出现了一批“Copy to China”的追随者,但却忽略了本质逻辑,国外能火是因为把昂贵的劳动力价格打了下来,却不符合国内实际情况。所以直到现在,仍有很多创业者在做2C还是2B场景中徘徊。然而,对夸克来说,做健康、法律、教育不是选择,而是发挥之所长。蒋冠军告诉光锥智能:“为什么我们要重点建设健康行业?原因在于搜索引擎的核心群体就涵盖了对健康信息的强需求,在搜索引擎上,用户可以获得更好的信息服务。”夸克大模型之于健康知识查询、获取,最大的变化在于,不仅能做健康科普问答,还具备比较好的推理能力。以一个咨询咳嗽症状的场景为例,以前在搜索引擎的操作流程如下:在搜索框输入“咳嗽了三天越来越严重了怎么回事儿?”,然后网页出现了一堆五花八门的答案,有的说是感冒,有的说是肺炎,有的说是支气管炎,问题是一点没解决,还徒增了恐慌。夸克团队注意到,上述情况存在着两个痛点:普通用户缺乏专业知识,不知道怎么精准地描述自己的症状;同样一个小症状可能对应着一堆疾病,怎么判断哪个是主要症状?夸克给出的解决方案是,线上给每位患者建立了“医疗卡”,当用户简单描述了咳嗽的症状后,会出现一系列相关的可能对应疾病症状。提交完后,大模型会根据当前的症状信息,给出一个疾病范围。通过交互和推理,大幅度提升了诊断的精确性。最后,大模型会输出参考信息,给出几个参考方案,如果是A种情况,有什么症状,确诊需要做哪些检查,可能会开什么药等等。在工具、云盘功能方面,当前夸克大模型的主要作用是提效。在云盘上,夸克网盘相册可以用自然语言去完成检索,背后是夸克大模型加持的多模态技术和能力;在扫描产品上,扫描识别、资料生成、AI智能填表等更多功能已经在升级和开发的路上。“夸克大模型基本上完成了在当前阶段的整体迭代,具备在一部分夸克App的场景里提供服务的能力”,蒋冠军总结道。

大模型是搜索引擎的未来吗?

大模型之后,微软、谷歌等都曾尝试重构搜索,但目前为止并没有确定性的结果。这同样是夸克的挑战,但也是巨大的机会。新一代的搜索引擎不单单只是一个冰冷的工具,而是由用户来重新定义,它可以是工作伙伴、情感陪伴、老师朋友。微软将之称之为“Copilot”副驾,谷歌称之为“Magi”。谷歌表示搜索不仅仅是一个工具,而是一个伙伴,一个灵感来源,一个创造力的催化剂,搜索体验将成为重点。搜索引擎的角色定位变了。这一本质的改变会带动搜索引擎走向内容化的道路,同时流量的分配逻辑和商业模式也会随之改变。“现在是大模型辅助搜索,未来是大模型改变搜索。”蒋冠军表示,搜索产品的本质就是“交互+内容”,把搜索做得极致简单就是一个“框+内容”的形式,但是搜索的局限性在于,内容没法个性化和深度化,别人生产什么,它就回答什么。大模型诞生后,搜索的内容生成能力实现了指数级增长,交互提问的数量和理解能力也相应地指数级上升。下一代的搜索引擎将在内容联动性方面进一步打通,以此来增加搜索内容的丰富性。除了现在能看到的文字、图片、视频,以后还将会有短视频、社交媒体帖子、AI生成内容等,内容排序与推荐顺序的决定权重新交还给用户。同时随着大模型的进一步的普及,流量入口可能会从现在的搜索引擎转移到大模型的对话框,这将会直接导致流量逻辑和规则的改变。换而言之,未来,谁掌握了大模型,谁能吸引来更多用户使用其大模型,就能掌握话语权。关于下一代搜索,夸克也有自己的思考,夸克认为,搜索与大模型关系是随着技术成熟度而变化。蒋冠军判断到:“5到10年以后,搜索会有大变化”。他认为理论上来说,只要大模型足够强,会打破现有的很多信息获取习惯,大模型都是可以使用的工具,打字也好、语音也好,跟它交互很方便。再进一步,大模型的基础能力会越来越往搜索里面去渗透。先是大模型辅助搜索,完成一些工作,慢慢变成以大模型为核心,用搜索帮它完成产品创新。搜索推荐、排序与流量入口改变以后,搜索的商业模式必然会重塑。光锥智能发现,商业模式渐进式的重塑已经打响,例如谷歌在对话搜索生成的结果页,同样呈现了商家广告推荐;外媒报道,微软、谷歌已经尝试在类ChatGPT对话生成结果中,增加商家投放链接,价高者排序也比较靠前。这让新一代搜索充满了想象力。也让夸克这位主攻信息服务的新星,一跃成为阿里的创新代表之一。阿里三季度财报会上,新任CEO吴泳铭宣布首批战略级创新业务,夸克位列其中。从根本上看这源于阿里的“AI驱动”战略,进一步,吴泳铭曾在公开场合发言表示:“在可见的未来,会有更智能的下一代产品进入人们的生活,AI助理会无处不在,成为每个人工作、生活、学习中的助手”。在阿里内部“工作、生活、学习的助手”直指夸克,无论从内部的重视程度还是行业重要性来看,如今的夸克已经站在了下一代搜索的临界点。

相关文章:

大模型能否生成搜索引擎的未来?

文|郝 鑫 编|刘雨琦 ChatGPT火爆之前,水面下,也有中国公司也在朝着智能助手的方向努力。夸克便是其中之一。在GPT风靡科技圈后,国内就开始陆续冒出一些大模型厂商。对当时夸克而言,做大模型毋庸置疑&am…...

鸿蒙开发-ArkTS 语言-状态管理

[写在前面: 文章多处用到gif动图,如未自动播放,请点击图片] 衔接上一篇:鸿蒙开发-ArkTS 语言-基础语法 3. 状态管理 变量必须被装饰器装饰才能成为状态变量,状态变量的改变才能导致 UI 界面重新渲染 概念描述状态变量被状态装饰器装饰的变…...

一篇文章带你掌握MongoDB

文章目录 1. 前言2. MongoDB简介3. MongoDB与关系型数据库的对比4. MongoDB的安装5. Compass的使用6. MongoDB的常用语句7. 总结 1. 前言 本文旨在帮助大家快速了解MongoDB,快速了解和掌握MongoDB的干货内容. 2. MongoDB简介 MongoDB是一种NoSQL数据库,采用了文档…...

删除docker镜像

随着我们拉取的镜像越来越多,镜像的管理越来越难。这时候可能就需要删除镜像了。 本关的任务是学习如何删除容器,要求学习者参照示例,将busybox:latest镜像删除。 相关知识 删除镜像 如果要删除本地的镜像,可以使用 docker rm…...

力扣 --- 删除有序数组中的重复项 II

题目描述: 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的…...

Opencv图像处理(全)

文章目录 博主精品专栏导航备注:以下源码均可运行,不同项目涉及的函数均有详细分析说明。11、图像项目实战(一)银行卡号识别 —— sort_contours()、resize()(二)文档扫描OCR识别 —— cv2.getPerspectiveT…...

Flutter桌面应用开发之毛玻璃效果

目录 效果实现方案依赖库支持平台实现步骤注意事项话题扩展 毛玻璃效果:毛玻璃效果是一种模糊化的视觉效果,常用于图像处理和界面设计中。它可以通过在图像或界面元素上应用高斯模糊来实现。使用毛玻璃效果可以增加图像或界面元素的柔和感,同…...

基于C#实现优先队列

一、堆结构 1.1性质 堆是一种很松散的序结构树,只保存了父节点和孩子节点的大小关系,并不规定左右孩子的大小,不像排序树那样严格,又因为堆是一种完全二叉树,设节点为 i,则 i/2 是 i 的父节点,2i 是 i 的…...

ssm+vue的仓库在线管理系统的设计与实现(有报告)。Javaee项目,ssm vue前后端分离项目。

演示视频: ssmvue的仓库在线管理系统的设计与实现(有报告)。Javaee项目,ssm vue前后端分离项目。 项目介绍: 采用M(model)V(view)C(controller)三…...

什么是木马

木马 1. 定义2. 木马的特征3. 木马攻击流程4. 常见木马类型5. 如何防御木马 1. 定义 木马一名来源于古希腊特洛伊战争中著名的“木马计”,指可以非法控制计算机,或在他人计算机中从事秘密活动的恶意软件。 木马通过伪装成正常软件被下载到用户主机&…...

Pinia仓库统一管理

pinia独立维护 在src/stores文件夹下创建index.js文件,将main.js中关于pinia的语句放到index.js中 index.js文件内容: import { createPinia } from pinia import piniaPluginPersistedstate from pinia-plugin-persistedstate const pinia createPi…...

[论文阅读]VoxSet——Voxel Set Transformer

VoxSet Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from Point Clouds 论文网址:VoxSet 论文代码:VoxSet 简读论文 这篇论文提出了一个称为Voxel Set Transformer(VoxSeT)的3D目标检测模型,主要有以下几个亮点: 提出了基于…...

【开源】基于Vue.js的医院门诊预约挂号系统的设计和实现

项目编号: S 033 ,文末获取源码。 \color{red}{项目编号:S033,文末获取源码。} 项目编号:S033,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 功能性需求2.1.1 数据中心模块2.1.2…...

1、Mysql架构与历史

Mysql逻辑架构 最上层是服务并不是Mysql所独有的,大多数基于网络的客户端/服务器的工具或者服务都有类似的架构,比如连接处理,授权认证,安全等。 第二层是Mysql比较有意思的部分。大多数Mysql的核心服务都在这一层,…...

考试复习

选择20道 填空10道 判断10道 简答4-5道 编程题2道 一、选择题 1.js中更改一个input框的值&#xff1a; <input ida type"text" value"123456"> 通过a.value改变他的值 方法&#xff1a; 在script标签中通过id获得该输入框对象&#xff0c;然…...

使用Docker一键安装MySQL与Nginx脚本

在项目开发和部署过程中&#xff0c;使用Docker可以方便地快速搭建和管理数据库&#xff08;MySQL&#xff09;以及Web服务器&#xff08;Nginx&#xff09;。本教程将为你提供一份一键安装脚本。 安装Docker 首先&#xff0c;确保你的系统已经安装了Docker。如果没有安装&am…...

VMware系列:Vmware vSphere常见问题及解决办法

Vmware vSphere常见问题及解决办法 1. 虚拟机文件被锁,无法正常 power on故障状态:祸根:解决方法:2. 忽视掉ESXi/vCenter Server提示SSH事件的方法3. 尝试迁移一台带USB设备的VM失败故障状态:故障分析:解决方案:4. Convert Linux系统的Troublshooting过程5. vCenter Serv…...

基于web宠颐生宠物医院系统设计与实现

基于web宠颐生医院系统开发与实现 摘要&#xff1a;时代飞速发展&#xff0c;网络也飞速发展&#xff0c;互联网许多的行业都可以用互联网实现了&#xff0c;互联网已经成为了人们生活中重要的一部分&#xff0c;或多或少的影响着我们的生活&#xff0c;互联网在给我带了方便的…...

二、Gitee使用方法

目录 &#xff08;1&#xff09;首先可以注册一个 gitee 账号&#xff0c;注册很方便&#xff0c;自行注册 &#xff08;2&#xff09;登陆后进入你的主页 &#xff08;3&#xff09;创建仓库 &#xff08;3&#xff09;克隆 &#xff08;4&#xff09;代码提交 &#xf…...

【C++】string模拟

string讲解&#xff1a;【C】String类-CSDN博客 基本框架 #pragma once #include <iostream> using namespace std; ​ namespace wzf {class string{public:// 默认构造函数string(): _str(new char[1]), _size(0), _capacity(0){_str[0] \0; // 在没有内容时仍要有终…...

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件&#xff0c;常用于在两个集合之间进行数据转移&#xff0c;如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model&#xff1a;绑定右侧列表的值&…...

CMake基础:构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成&#xff0c;核心是利用 HTTP 协议的 Range 请求头指定下载范围&#xff1a; 实现原理 Range 请求头&#xff1a;向服务器请求文件的特定字节范围&#xff08;如 Range: bytes1024-&#xff09; 本地文件记录&#xff1a;保存已…...

如何为服务器生成TLS证书

TLS&#xff08;Transport Layer Security&#xff09;证书是确保网络通信安全的重要手段&#xff0c;它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书&#xff0c;可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南&#xff1a;Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问&#xff08;基础概念问题&#xff09; 1. 请解释Spring框架的核心容器是什么&#xff1f;它在Spring中起到什么作用&#xff1f; Spring框架的核心容器是IoC容器&#…...

BLEU评分:机器翻译质量评估的黄金标准

BLEU评分&#xff1a;机器翻译质量评估的黄金标准 1. 引言 在自然语言处理(NLP)领域&#xff0c;衡量一个机器翻译模型的性能至关重要。BLEU (Bilingual Evaluation Understudy) 作为一种自动化评估指标&#xff0c;自2002年由IBM的Kishore Papineni等人提出以来&#xff0c;…...

日常一水C

多态 言简意赅&#xff1a;就是一个对象面对同一事件时做出的不同反应 而之前的继承中说过&#xff0c;当子类和父类的函数名相同时&#xff0c;会隐藏父类的同名函数转而调用子类的同名函数&#xff0c;如果要调用父类的同名函数&#xff0c;那么就需要对父类进行引用&#…...

区块链技术概述

区块链技术是一种去中心化、分布式账本技术&#xff0c;通过密码学、共识机制和智能合约等核心组件&#xff0c;实现数据不可篡改、透明可追溯的系统。 一、核心技术 1. 去中心化 特点&#xff1a;数据存储在网络中的多个节点&#xff08;计算机&#xff09;&#xff0c;而非…...