当前位置: 首页 > news >正文

LBS 开发微课堂|AI向导接口服务:重塑用户的出行体验

为了让广大开发者

更深入地了解

百度地图开放平台的

技术能力

轻松掌握满满的

技术干货

更加简单地接入

位置服务

我们特别推出了

“位置服务(LBS)开发微课堂”

系列技术案例

第六期的主题是

《AI向导接口服务的能力与接入方案》

随着地图应用场景的多样化和复杂化,用户对地图服务的需求已经不再局限于简单的路线规划和地点查询,更希望获得一体化、智能化、动态响应的服务支持。

然而传统的地图应用在面对多轮交互、模糊查询和复杂场景等需求时,通常会有操作步骤繁琐、交互体验分散的问题。

因此,百度地图推出了AI向导接口服务,通过深度融合大模型能力和多轮交互技术,重构全场景地图服务。

那么,AI向导接口服务能够带来怎样的用户体验,又是如何实现这些能力的,您的业务适合哪种接入方案呢?

带着这些问题,我们一起来了解一下吧。

1. 能力设计

AI向导接口服务以文心大模型为核心,能力丰富,可以全面满足用户的各类需求。

1.1 用户体验优化

1.1.1 泛化需求,高效满足

目前,很多用户的需求逐渐从单一任务(如导航、查询)向多维度泛化转变。例如,用户可能需要同时解决“找到最近的营业中餐馆”和“规划最快到达路线”这两个问题,这就要求系统具备模糊识别、多任务整合的能力。

AI向导接口服务通过文心大模型驱动,结合高效的Prompt工程和SFT技术,支持多任务的自然语言理解和处理,能够高效满足泛化场景下的用户需求。

1.1.2 一步操作,极致提效

在传统交互设计中,用户需要多步操作才能完成较为复杂的任务(如搜索地点、规划路线、估算时间等)。

而AI向导接口服务通过语义分析和逻辑推理,将多步骤任务整合为一步执行,大幅提升操作效率。例如,用户仅需一句语音命令即可完成路径规划与时间估算。

1.1.3 多轮交互,搜推一体

在很多情况下,用户的真实需求往往是在多轮对话中逐步明确的。传统地图服务无法有效应对这种动态变化的需求,而AI向导接口服务通过多轮语义交互和实时搜索推荐功能,实现了动态需求的精准满足。

例如,当用户询问“附近 30分钟内还开着的烧烤店”,系统可以通过实时筛选与推荐,将搜索与推荐功能无缝结合。

1.1.4 用户友好型交互设计

在设计上重点关注自然语言的可理解性和响应速度,通过语音或文本输入即可完成复杂操作,同时保持界面简洁明了,符合用户习惯。



1.2 技术能力升级

1.2.1 全局优化,模型能力增强

百度地图的AI智能体通过不断改造,优化了3000+个API接口,确保大模型能够准确理解并高效处理用户需求。这种结构化的接口改造不仅提升了语义解析的精度,还增强了模型对复杂需求的响应能力。

1.2.2 支持全场景服务的技术生态

结合向量库和大模型能力,AI向导接口服务能够支持从基础导航到高级搜索的全场景服务。例如,在文心大模型的支持下,系统能够精准识别用户模糊查询的意图,并结合向量化的历史数据匹配,提供最佳解决方案。



2.技术架构

2.1 地图智能体与大模型的结合



2.1.1 通用的LLM优势

通用的LLM优势主要体现在以下三个方面:

  • RAG方案(检索增强生成):让模型从大量数据中找答案。通过接入百度地图的海量数据,比如地点信息(POI)、道路信息、实时路况等,再经过“定制训练”,让模型更懂得用户关于地图的问题,比如“从这里怎么到最近的商场?”这种自然语言提问。

  • Tool方案(工具化接入):把地图的功能做成工具,模型遇到相关问题时,就调用这些工具。将地图API整理成易用的工具,比如回答“从A到B怎么走”这种问题时,直接用地图提供的路线规划工具,而不是让模型“猜”答案,避免出错。

  • 智能体数据飞轮:类似于一种“自我改进的循环系统”。通过记录用户问题和模型的回答,分析回答质量。遇到用户反馈不理想的情况,快速优化模型,让它下次回答更聪明。比如,用户问“哪条路最快”时,系统发现模型答错了,就会调整优化。

2.1.2 多维度接入方案

多维度接入方案是从数据,到Tool,再到Agent的过程。

  1. 通过RAG接入数据,让模型随时查资料。用RAG技术连接百度地图的数据库,遇到用户提问时,模型会先查地图的最新数据,再回答问题。比如,回答“附近有什么好吃的?”会实时查找附近餐馆信息。

  2. 通过Tool扩展能力,用工具让模型变专业。给模型配备工具,比如路线规划、导航等功能,当用户问“开车去公司要多久?”时,模型就可以调用这些工具计算并给出专业答案。

  3. 通过扩展Agent实现接入,用“智能体”协调数据和工具。构建一个智能体(Agent),作为“管家”,负责调度数据(RAG)和工具(Tool),综合起来为用户提供高效的回答或服务。

2.2 智能记忆与指令推理的融合创新

通过SFT & MOE、原子化COT和混合态多轮推理这三种技术相互支持,让地图智能体更加高效、更加智能。

  1. SFT & MOE解决了性能与资源的优化问题,确保不同任务的高效处理。

  2. 原子化COT提供了复杂问题的精细化解决方案,提升了模型的推理能力。

  3. 混合态多轮推理则优化了多轮交互场景下的用户体验,使得系统更具动态适应的能力。

通过上述技术,地图智能体能够满足复杂多变的用户需求,实现从路径规划到个性化推荐的全场景覆盖。

下面,让我们来具体了解一下这三种技术。

2.2.1 SFT & MOE:权衡效果与性能

SFT(指令微调)和MOE(专家模型路由)用于优化模型的性能和资源使用,通过不同规模的模型动态分配任务。

小尺寸模型适用于高效率低成本的场景,而大尺寸模型则处理复杂度更高的任务。中尺寸模型则在性能与效果之间实现平衡。

  • 技术背景:MOE通过智能化路由机制,将任务分配给特定专家模型,避免了统一大模型对所有任务处理时的资源浪费;SFT通过微调适配特定任务场景,使模型更专注于目标问题。

  • 优势

    • 灵活性高:根据任务需求动态调用不同大小的模型,提升资源利用率。

    • 性能优化:小尺寸模型高效处理简单任务,大尺寸模型聚焦复杂推理,实现性能最大化利用。

  • 应用场景

    • 导航路径规划:小模型处理短路径规划,大模型处理跨城市的复杂交通规则匹配。

    • 实时交互:通过快速切换模型,在高效性与高精度之间实现平衡。



2.2.2 原子化COT:理解并编排原子指令

COT(链式推理)通过将复杂任务分解为多个原子化指令,以任务链的形式逐步解决问题。

原子化设计使得模型可以清晰理解任务的每一步,确保结果的准确性和逻辑性。

  • 技术背景:原子化COT的核心是任务分解和逻辑编排,通过细粒度的任务定义,逐步实现复杂场景的语义推理。

  • 优势

    • 可解释性强:每个原子指令清晰明了,便于调试和错误定位。

    • 复杂任务支持:尤其适合跨模块或多条件限制的场景,如导航规则和动态交通状况结合。

  • 应用场景

    • 跨模式导航:处理如“先乘公交到地铁站,再驾车到目的地”的多模式出行规划。

    • 复杂问题回答:如查询“附近不限行的加油站,并导航到最短路径的加油站”。



2.2.3 混合态多轮推理:理解并选择对应的记忆

混合态多轮推理整合了短期记忆、长期记忆和环境感知,能够动态适应多轮交互中变化的用户需求。

通过综合考虑上下文和用户环境,实现精准的推理和结果输出。

  • 技术背景:短期记忆记录当前对话状态,长期记忆保存用户历史偏好,环境感知实时分析用户位置、时间等信息,三者结合形成动态推理能力。

  • 优势

    • 适应性强:能根据用户动态变化的需求调整推理路径。

    • 用户定制化:结合用户的长期行为数据,实现高度个性化的服务。

  • 应用场景

    • 智能助手:处理多轮对话的复杂问题,如“明天上午10点要到机场,现在该几点出发?”

    • 个性化推荐:基于用户长期喜好,推荐符合其习惯的餐馆、路线等。

3. 接入方案

目前,AI向导接口服务提供SDK和云端API两种接入形式,开发者可以根据具体的业务需求进行选择。

3.1 SDK接入

该方案通过接入百度地图SDK实现与地图服务的集成。

语音输入由大模型控制模块解析后,调用百度地图SDK能力进行地图业务适配。本地系统通过SDK直接调起百度地图功能,例如路径规划、导航启动等,实现结果的实时展示。

3.1.1 方案优势

  1. 功能无缝集成:通过百度地图SDK,能够实现快速发起导航、实时路径规划等核心功能,交互流畅。

  2. 实时性强:地图操作(如导航)通过SDK本地化处理,无需依赖网络,确保了功能的快速响应。

  3. 成熟生态支持:依托百度地图的强大功能和丰富API接口,本地开发与功能扩展更为简单。

  4. 用户体验佳:导航图形界面和操作体验高度优化,适合对实时交互有高需求的场景。



3.1.2 适用场景

  1. 适用于具备实时导航的车辆或智能座舱系统。

  2. 对百度地图的现有功能高度依赖的生态系统。



3.1.3 注意事项

  1. 平台依赖性强:只能接入百度地图,无法与其他地图服务无缝对接,限制了系统的灵活性。

  2. 扩展性不足:在未来场景中,若需接入其他地图服务或上下游系统,可能需较大改造。

  3. 地图功能固定:依赖SDK的功能接口,定制化能力有限。

3.2 云端API接入

该方案通过云端API方式接入百度地图大模型服务。

语音输入经过本地解析后,通过厂商座舱服务与云端交互调用百度地图大模型能力生成结果。结果通过本地模块解析并展示,同时地图功能的实时图形化交互由本地HMI完成。

3.2.1 方案优势

  1. 灵活性强:通过云端API,可以接入百度地图或其他地图服务,支持未来扩展。

  2. 跨平台支持:不局限于百度地图,未来能够无缝对接上下游其他地图服务,适合多品牌或多系统兼容需求。

  3. 定制能力强:通过云端大模型解析,支持复杂语义和多轮交互需求,适合需要高度定制的场景。

3.2.2 适用场景

  1. 适用于具备支持多地图服务的智能系统。

  2. 对实时导航需求较低,但复杂语义处理能力要求较高的场景。

  3. 需要与其他业务系统上下游对接的开放型平台。

3.2.3 注意事项

  1. 缺乏实时导航功能:由于本地不支持SDK,实时导航的图形交互体验较弱,用户需依赖其他显示方式。

  2. 网络依赖性高:云端API的调用需要稳定的网络连接,网络环境不佳可能影响交互体验。

  3. 响应速度较慢:与SDK直接调用相比,云端交互的响应速度可能略低。

3.3 接入方案对比

4.效果展示

介绍了这么多,相信大家已经对AI向导接口服务有了一定的了解,那么实际应用的效果是怎么样的呢?让我们一起来看看吧!

效果展示均来自百度地图最新版测试效果。

4.1 泛搜能力

泛搜能力可以满足用户模糊查询与多样化搜索的需求,通过整合多维信息源,提供高度相关的个性化答案,并结合智能引导,营造探索乐趣,让搜索体验更高效。

4.2 检索问询能力

检索问询能力可以全方位覆盖出行场景,包括「行前」、「行中」、「抵达」,所见即可问、所问即可答。

4.3 自由路线规划能力

自由路线规划能力可以实现包含多途经点的路线规划、定制化路线规划(描述路名/道路特征的路线)、多意图路线随意组合等效果。

4.4 私人行程规划能力

私人行程规划能力可以提供基于权威笔记与真实用户行程的出行攻略,满足用户精准行程规划的需求。



目前,AI向导接口服务已经在一些B端厂商的大模型中应用落地。



·END·

你还想了解哪些技术内容?

快来评论区留言告诉我们吧!

相关文章:

LBS 开发微课堂|AI向导接口服务:重塑用户的出行体验

为了让广大开发者 更深入地了解 百度地图开放平台的 技术能力 轻松掌握满满的 技术干货 更加简单地接入 位置服务 我们特别推出了 “位置服务(LBS)开发微课堂” 系列技术案例 第六期的主题是 《AI向导接口服务的能力与接入方案》 随着地图应…...

AI导航工具我开源了利用node爬取了几百条数据

序言 别因今天的懒惰,让明天的您后悔。输出文章的本意并不是为了得到赞美,而是为了让自己能够学会总结思考;当然,如果有幸能够给到你一点点灵感或者思考,那么我这篇文章的意义将无限放大。 背景 随着AI的发展市面上…...

openstack单机安装

openstack单机安装 网卡配置安装依赖开启虚拟环境修改配置文件 部署openstack部署openstack客户端访问可视化界面Horizon补充 本篇主要讲述Ubuntu2204单机安装openstackstable/2024.2。其他版本的Linux系统或者openstack版本,请参考openstack官网。 网卡配置 需要配…...

Vue3实现小红书瀑布流布局任意组件动态更新页面方法实践

思路 1.首先定义一个瀑布流容器,它的高度暂定(后面会更新)。把需要布局的组件(这里叫做waterfall-item)放在瀑布流容器里面渲染出来。使用绝对定位(position: absolute),把它移到屏幕…...

深度学习项目--基于LSTM的糖尿病预测探究(pytorch实现)

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 前言 LSTM模型一直是一个很经典的模型,一般用于序列数据预测,这个可以很好的挖掘数据上下文信息,本文将使用LSTM进行糖尿病…...

Next.js 实战 (十):中间件的魅力,打造更快更安全的应用

什么是中间件? 在 Next.js 中,中间件(Middleware)是一种用于处理每个传入请求的功能。它允许你在请求到达页面之前对其进行修改或响应。 通过中间件,你可以实现诸如日志记录、身份验证、重定向、CORS配置、压缩等任务…...

python+playwright自动化测试(四):元素操作(键盘鼠标事件)、文件上传

目录 鼠标事件 悬停 移动 按键 点击 滚轮操作 拖拽 键盘事件 输入文本内容 type输入内容 fill输入内容 按键操作press 文件上传 下拉选/单选框/复选框 滚动条操作 鼠标事件 悬停 page.get_by_text(设置,exactTrue).nth(1).hover() 移动 page.mouse.move(x33…...

【论文+源码】Diffusion-LM 改进了可控文本生成

这篇论文探讨了如何在不重新训练的情况下控制语言模型(LM)的行为,这是自然语言生成中的一个重大开放问题。尽管近期一些研究在控制简单句子属性(如情感)方面取得了成功,但在复杂的细粒度控制(如…...

双目立体校正和Q矩阵

立体校正 对两个摄像机的图像平面重投影,使二者位于同一平面,而且左右图像的行对准。 Bouguet 该算法需要用到双目标定后外参(R,T) 从上图中可以看出,该算法主要分为两步: 使成像平面共面 这个办法很直观&#xff…...

vscode 自用插件

vscode按住ctrl鼠标左键无法跟踪跳转方法名,装这些插件就可以 vscode-elm-jump:常规的代码跳转定义 Vue CSS Peek:跳转css定义 vue-helper:变量函数只跳转定义 Vetur 代码提示 Baidu Comate 自动帮你写console.log Turbo Console Log: ctrl alt l 选中变量之后&am…...

OpenCV:在图像中添加高斯噪声、胡椒噪声

目录 在图像中添加高斯噪声 高斯噪声的特性 添加高斯噪声的实现 给图像添加胡椒噪声 实现胡椒噪声的步骤 相关阅读 OpenCV:图像处理中的低通滤波-CSDN博客 OpenCV:高通滤波之索贝尔、沙尔和拉普拉斯-CSDN博客 OpenCV:图像滤波、卷积与…...

DuckDB:Golang操作DuckDB实战案例

DuckDB是一个嵌入式SQL数据库引擎。它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的。DuckDB支持各种数据类型和SQL特性。凭借其在以内存为中心的环境中处理高速分析的能力,它迅速受到数据科学家和分析师的欢迎。在这篇博文中&#xff0…...

MySQL入门(数据库、数据表、数据、字段的操作以及查询相关sql语法)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…...

kotlin的协程的基础概念

Kotlin的协程是一种用于简化异步编程的强大工具。 理解协程的基础概念可以帮助开发者有效地利用其能力。 以下是Kotlin协程的一些关键基础概念: 协程(Coroutines) : 协程是一种用于处理并发任务的编程模型,它可以在单…...

Spring--SpringMVC使用(接收和响应数据、RESTFul风格设计、其他扩展)

SpringMVC使用 二.SpringMVC接收数据2.1访问路径设置2.2接收参数1.param和json2.param接收数据3 路径 参数接收4.json参数接收 2.3接收cookie数据2.4接收请求头数据2.5原生api获取2.6共享域对象 三.SringMVC响应数据3.1返回json数据ResponseBodyRestController 3.2返回静态资源…...

隐藏php版本信息x-powered-by

在生产环境中,并不想让别人知道用的是什么版本的php,可以把x-powered-by隐藏掉 在nginx配置文件加上fastcgi_hide_header X-Powered-By; 如下图所示 配置修改后平滑重启nginx...

哈夫曼树(构建、编码、译码)(详细分析+C++代码实现)

D 哈夫曼树 题目要求 编写一个哈夫曼编码译码程序。针对一段文本,根据文本中字符出现频率构造哈夫曼树,给出每个字符的哈夫曼编码,并进行译码,计算编码前后文本大小。 为确保构建的哈夫曼树唯一,本题做如下限定&…...

C++ 二叉搜索树

目录 概念 性能分析 二叉搜索树的插入 二叉树的查找 二叉树的前序遍历 二叉搜索树的删除(重点) 完整代码 key与value的使用 概念 对于一个二叉搜索树 若它的左子树不为空,则左子树上所有的节点的值都小于等于根节点的值若它的右子树不为空…...

docker构建Java项目镜像常用的Java版本,国内私有仓库公网快速下载,解决从docker.io无法下载的问题

2015工作至今,10年资深全栈工程师,CTO,擅长带团队、攻克各种技术难题、研发各类软件产品,我的代码态度:代码虐我千百遍,我待代码如初恋,我的工作态度:极致,责任&#xff…...

低代码系统-氚云、简道云表单控件对比

组件对比 氚云 简道云 是否都有 1 单行文本 单行文本 ☑️ 2 多行文本 多行文本 ☑️ 3 日期 日期时间 ☑️ 4 数字 数字 ☑️ 5 单选框 单选按钮组 ☑️ 6 复选框 复选框组 ☑️ 7 下拉框 下拉框 ☑️ 8 附件 附件 ☑️ 9 图片 图片 ☑️ 10 地址 地…...

为什么IDEA提示不推荐@Autowired❓️如果使用@Resource呢❓️

前言 在使用 Spring 框架时,依赖注入(DI)是一个非常重要的概念。通过注解,我们可以方便地将类的实例注入到其他类中,提升开发效率。Autowired又是被大家最为熟知的方式,但很多开发者在使用 IntelliJ IDEA …...

Unity在WebGL中拍照和录视频

原工程地址https://github.com/eangulee/UnityWebGLRecoder Unity版本2018.3.6f1,有点年久失修了 https://github.com/xue-fei/Unity.WebGLRecorder 修改jslib适配了Unity2021 效果图 录制的视频 Unity在WebGL中拍照和录视频...

爬虫基础之爬取某站视频

目标网址:为了1/4螺口买小米SU7,开了一个月,它值吗?_哔哩哔哩_bilibili 本案例所使用到的模块 requests (发送HTTP请求)subprocess(执行系统命令)re (正则表达式操作)json (处理JSON数据) 需求分析: 视频的名称 F12 打开开发者工具 or 右击…...

mongoDB常见指令

即使我们自己开发用不到mongoDB,但是接手别人项目的时候,别人如果用了,我们也要会简单调试一下 虽然mongoDB用的不是sql语句,但语句的逻辑都是相似的,比如查看数据库、数据表,增删改查这些 我们下面以doc…...

人工智能之深度学习_[5]-神经网络优化学习率衰减优化正则化方法

文章目录 神经网络入门二3 神经网络优化方法3.1 梯度下降算法回顾3.2 反向传播(BP算法)3.2.1 反向传播概念3.2.2 反向传播详解 3.3 梯度下降优化方法3.3.1 指数加权平均3.3.2 动量算法Momentum3.3.3 AdaGrad3.3.4 RMSProp3.3.5 Adam3.3.6 小结 4 学习率衰…...

Oracle之Merge into函数使用

Merge into函数为Oracle 9i添加的语法,用来合并update和insert语句。所以也经常用于update语句的查询优化: 一、语法格式: merge into A using B on (A.a B.a) --注意on后面带括号,且不能更新join的字段 when matched then upd…...

深度解析:哪种心磁图技术是心脏检查的精准之选?

在全球心血管疾病的阴影日益笼罩的今天,医学界正积极寻求一种无损、无创、无辐射的心脏健康监测方式。心磁图仪(MCG),这一前沿技术,凭借其独特的优势,悄然成为心脏电磁功能监测的新星。它不仅为心肌缺血、心…...

SpringBoot--基本使用(配置、整合SpringMVC、Druid、Mybatis、基础特性)

这里写目录标题 一.介绍1.为什么依赖不需要写版本?2.启动器(Starter)是何方神圣?3.SpringBootApplication注解的功效?4.启动源码5.如何学好SpringBoot 二.SpringBoot3配置文件2.1属性配置文件使用2.2 YAML配置文件使用2.3 YAML配置文件使用2.…...

单片机-STM32 IIC通信(OLED屏幕)(十一)

一、屏幕的分类 1、LED屏幕: 由无数个发光的LED灯珠按照一定的顺序排列而成,当需要显示内容的时候,点亮相关的LED灯即可,市场占有率很高,主要是用于户外,广告屏幕,成本低。 LED屏是一种用发光…...

观察者模式 - 观察者模式的应用场景

引言 观察者模式(Observer Pattern)是设计模式中行为型模式的一种,它定义了对象之间的一对多依赖关系,使得当一个对象的状态发生改变时,所有依赖于它的对象都会自动收到通知并更新。观察者模式广泛应用于事件处理系统…...