当前位置: 首页 > article >正文

CVPR 2023风向解读:多模态与扩散模型如何重塑计算机视觉

1. 从顶会风向标看计算机视觉的“现在进行时”又到了年中盘点的时候对于计算机视觉CV圈子的从业者、学生和研究者来说每年CVPR的论文录用情况就是一张最权威的“技术晴雨表”。它不只是一份论文列表更像是一份关于“过去一年全球最聪明的大脑把精力花在了哪里”的深度报告。今年当我翻完CVPR 2023那长长的录用列表再结合线上线下的讨论热度一个清晰的共识已经形成多模态理解与生成以及扩散模型Diffusion Models毫无悬念地成为了聚光灯下的绝对主角。这不仅仅是两个热门技术点它们共同指向了一个更宏大的趋势视觉智能正从“看懂”走向“创造”从“单模态”走向“多模态协同”。如果你还在埋头优化某个传统检测模型的mAP或者纠结于某个分类网络的最后一个百分点那么是时候抬起头来看看这场正在发生的范式转移了。多模态和扩散模型带来的不仅是新SOTAState-of-The-Art的刷榜工具更是一整套新的问题定义、研究范式和落地可能性。它们让机器开始真正尝试“理解”视觉世界与其他信息如语言、声音的关联并具备了从零开始“创造”逼真、可控视觉内容的能力。这篇总结我不想简单罗列论文标题而是想结合我自己的观察和与同行交流的心得深入聊聊这两个领域为什么“热”它们解决了什么根本问题以及作为从业者我们该如何切入、学习甚至找到自己的创新点。2. 多模态从“感知”到“认知”的关键一跃计算机视觉发展了这么多年在“感知”层面已经取得了惊人的成就物体在哪里检测、是什么分类、怎么动跟踪这些任务在限定场景下已经接近甚至超越人类水平。但人类对世界的理解从来不是孤立的视觉信号处理。我们看到一张“夕阳下的海滩”照片脑中浮现的可能是“温暖”、“宁静”、“度假”这些概念甚至能编出一个关于它的故事。这种将视觉信息与语义、知识、情感关联起来的能力就是多模态学习的核心目标。2.1 核心范式演进从特征拼接到大一统模型早期的多模态研究可以概括为“特征拼接”时代。比如做图文检索Image-Text Retrieval就是分别用CNN提取图像特征用RNN或Transformer提取文本特征然后设计一个损失函数如对比学习损失让匹配的图文特征在向量空间里靠近不匹配的远离。这种方法简单直接但本质上是两个独立模型在“事后”进行对齐模型并没有在底层真正学会视觉概念和语言概念之间的对应关系。CVPR 2023清晰地展示了范式如何转向“大一统建模”。这背后的核心推动力是以CLIP、ALIGN为代表的视觉-语言预训练大模型VLP。今年的大量工作可以看作是在这个大范式下的深度探索与扩展架构统一越来越多的模型采用纯Transformer或基于Transformer的混合架构同时处理图像和文本输入。图像被切分成块Patches作为视觉Token文本被分成词作为文本Token它们被一起送入同一个Transformer编码器。这种设计迫使模型在最早的嵌入层就开始学习跨模态的关联。训练目标统一对比学习Contrastive Learning成为标配预训练任务。但今年我们看到更多“多任务预训练”的融合比如在对比损失的基础上加入掩码语言建模MLM、掩码图像建模MIM、图像-文本匹配ITM等。模型被要求同时完成多个跨模态推理任务从而学习到更鲁棒、更通用的表征。尺度与数据毫无疑问模型变得更大训练数据变得更多、更广。除了标准的图文对数据如LAION-5B视频-文本数据、带有详细标注的指令数据如用于视觉问答VQA的重要性凸显。大家意识到要实现真正的“理解”需要模型接触更复杂、更多样的跨模态关联。注意对于刚入门的研究者不要被“大一统”吓到。一个很好的起点是选择一个特定的下游任务如视觉问答、图文检索然后去复现或微调一个现有的VLP模型如OpenAI的CLIP或开源的BLIP。重点观察预训练好的模型特征在下游任务上到底表现如何微调时是只调分类头还是需要部分或全部调整编码器这能帮你快速建立对多模态模型能力的直觉。2.2 热点任务聚焦超越检索与问答CVPR 2023中多模态的研究热点已经超越了传统的检索和问答向更复杂、更开放式的任务迈进视觉定位Grounding与引用表达理解Referring Expression Comprehension这是“语言驱动视觉”的典型任务。给定一句自然语言描述如“左边那个穿红色衬衫正在打电话的男人”模型需要在图像中定位出对应的区域。今年的进展主要体现在对复杂、长尾描述的更好理解以及从静态图像向视频时序定位的扩展。这要求模型对视觉场景的细节和语言描述的细粒度有极强的对齐能力。视觉语言导航VLN与具身智能Embodied AI这是一个非常前沿的方向让智能体根据自然语言指令如“去厨房拿一个杯子放在餐桌上”在真实或仿真的3D环境中进行导航和交互。CVPR 2023有大量工作关注如何让模型更好地理解空间关系、进行长期规划、以及从交互中学习。这标志着多模态研究从“被动理解”走向“主动交互”。多模态大模型与指令跟随受ChatGPT启发如何构建能“听懂”复杂多模态指令并执行相应任务如生成描述、回答问题、编辑图像的模型成为热点。一些工作探索了如何将视觉编码器与大型语言模型LLM高效结合让LLM获得“视觉能力”从而处理如“描述这张图片并解释其中人物的情绪”这类需要复杂推理的指令。2.3 实操心得数据与评估是真正的挑战在实际研究或项目落地中多模态带来的最大挑战往往不是模型结构而是数据和评估。数据偏见与清洗大规模网络爬取的图文对数据如LAION虽然量大但噪声极大包含大量的社会偏见、错误标注和不安全内容。直接使用可能导致模型学到错误的关联或在生产环境中产生伦理风险。因此数据清洗、过滤和平衡变得至关重要。实践中我们通常会设计多级过滤规则包括关键词过滤、基于CLIP分数的过滤以及必要的人工审核。评估指标的局限性传统的检索用RecallKVQA用准确率但这些指标真的能衡量“理解”吗一个模型可能因为数据偏差而记住了“天空是蓝色的”这种关联从而在相关问题上得分高但它真的理解“天空”和“蓝色”的概念吗社区越来越关注更细粒度、更需要推理的评估基准以及人工评估的重要性。在设计自己的实验时除了报告SOTA指标最好能增加一些案例分析Case Study直观展示模型成功和失败的例子这比单纯的数字更有说服力。3. 扩散模型生成式AI的“新王”如何从理论走向实践如果说多模态让AI学会了“联想”那么扩散模型则让AI学会了“创造”。从DALL-E 2、Stable Diffusion的横空出世到如今各类图像编辑、视频生成应用的遍地开花扩散模型已经彻底改变了生成式AI的格局。CVPR 2023见证了扩散模型从“为什么有效”的理论探索全面转向“如何更好、更快、更可控地使用”的应用创新。3.1 原理速览为什么是扩散模型简单类比扩散模型的训练过程就像教一个学生恢复被逐步涂污的画作。它包含两个过程前向过程加噪对一张清晰的图片逐步添加高斯噪声经过很多步后图片会变成几乎纯随机的噪声。这是一个固定的、无需学习的流程。反向过程去噪模型通常是一个U-Net结构的神经网络需要学习如何从纯噪声开始一步步预测并去除噪声最终恢复出清晰的图片。关键在于在训练时我们给模型看的是某一步的噪声图片以及这一步的噪声强度信息让它预测出我们添加的噪声是什么。学会这个模型就掌握了从噪声分布到数据分布的“逆映射”。其核心优势在于训练稳定相比GAN生成对抗网络难以平衡生成器和判别器的训练扩散模型的目标预测噪声是明确的、可微的训练过程更稳定。生成质量高通过多步迭代去噪生成的图像在细节、多样性和真实性上达到了前所未有的高度。灵活性极强很容易与其他条件如文本、类别、草图、另一张图相结合实现可控生成。3.2 CVPR 2023热点效率、控制与新领域今年关于扩散模型的研究几乎都围绕以下几个核心痛点展开加速采样扩散模型最大的缺点是慢。生成一张图需要几十甚至上百步的去噪迭代。CVPR上出现了大量工作致力于解决这个问题知识蒸馏训练一个更少的步数的学生模型去模仿原始多步模型的输出。改进的求解器设计新的常微分方程ODE或随机微分方程SDE求解器用更少的步数达到相近的质量。一致性模型一种新兴思路旨在学习一个能将任意噪声点直接映射到数据点的“一致性”函数实现一步生成。这类工作理论深度高是当前的前沿。精细控制如何让生成的图像精确符合用户意图这催生了多种条件控制方式文本控制增强改进文本编码器、调整交叉注意力机制让模型更好地遵循复杂、详细的提示词Prompt。空间控制结合深度图、边缘图、语义分割图等精确控制生成物体的布局、形状和位置。ControlNet及其变种是这方面的典范相关研究在CVPR上非常活跃。多概念生成让模型学会同时生成多个特定物体或风格并能将它们组合到同一场景中。超越2D图像扩散模型正在快速渗透到其他视觉领域3D生成从单张图片或文本生成3D模型如NeRF、点云、网格。这是当前最火爆的方向之一它有望彻底改变3D内容创作流程。视频生成从文本或首帧图像生成连贯的视频序列。难点在于保持时间上的一致性主流方法是在图像扩散模型基础上引入时序层。科学计算应用于分子结构生成、气象预测等展示了其作为强大生成先验的潜力。3.3 实操指南如何快速上手并开展研究对于想进入该领域的朋友我的建议是从使用开始不要一上来就啃论文。先去体验用Stable Diffusion WebUI如Automatic1111或ComfyUI实际生成一些图片。尝试不同的模型、提示词、采样器、参数。直观感受“CFG scale”、“采样步数”、“种子”这些参数对结果的影响。这是建立直觉最快的方式。深入一个开源代码库推荐Hugging Face的diffusers库。它封装了主流的扩散模型Stable Diffusion, ControlNet等和采样器代码清晰文档齐全。找一个你感兴趣的官方示例如图像生成、图像编辑把代码跑通然后尝试修改其中的参数甚至替换其中的某个模块如调度器。选择一个小切口进行研究扩散模型领域目前仍然有很多开放问题。例如效率你能设计一个更快的采样器吗或者一个更轻量级的模型架构控制对于某种特定类型的控制信号如手势草图、色彩调色板如何更好地融入模型评估现有的图像生成评估指标FID, IS有哪些缺陷能否提出更符合人类感知的新指标特定领域应用将扩散模型应用到你的专业领域如医学图像生成、艺术创作辅助、电商海报生成解决该领域的特定问题。重要提示扩散模型研究对算力要求极高。训练一个全新的模型可能需要数百个GPU天。对于个人研究者或学生更现实的路径是“微调”和“适配”。利用LoRA、DreamBooth等技术用少量数据对现有大模型进行微调使其适应新的风格或物体这是目前非常实用且热门的方向。4. 多模态与扩散模型的交汇点可控的内容创作多模态和扩散模型并非两条平行线它们最激动人心的交汇点在于“基于语言的可控视觉内容生成”。这正是DALL-E 3、Midjourney等产品背后的核心技术逻辑。CVPR 2023上我们也看到了许多工作在这两个领域的交叉地带进行探索。其技术栈可以粗略分为三层理解层多模态一个强大的视觉-语言模型如CLIP、T5负责深度理解用户的文本指令将其转化为丰富的、结构化的语义表示。这不仅仅是关键词提取还包括理解对象关系、属性、空间布局和整体风格。规划层将语义表示“翻译”成扩散模型能够理解的、更具体的生成条件。这可能包括生成布局草图、深度图、或者将复杂指令分解为多个按顺序执行的生成步骤。执行层扩散模型接收来自规划层的具体条件利用扩散模型强大的生成能力渲染出最终的高保真图像或视频。例如一篇论文可能研究如何让模型理解“一只戴着礼帽、穿着西装、正在骑独轮车的熊猫”这样复杂的描述并生成对应的、符合物理规律和常识的图像。这要求模型同时具备精准的语义解析多模态能力和高质量的图像合成扩散模型能力。对于开发者而言这是一个充满机会的领域。你可以思考在你的垂直场景里如电商、游戏、教育用户需要什么样的内容如何设计更自然的人机交互方式语言、草图、示例图如何将领域知识如服装搭配规则、家具摆放常识注入到这个生成流程中5. 避坑指南新热潮下的冷静思考面对如此火热的研究方向保持清醒的头脑至关重要。以下是我和同行们交流后总结的一些常见“坑”盲目追新忽视基础扩散模型的数学基础随机微分方程、变分推断有一定门槛。如果完全跳过原理只调包调参很难做出有深度的创新。花时间理解DDPM、DDIM等奠基性论文的推导是值得的。算力陷阱很多惊艳的SOTA结果依赖于巨大的计算资源。在设定研究目标时必须充分考虑自己的算力条件。专注于模型效率提升、小样本学习、高效微调等方向往往是更务实的选择。评估过拟合生成模型的评估一直是个难题。FID、IS等指标有其局限性容易过拟合。你的模型可能在某个数据集上FID得分很高但生成的图片就是“不对劲”。一定要结合人工评估、用户调研和详尽的案例分析。忽视伦理与安全无论是多模态还是扩散模型都可能被用于生成虚假信息、深度伪造或带有偏见的内容。在研究和应用中必须主动考虑数据源的清洁度、模型的公平性并探索添加隐形水印、内容溯源等技术。工程化落地困难实验室里的模型到稳定、高效的生产服务有很长的路要走。模型压缩、推理加速、并发处理、成本控制这些都是工程上需要解决的挑战。研究时可以有前瞻性但也要对落地的复杂性有充分预期。6. 学习路径与资源推荐如果你想系统性地进入这两个领域我建议的路径是巩固基础深度学习扎实的PyTorch/TensorFlow编程能力。计算机视觉熟悉CNN、TransformerViT的基本原理。自然语言处理了解Transformer在NLP中的应用BERT, GPT的基本思想。多模态入门经典论文精读CLIP、ALIGN、ViLBERT的论文。实践用Hugging Face Transformers库跑通一个图文检索或VQA的示例。课程斯坦福CS231N视觉、CS224N语言的相关章节。扩散模型入门原理论文DDPM (Ho et al.) 是必读经典。DDIM、Classifier-Free Guidance也是核心。博客Lilian Weng的博客、Jay Alammar的图解都是极好的学习材料。实践安装Stable Diffusion WebUI玩起来。然后阅读diffusers库中Stable Diffusion的官方代码。深入与跟踪论文持续关注arXiv上的新论文特别是CVPR、ICCV、ECCV、NeurIPS、ICLR等顶会。代码多读开源实现如Stable Diffusion官方代码、ControlNet代码理解每一个模块的细节。社区参与Hugging Face社区、GitHub相关项目、Reddit的r/MachineLearning和r/StableDiffusion等论坛的讨论。CVPR 2023清晰地告诉我们计算机视觉的边界正在被极大地拓展。它不再仅仅是关于“识别”更是关于“理解”和“创造”。多模态与扩散模型一个负责打通视觉与其他智能的通道一个负责释放视觉内容的创造力它们共同构成了下一代视觉智能系统的基石。这个领域变化飞快今天的前沿可能明天就成为基础工具。最好的应对方式就是保持好奇动手实践在理解核心原理的基础上找到与自身兴趣或业务结合的那个点深度扎下去。这场由顶会引领的技术浪潮充满了挑战更充满了重塑未来人机交互与内容生产方式的巨大机遇。

相关文章:

CVPR 2023风向解读:多模态与扩散模型如何重塑计算机视觉

1. 从顶会风向标,看计算机视觉的“现在进行时”又到了年中盘点的时候,对于计算机视觉(CV)圈子的从业者、学生和研究者来说,每年CVPR的论文录用情况,就是一张最权威的“技术晴雨表”。它不只是一份论文列表&…...

别再复制粘贴了!深度解析STM32F429的OLED驱动代码,让你的显示更稳定

从能用走向卓越:STM32F429 OLED驱动深度优化实战 在嵌入式开发中,OLED显示屏因其高对比度、低功耗和快速响应等优势,成为许多项目的首选显示方案。然而,很多开发者在使用STM32F429驱动OLED时,往往止步于"能用&quo…...

微信好友关系检测工具完整指南:如何快速发现谁删除了你

微信好友关系检测工具完整指南:如何快速发现谁删除了你 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFriends …...

5个实用技巧:用CaptfEncoder快速搞定网络安全编码任务

5个实用技巧:用CaptfEncoder快速搞定网络安全编码任务 【免费下载链接】CaptfEncoder Captfencoder is opensource a rapid cross platform network security tool suite, providing network security related code conversion, classical cryptography, cryptograp…...

卡尔曼滤波:从噪声数据中提取最优估计的核心算法

1. 项目概述:从“猜”到“算”的智慧如果你曾经尝试过用手机导航,或者玩过需要控制无人机、机器人的游戏,甚至只是好奇自动驾驶汽车是如何“看清”这个世界的,那么你很可能已经间接接触过卡尔曼滤波。这个名字听起来有点高深&…...

对比官方直连体验Taotoken在模型调用稳定性上的差异感受

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比官方直连体验Taotoken在模型调用稳定性上的差异感受 作为一名长期与各类大模型API打交道的开发者,我习惯于直接调用…...

ARM Cortex-M微控制器与瑞萨RA系列开发实战指南

1. 项目概述:从“ARM”到“瑞萨RA”的认知之旅在嵌入式开发的江湖里,如果你还在纠结于8位、16位单片机的选型,或者对“ARM Cortex-M”这个名词感到既熟悉又陌生,那么这篇文章就是为你准备的。我接触过不少从传统8051、AVR转型过来…...

英雄联盟录像编辑终极指南:5分钟掌握免费开源工具League Director

英雄联盟录像编辑终极指南:5分钟掌握免费开源工具League Director 【免费下载链接】leaguedirector League Director is a tool for staging and recording videos from League of Legends replays 项目地址: https://gitcode.com/gh_mirrors/le/leaguedirector …...

从SparseConvTensor到Rulebook:图解spconv稀疏卷积的核心工作流程

从SparseConvTensor到Rulebook:图解spconv稀疏卷积的核心工作流程 稀疏卷积(Sparse Convolution)作为处理3D点云数据的关键技术,正在重塑计算机视觉领域的格局。想象一下,当传统卷积神经网络在密集的2D图像上大展拳脚时…...

别再只盯着RMSE了!MATLAB里这7个模型评价指标,你用对了吗?

别再只盯着RMSE了!MATLAB里这7个模型评价指标,你用对了吗? 在数据建模的世界里,我们常常陷入一个误区:用单一指标评判模型的优劣。就像用一把尺子测量所有物体,RMSE(均方根误差)固然…...

用AI Agent + 亚马逊实时数据API打破大卖家数据垄断:架构设计与完整实现

Tags: Amazon API AI Agent LangChain Python 电商数据 实时数据 难度: 中级 | 阅读时长: 15分钟背景与问题 亚马逊大卖家(年GMV 1000万)的核心竞争优势之一是实时数据能力:每15-30分钟采样竞品BSR、价格、库存&#x…...

2026年光电传感器在不同检测距离中的选型方法与检测距离参数

在自动化产线、物流分拣、包装机械、电子制造等领域,光电传感器的检测距离是选型时最先映入眼帘的参数。然而,很多工程师在实际应用中会发现:标称检测距离为10米的传感器,装上后检测5米的黑色物体就不稳定了;标称0.5米…...

Qt无边框窗口毛玻璃太常见?试试保留原生标题栏的‘高级’模糊方案(附Widget跟随层实现代码)

Qt保留原生标题栏的毛玻璃效果实现方案 在Qt开发中,实现毛玻璃效果通常需要移除窗口边框,但这会牺牲系统原生窗口管理功能。本文将介绍一种创新方案,通过创建跟随主窗口的子Widget来实现毛玻璃效果,同时保留原生标题栏和边框。 1.…...

深入解析OpenWrt启动流程:从Bootloader到procd的完整指南

1. 项目概述与核心价值搞OpenWrt开发,尤其是涉及到系统定制、驱动适配或者故障排查,你迟早会碰到一个绕不开的核心问题:这玩意儿到底是怎么启动的?很多人可能觉得,启动流程嘛,不就是上电、加载内核、跑起来…...

使用AI(龙虾)开发的经验总结

一、使用AI辅助开发的两个核心前提 1.先搞清楚再开口:明确问题边界与目标 在向AI描述问题之前,开发者必须自己先理清整个业务流程、技术上下文和预期目标。这包括: 代码需要改哪里? 明确具体的文件、类、方法或模块。改什么&#…...

基于串口屏的智能油烟机人机交互方案设计与工程实践

1. 项目概述:油烟机交互的“智能革命”在厨房电器这个看似传统的领域,一场关于人机交互的“静默革命”正在发生。如果你拆开一台近两年上市的中高端油烟机,很可能会发现,那块显示着风量、定时、菜谱的屏幕,其核心不再是…...

好想来万店扩张背后的数据新底座

在中国量贩零食行业的版图上,好想来正以雷霆之势重塑市场格局。作为万辰集团旗下的头部品牌,好想来已在全国布局超过 1.5 万家门店,注册会员超过 1.5 亿,年营收突破 365 亿元,成为名副其实的零售巨擘。这些令人瞩目的数…...

RK3562核心板选型与开发实战:从硬件拆解到软件适配

1. 项目概述:为什么是PET_RK3562_CORE? 在嵌入式开发领域,尤其是智能硬件和物联网设备的设计中,核心板的选择往往是决定项目成败、成本控制和技术路线的关键一步。最近几年,基于ARM架构的国产化芯片方案异军突起&#…...

MoocDownloader:三步轻松下载中国大学MOOC课程,实现离线学习自由

MoocDownloader:三步轻松下载中国大学MOOC课程,实现离线学习自由 【免费下载链接】MoocDownloader An MOOC downloader implemented by .NET. 一枚由 .NET 实现的 MOOC 下载器. 项目地址: https://gitcode.com/gh_mirrors/mo/MoocDownloader 你是…...

Video2X:你的AI视频画质修复专家,让老旧视频重获新生

Video2X:你的AI视频画质修复专家,让老旧视频重获新生 【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trendin…...

思源宋体TTF:免费专业中文字体终极使用指南

思源宋体TTF:免费专业中文字体终极使用指南 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为中文排版找不到合适的免费字体而烦恼吗?思源宋体TTF正是你需要…...

NewJob浏览器插件终极指南:3步解决求职信息过时难题

NewJob浏览器插件终极指南:3步解决求职信息过时难题 【免费下载链接】NewJob 一眼看出该职位最后修改时间,绿色为2周之内,暗橙色为1.5个月之内,红色为1.5个月以上 项目地址: https://gitcode.com/GitHub_Trending/ne/NewJob …...

GaussDB GDS 搭建完全指南:从安装到启动,一文搞定数据迁移服务

在进行 GaussDB 跨库数据迁移时,GDS(Gauss Data Service) 是实现外表迁移的核心组件。本文将手把手带你完成 GDS 的下载、安装、配置与启动,确保数据迁移通道畅通无阻。 📎 关联阅读:GaussDB GDS 外表迁移实…...

Fluent模拟火箭发动机喷管?试试用分子动理论定义气体属性,避开数据缺失的坑

火箭发动机喷管仿真中的分子动理论实战:突破高温燃气物性数据困境 当你在Fluent中打开火箭发动机喷管的仿真项目时,面对H2/CO/H2O混合燃气在3000K温度梯度下的物性参数定义,是否曾为找不到可靠数据而抓狂?传统方法需要逐个温度点…...

模力方舟与口袋龙虾:开源中国的AI云端与端侧协同生态解析

本文解析开源中国通过“模力方舟”与“口袋龙虾”平台构建的AI协同生态。该生态旨在解决AI开发与落地中的资源分散与端侧部署难题,为开发者、企业及终端用户提供从云端资源调用到边缘智能部署的一站式通路。核心结论是,这种“云-边-端”协同模式降低了技…...

从零开始在Taotoken模型广场选择并测试最适合的模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 从零开始在Taotoken模型广场选择并测试最适合的模型 当你开始使用大模型时,面对众多厂商和不同能力的模型,…...

力扣17,电话号码的字母组合

class Solution { public: //设置一个map&#xff0c;用来数字与字母比对unordered_map<char, string> _mp{{2,"abc"},{3,"def"},{4,"ghi"},{5,"jkl"},{6,"mno"},{7,"pqrs"},{8,"tuv"},{9,"…...

为你的Hermes Agent项目配置Taotoken作为自定义模型提供商

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 为你的Hermes Agent项目配置Taotoken作为自定义模型提供商 应用场景类&#xff0c;假设你正在使用Hermes Agent框架并希望接入更多…...

5分钟解锁学术付费墙:Unpaywall浏览器扩展让你的研究之路畅通无阻

5分钟解锁学术付费墙&#xff1a;Unpaywall浏览器扩展让你的研究之路畅通无阻 【免费下载链接】unpaywall-extension Firefox/Chrome extension that gives you a link to a free PDF when you view scholarly articles 项目地址: https://gitcode.com/gh_mirrors/un/unpaywa…...

Perplexity认证备考资源严重稀缺!仅开放3个月的模拟题库已限流,速领2024Q3最新版PDF+视频解析

更多请点击&#xff1a; https://codechina.net 第一章&#xff1a;Perplexity认证考试概览与最新动态 Perplexity认证考试是由Perplexity AI官方推出的面向开发者、AI工程师及技术决策者的专业能力评估体系&#xff0c;旨在验证考生在大语言模型原理、提示工程实践、API集成、…...