【深度分析】DeepSeek大模型技术解析:从架构到应用的全面探索
深度与创新:AI领域的革新者
DeepSeek,这个由幻方量化创立的人工智能公司推出的一系列AI模型,不仅在技术架构上展现出了前所未有的突破,更在应用领域中开启了无限可能的大门。从其混合专家架构(MoE)到多头潜在注意力(MLA)机制,每一项技术都如同定向的灯火,照亮了AI未来发展的某一条道路。然而,在这片光与影交织的技术森林中,DeepSeek的出现不仅仅是一场技术革命,更是对当前AI领域成本效益、人才分布以及计算资源管理方式的一次深刻拷问。
我们不禁要问,混合专家架构如何在保持高效率的同时,有效应对计算资源的高度依赖性?无辅助损失负载均衡策略是否能彻底解决模块间的工作分配不均问题,从而使整个系统的性能达到最优?在深度学习的黄金时代,DeepSeek是如何利用FP8混合精度训练在保证训练效果的前提下显著降低成本,是否会成为未来模型训练的新标准?更重要的是,当下的开源战略能否真正推动全球AI技术的平权化,令更多小型企业和独立开发者产生更多创新应用,进而重塑整个行业的竞争格局?这些问题是每一个关注AI发展的人士都会思考的,而答案或许就隐藏在DeepSeek这一系列模型背后的技术逻辑与应用场景之中。
随着技术的不断进步,DeepSeek不仅在自然语言处理、代码生成与编程辅助、多模态数据处理等多个领域内展示了卓越的能力,还因其极高的性价比,成为了众多企业和开发者首选的解决方案。同时,其在相对小规模的团队协作下实现的技术革新,无疑为国内外其他AI初创企业树立了一个标杆。正如马克思所说:“理论是灰色的,而生活之树常青。” DeepSeek的成功或许正预示着,AI领域的发展不仅仅是技术巨头的游戏,小团队也能在特定领域内熠熠生辉。
本文将深入探索DeepSeek大模型的技术架构、应用案例及其在全球AI格局中的地位,同时剖析其面临的挑战和发展趋势。

DeepSeek大模型技术解析:从架构到应用的全面探索
DeepSeek大模型技术架构解析
DeepSeek是由幻方量化创立的人工智能公司推出的一系列AI模型,包括DeepSeekCoder、DeepSeekLLM、DeepSeek - V2、DeepSeek - V3和DeepSeek - R1等,其技术架构拥有诸多创新之处。
混合专家架构(MoE)
MoE架构就像一个有着众多专家的团队,其中每个专家擅长处理某类特定任务。当接收到任务时,模型会把任务分配给最擅长该任务的专家来处理,而不必让所有模块都参与。例如DeepSeek - V2拥有2360亿总参数,但处理每个token时仅210亿参数被激活;DeepSeek - V3总参数达6710亿,但每个输入只激活370亿参数。这样就极大地减少了不必要的计算量,使模型在处理复杂任务时更加快速灵活,同时也降低了对计算资源的需求,提升了计算效率和训练经济性[1]。
基于Transformer架构
Transformer架构是DeepSeek的基础,它类似于超级信息处理器,能够处理各种顺序的信息,涵盖文字、语音等。其核心是注意力机制,就好比人们在阅读长文章时会自动聚焦重要部分一样,Transformer的注意力机制能让模型在处理大量信息时自动聚焦到关键内容,从而理解信息之间的关系,无论这些信息是相隔较近还是较远[1]。
多头潜在注意力(MLA)机制
这是对传统注意力机制的一种升级。在处理长文本例如科研文献、长篇小说时,MLA机制能够更精准地给句子、段落分配权重,从而找到文本的核心含义,不会像传统注意力机制那样容易分散注意力。例如在机器翻译领域对长文档进行翻译时,它能够准确把握每个词在上下文中的意义,从而精准地翻译成目标语言。并且在DeepSeek - V3中,通过低秩联合压缩机制,MLA可以将Key - Value矩阵压缩为低维潜在向量,显著减少内存占用[2]。
无辅助损失负载均衡
在MoE架构中,不同的专家模块可能会出现忙闲不均的情况。而无辅助损失负载均衡策略能够有效解决这个问题,让各个专家模块的工作负担更加均匀,避免出现部分模块负荷过重而其他模块闲置的现象,从而提升了整个模型的性能[1]。
多Token预测(MTP)
传统模型通常是逐个预测token,但DeepSeek的多Token预测技术能够一次预测多个token,就如同人们说话时常常会连续说出几个词来表达一个完整的意思一样。这种方式能让模型的推理速度更快,并且使生成的内容更加连贯[1]。
FP8混合精度训练
在模型训练过程中,数据的精度非常重要。FP8混合精度训练是一种创新的训练方法,能够让模型在训练时采用更适宜的数据精度,在保证训练准确性的基础上减少计算量,节约时间和成本,使得大规模的模型训练变得更加容易,也使得在极大规模模型上进行训练变得可行且有效,如DeepSeek - V3便通过FP8混合精度训练框架验证了这点[2]。
知识蒸馏
其本质上是把大模型学到的知识传递给小模型,如同老师将知识传授给学生。例如DeepSeek - R1通过知识蒸馏,将长链推理模型的能力传授给标准的LLM,从而增强了标准LLM的推理能力[1]。
纯强化学习的尝试
以训练R1 - Zero为例,采用纯强化学习的方式让模型在试错过程中学习。例如在游戏场景中,模型尝试不同的操作,并依据游戏给出的奖励或惩罚来判断自己的对错,逐步找到最佳的操作方法。不过这种训练方式会使得模型输出存在一些问题,像是无休止重复、可读性较差等,但它也为模型训练开启了新的方向[1]。
多阶段训练和冷启动数据
DeepSeek - R1引入了多阶段训练和冷启动数据,这有助于提升模型的性能,但关于具体机制暂时没有更多公开资料阐述其详细原理依旧有待进一步探究[1]。
DeepSeek大模型技术的应用案例
DeepSeek模型因其强大的技术架构,在诸多领域展现出了广泛的应用场景和卓越的性能。
自然语言处理领域
- 智能客服系统开发:某科技公司利用DeepSeek - V3开发智能客服系统,由于DeepSeek - V3在自然语言处理方面有着优秀的表现,能够准确分析并理解用户提问的意图,从而给予高质量的回复,这一应用显著提升了客户满意度,解决了企业客服环节的诸多问题,为企业运营效率提升做出了贡献[7]。
- 长文本分析与摘要:一家法律科技公司使用DeepSeek - V3对海量的法律文档进行分析和生成摘要。得益于该模型对长文本的强大处理能力,如支持长达128K的输入文本,它能有效应对复杂冗长的法律文件,帮助法律从业者快速获取文件的关键信息,在提升案件分析速度、法律检索效率和信息提取效率等方面有着显著的价值[7]。
- 文本翻译:在机器翻译专业领域,利用DeepSeek的多头潜在注意力(MLA)机制能够准确理解源语言文本每个词在上下文中的准确含义,从而能够更精准地将其翻译成目标语言。它不仅仅能处理一般的短文本翻译任务,对于长文档之类的长文本翻译也能表现出优秀的准确性和效率。
代码生成与编程辅助
- 一名开发者使用DeepSeek - V3自动生成Python代码,例如创建一个实现简单计算器功能的代码,这个过程大大减少了开发时间,提高了开发效率。这是因为DeepSeek - V3在代码生成和多语言编程测评中表现优异,展现出强大的代码生成能力,它能够理解编程的逻辑需求并按照要求生成可用的代码段,超越了多个竞争对手,无论是初学者进行基础代码编写,还是经验丰富的开发者用于快速生成代码模板等场景都非常适用[7]。
多模态数据处理
某研究团队利用DeepSeek - V3处理包含图像和文本的数据集,实现了图文内容的自动生成和描述。这得益于DeepSeek - V3采用的混合专家架构,使得它支持高效的多模态数据处理,可以融合图像和文本信息进行深入分析,推动多模态AI应用的发展。这一进展对于需要综合处理图像和文本两种信息的场景意义重大,例如在数字媒体内容创作、智能图像标注等方面有很广阔的应用潜力[7]。
DeepSeek大模型技术的优势与不足
优势
性能强劲
- 精度提升:DeepSeek - V3在训练过程中采用了多头潜在注意力(MLA)和DeepSeekMoE技术,显著提升了模型的性能和精度。像在匈牙利最新高中数学考试测试中,其发布的开源大模型达到65分的高分,超越同量级的LLaMA - 2模型,接近GPT - 4的水平,展现出出色的理解与计算能力,在数学推理方面的表现突出,在其他如推理、编程等领域同样在多个中英文公开评测榜单上表现出色[14]。
- 有效处理长文本:支持长上下文扩展,能够处理长达128K的输入文本,对于长文档处理、长对话场景等非常有利,例如长文本的翻译、长文档内容抽取分析等任务可以在这个模型上得到较好的处理结果。
效率方面
- 计算成本低:混合专家架构(MoE)通过选择性地激活参数降低了计算成本,如DeepSeek - V3总参数6710亿但每个输入只激活370亿参数。多Token预测(MTP)使推理速度更快,FP8混合精度训练既保证训练准确性又减少计算量,这些技术共同作用使得DeepSeek大模型在处理任务时计算效率高、成本低。像DeepSeek - R1的基座模型训练成本较低,一次完整训练只需要550万美元,每次生成只需要激活相对较少的参数,降低了对计算资源的需求,提高了计算效率[19]。
- 预训练优势:部分模型在包含2万亿个中英文token的数据集上进行了预训练,这使得模型能够深入学习多种语言知识,提升了模型语言处理方面的泛化能力,从而能够适应多种语言任务和复杂的语言语境,例如机器翻译、多语言文本生成等任务中,模型能够表现出较好的适应性和准确性。
灵活性与扩展性
- 灵活的模型架构:模型提供不同参数版本,例如提供70亿和670亿两个参数版本的基础模型和指令微调模型,用户可以根据实际使用场景的需求进行合适版本的选择。在功能上也集成多种能力,如DeepSeek2.5集成了DeepSeek - V2 - Chat和DeepSeek - Coder - V2 - Instruct的功能,增强了通用语言能力和编码功能,适用于各种应用场景[21]。
- 开源且应用广泛:所采用的MIT许可协议完全开源且不限制商用,开发者能根据自身需求定制和优化模型,并部署到自己的服务器上。这一特性有助于技术在全球范围内的快速传播和共享,例如已经有不少人通过公开技术路线成功复现测试结果,推动了各项应用的发展,从自然语言处理到多模态数据处理等领域都有涉及,应用场景覆盖智能客服、代码开发、多模态内容创作等多个方向。还可以激励本土人才投身人工智能研发,打破高科技人才被西方垄断的局面,为人工智能领域注入新活力。
不足
算力与资源依赖
- 随着任务复杂程度不断增大或数据规模持续增加,AI算力需求不断提升,当前虽然计算效率有所提升,但依旧需要强大的硬件支持以满足大规模数据处理需求。并且在AI算力日益增长的需求下,如何有效管理和优化计算资源仍然是待解决的问题,以确保模型可以持续稳定地运行并发挥最佳性能[17]。
人才竞争压力
- 在技术人才的竞争方面面临挑战,尽管DeepSeek在用人逻辑上与其他大模型公司差异不大,但由于其年轻高潜的人才标准,使得在吸引市场上优秀人才时竞争愈发激烈,而人工智能领域的技术研发高度依赖高水平的专业人才,这在一定程度上可能影响其研发和创新的速度及深度[13]。
DeepSeek大模型技术与其他模型的对比
与OpenAI的对比
- 成本和商业化方面:从大的技术路线来说,DeepSeek和OpenAI公司的ChatGPT一样采用混合专家模型架构预训练和强化学习后训练,但在具体工程实现上有不同。如DeepSeek - R1推理成本较低、速度较快,且对个人用户免费,其他企业或开发者调用DeepSeek - R1接口的成本也只是OpenAI公司同类产品的几十分之一。公开资料显示DeepSeek - R1的基座模型训练成本较低,一次完整训练只需要550万美元,相比之下OpenAI的训练成本相对较高。这一成本优势可能会吸引更多的用户和开发者选择DeepSeek的模型,使得其在商业竞争和市场抢占方面占据一定的优势地位,也可能促使竞争对手重新审视自己的商业模式和成本结构[19]。
- 性能与用户体验方面:温颖表示就使用感受而言OpenAI的o1pro和DeepSeek - R1性能整体差不多,在有些领域各有千秋。但DeepSeek - R1免费、速度更快,某种程度上为用户提供了更具性价比的选择。此外在技术的开源性上,DeepSeek的模型权重和技术报告完全开源,而OpenAI的模型相对更加闭源,DeepSeek的开源模式有助于全世界技术平权和进步,对开发者和研究人员更加友好,有利于更多的创新和技术发展探索基于它开展[19]。
与Claude和GPT - 4的对比
- 成本效益对比:在成本效益方面,与Claude和GPT - 4模型相比具有更大的优势。例如DeepSeek2.5比Claude3.5Sonnet定价低21倍,比GPT - 4o低17倍,但依然能展示出不输于这些顶尖闭源模型的能力,特别是在代码生成方面,DeepSeek2.5表现出色并且性价比极高。如果将其用于代码编写等任务,相比Claude和GPT - 4能够以更低的成本获取不错的效果,这在开发预算有限的情况下对开发者具有很大的吸引力,在商业化应用场景中,成本效益高的特点可以让企业以更低投入获取相同收益从而降低运营成本[21]。
- 性能基准:DeepSeek - V3在聊天机器人竞技场(ChatbotArena)上排名第七,在开源模型中排名第一,可看出其性能处于较高水平。并且其在数学、代码处理和自然语言推理等多个任务上的表现,已与GPT - 4o和Claude - 3.5 - Sonnet等国际顶尖模型平分秋色。虽然这些模型各自在特定任务上有优势,但DeepSeek正不断缩小与它们的差距,并且凭借其开源、成本效益等方面的优势在市场上形成自身的竞争力,为开发者、企业和研究人员提供了更多的选择空间,偏离了传统一味追求性能而忽视成本的模式[25]。
DeepSeek大模型技术的未来发展趋势
技术优化方向
计算资源管理提升
随着AI算力需求的进一步增长,DeepSeek大模型需要在计算资源管理上不断进行优化。这包括更好地进行算法优化,以减少在处理海量数据时的计算负担,同时提高数据的处理速度。例如进一步改进FP8混合精度训练等机制,以降低在大规模模型训练和推理阶段对硬件(如GPU等)的依赖程度,使得模型能够在更加复杂的数据和任务场景下保持高效运行,同时减少计算资源的浪费,降低整体成本。
强化人才竞争力
为了应对技术人才竞争激烈的局面,DeepSeek可能会在人才吸引、培养和留住方面下更大的功夫。一方面可能会加大在高校或科研机构的合作投入,通过设立奖学金、联合研究项目等方式吸引年轻高潜人才的加入。另一方面可能会建立更加完善的人才培养体系,营造良好的科研环境和职业发展空间,以提高人才的忠诚度和归属感,确保有足够的高质量人才储备来支撑技术的研发和创新,探索新的技术升级方向。
应用拓展前景
多领域深入渗透
当前DeepSeek大模型已经在自然语言处理、代码生成、多模态数据处理等领域展现出了应用潜力,但未来有望在更多领域深入渗透。在医疗领域,可用于辅助疾病诊断、医疗数据分析等,通过对大量的医疗文本数据进行分析处理,为医生提供疾病诊断的参考建议或者帮助分析病情发展趋势。在金融领域,可以用于风险预测、投资策略分析等,对金融市场的历史数据进行挖掘和分析,预测市场风险和收益情况,为投资者提供更好的投资决策依据等。
跨领域融合创新
除了深入到各个单独的领域,还有望实现跨领域的融合创新。例如将自然语言处理与物联网技术融合,在智能家居领域实现更加智能化的语音交互,用户可以通过自然语言轻松控制家居设备并得到设备状态等相关信息;或者把多模态数据处理和智能交通结合起来,利用图像和文本信息对交通路况、车辆状态等进行实时分析判断,为交通调度和自动驾驶提供更全面准确的数据支持等。
开源战略对产业的影响
推动全球人工智能发展
DeepSeek的开源战略(采用MIT许可协议完全开源,不限制商用)对人工智能产业有着深远的影响。随着越来越多的开发者和研究人员能够获取并使用其技术,将在全球范围内加速人工智能技术的创新和传播。更多人可以基于DeepSeek的成果进行二次开发,可能会产生更多优秀的分支模型或者是全新的技术应用方向,无论是对于小的初创团队还是大型企业的科研部门,都提供了一个相对平等的机会去探索人工智能的前沿应用。
改变产业竞争格局
开源的DeepSeek大模型已经降低了开发利用大模型的门槛,意味着初创公司有机会与互联网巨头竞争,这会促使更多的企业进入到人工智能和大模型的竞争赛道中,打破现有的由少数巨头主导的产业格局,增加产业的竞争活力。对于既有企业来说,需要重新思考自己的竞争优势和发展战略,推动整个产业朝着更加多元、创新、高效的方向发展。
DeepSeek大模型技术的开发团队与背景
开发团队
DeepSeek是由幻方量化创立的人工智能公司推出的一系列AI模型。幻方量化是一家在中国量化投资领域具有较高知名度的企业。DeepSeek的开发团队人数不到140人,在创造这一系列成果过程中,团队成员凭借自身坚实的技术功底和创新能力,精心打造了从模型架构到算法优化等每个环节的技术要素,使得DeepSeek大模型在如此小的团队规模下脱颖而出并取得成功,这在人工智能领域的大模型研究开发进程中也是比较罕见的情形[1]。
背景
行业发展激励创新
当前全球人工智能迅速发展的大背景下,尤其是大模型成为研究焦点领域之后,行业竞争愈演愈烈。在这种背景下,幻方量化凭借自身的实力和在数据、算法等方面的积累投入到大模型的开发研究当中。一方面,整个行业在自然语言处理、计算机视觉等多个领域展示出的巨大潜力激励着幻方量化探索自己的人工智能之路;另一方面,市场对高效、高性能的人工智能模型有非常强烈的需求,这也为DeepSeek大模型的开发提供了原生动力。
中国AI发展环境的孕育
在中国人工智能快速发展的宏观环境的孕育下,存在足量的技术人才储备、相对完善的科研设施以及行业政策支持等多方面的优势。中国本土培养的人才成为了DeepSeek团队的主力军,团队成员清一色来自国内高校,反映出中国教育体系为人工智能产业提供了高质量的人才基础。此外,国家对于人工智能产业发展的重视在政策导向、科研经费投入、创新项目扶持等方面给予了积极的推动作用,这也在一定程度上为DeepSeek大模型的研发提供了良好的发展土壤[15]。
参考资料:
1. DeepSeek原理介绍|调用|大模型 网易 [2025-01-27]
2. DeepSeek 发展历程|负载|推理|原理|大模型|deepseek www.163.com [2025-01-27]
3. DeepSeek大模型:美国科技圈的关注与竞争背后的故事 搜狐 [2025-01-27]
4. DeepSeek大模型:引领AI技术新潮流的中国力量 手机搜狐 [2025-01-27]
5. AMD集成火爆全球的DeepSeek大模型,为你梳理最全DeepSeek题材... 同花顺财经股票频道 [2025-01-26]
6. Meta成立研究小组深入分析国产大模型DeepSeek,以优化Llama模型... DoNews [2025-01-27]
7. DeepSeek大模型:影响力、竞争与未来展望 东方财富网财富号 [2025-01-27]
8. DeepSeek首次比肩国外顶尖大模型,带来哪些启示? 新浪看点 [2025-01-28]
9. 马斯克盛赞:这份DeepSeek剖析堪称一绝! 网易 [2025-01-28]
10. 涂鸦智能集成DeepSeek大模型能力,激活全球AI硬件开发者新商机 同花顺财经股票频道 [2025-01-27]
11. DeepSeek 模型:架构创新与实际应用详解 CSDN博客频道 [2025-01-10]
12. 英媒:DeepSeek最新开源模型将推动人工智能技术应用 新华网 [2025-01-29]
13. DeepSeek刷屏:国产大模型崛起,用户热议背后的秘密 新浪财经 [2025-01-28]
14. DeepSeek横空出世!中国大模型撼动全球AI格局。关联概念股票 今日头条 [2025-01-26]
15. 国产AI DeepSeek引发Meta恐慌:大语言模型的未来已来! 手机搜狐 [2025-01-25]
16. DeepSeek-V3性能优越且成本较低 中国大模型助力AI技术更开放更高效 www.kczg.org.cn [2025-01-16]
17. DeepSeek开源模型R1:引领AI技术应用革命的新浪潮 搜狐 [2025-01-28]
18. 大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南 CSDN博客频道 [2024-08-20]
19. DeepSeek开源大模型新突破:数学推理能力领跑AI领域 百度开发者中心 [2024-08-16]
20. DeepSeek对人工智能和大模型的影响主要体现在以下方面:技术创新方面 caifuhao.eastmoney.com [2025-01-29]
21. AI行业新星DeepSeek崛起:低成本大模型挑战硅谷巨头 搜狐 [2025-01-26]
22. 被国产大模型DeepSeek超越,ChatGPT表示:排名变化也许是暂时的 证券之星财经频道 [2025-01-27]
23. DeepSeek崛起:AI大模型训练成本革命与英伟达面临的挑战 简书 [2025-01-27]
24. 传DeepSeek拥有5万个英伟达AI芯片 领先模型挑战美国优势 中华网 [2025-01-27]
25. DeepSeek对佳都大模型可能产生以下几方面影响:技术启发 东方财富网财富号 [2025-01-29]
26. 中国DeepSeek大模型:引领全球AI新潮流的 神秘力量 手机搜狐 [2025-01-27]
27. 大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT CSDN博客频道 [2024-10-08]
28. 大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT CSDN博客频道 [2024-12-27]
29. 国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级 CSDN博客频道 [2024-07-03]
30. DeepSeek对人工智能和大模型的影响主要体现在以下方面:技术创新... 东方财富网财富号 [2025-01-29]
31. AI界的拼多多:DeepSeek推出新款大模型,水平如何? 搜狐 [2024-12-27]
32. 被国产大模型DeepSeek超越,ChatGPT表示:排名变化也许是暂时的 新浪看点 [2025-01-27]
33. 跑分性能比肩GPT-4o?大模型价格 屠夫 DeepSeek发布最新开源... 网易 [2024-06-18]
34. 国产大模型DeepSeek-V3火爆全球,671B的MoE,训练成本仅558万... 网易 [2024-12-27]
35. 英伟达DeepSeek:推动人工智能技术的革命性进步 搜狐 [2025-01-28]
36. DeepSeek AI大模型发布:改变未来人工智能格局的黑马 搜狐 [2025-01-25]
37. 中国AI初创企业DeepSeek引发全球热议:显现大模型创新新趋势 搜狐 [2025-01-27]
38. 周鸿祎谈DeepSeek:市场严重低估其技术能力和未来前景 腾讯新闻 [2025-01-26]
39. 大模型时代:DeepSeek与阿里Qwen显著崭露头角 搜狐 [2024-12-30]
40. 2024年大模型行业全景复盘:DeepSeek如何打破GPT-4垄断? 搜狐 [2025-01-02]
41. 雷军挖角的AI天才少女来自DeepSeek:开源大模型关键开发者之一 ZAKER [2025-01-27]
42. 令美国的头疼的DeepSeek,创始人说漏嘴,背后团队果然不简单!|deepseek m.163.com [2025-01-27]
43. 超越ChatGPT,中国 神秘力量 火爆全球 搜狐 [2025-01-27]
44. 雷军挖角的AI天才少女来自DeepSeek:开源大模型关键开发者之一 t.cj.sina.com.cn [2025-01-27]
45. GPT-4下岗了,上海高校和企业用DeepSeek开发大模型和智能体 东方财富财经频道 [2025-01-29]
46. DeepSeek开源大模型开发者之一罗福莉将加盟小米 www.aibase.com [2024-12-23]
47. 一文读懂|关于DeepSeek公司及其大模型 www.toutiao.com [2025-01-27]
48. DeepSeek团队都来自国内顶尖高校,核心成员是应届生,才女罗福莉参与了开发 www.toutiao.com [2025-01-27]
49. DeepSeekAI开源国产第一个混合专家技术的大模型:DeepSeekMoE t.cj.sina.com.cn [2024-01-11]
相关文章:
【深度分析】DeepSeek大模型技术解析:从架构到应用的全面探索
深度与创新:AI领域的革新者 DeepSeek,这个由幻方量化创立的人工智能公司推出的一系列AI模型,不仅在技术架构上展现出了前所未有的突破,更在应用领域中开启了无限可能的大门。从其混合专家架构(MoE)到多头潜…...
conda配置channel
你收到 CondaKeyError: channels: value https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main not present in config 错误是因为该镜像源(https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main)可能没有被正确添加到 Conda 的配置文件中&…...
wordpress每隔24小时 随机推荐一个指定分类下的置顶内容。
在WordPress中实现每隔24小时随机推荐一个指定分类下的置顶内容,可以通过以下步骤实现: 1. 创建自定义函数 在主题的functions.php文件中添加以下代码,用于创建一个定时任务,每隔24小时随机选择一个置顶文章并存储到选项中&…...
python学opencv|读取图像(五十五)使用cv2.medianBlur()函数实现图像像素中值滤波处理
【1】引言 在前述学习过程中,已经探索了取平均值的形式进行图像滤波处理。 均值滤波的具体的执行对象是一个nXn的像素核,对这个像素核内所有像素点的BGR值取平均值,然后把这个平均的BGR值直接赋给像素核中心位置的核心像素点,由…...
OpenAI 再战机器人领域,重组机器人团队
OpenAI重组机器人团队?大家是不是和小编一样,听到这个消息后,脑子里瞬间浮现出科幻电影里机器人满街跑的场景?今天咱们就来看看背后的故事吧~ 作为人工智能领域的领头羊,OpenAI一直以来都在探索和扩展AI技术的深度和广…...
Turing Complete-1位开关
要求如下: 我的思考: 把输入1当作控制信号,把输入2当作输出信号。 通过非门和开关使输入2形成双通道输出, 通道一为输出输入2取反。 通道二为输出输入2本身。 通过输入1来控制两个通道的开闭。...
预防和应对DDoS的方法
DDoS发起者通过大量的网络流量来中断服务器、服务或网络的正常运行,通常由多个受感染的计算机或联网设备(包括物联网设备)发起。 换种通俗的说法,可以将其想象成高速公路上的一次突然的大规模交通堵塞,阻止了正常的通勤…...
树莓派pico入坑笔记,睡眠
关于树莓派pico和circuitpython的更多玩法,请看树莓派pico专栏 关于在 CircuitPython 中使用警报和浅/深度睡眠的更多信息,请参阅此学习指南。 树莓派pico支持浅睡眠和深度睡眠,其中深度睡眠唤醒后将从boot.py开始运行 支持按时间唤醒和引…...
高并发、高可用的消息队列(MQ)设计与实战
目录 背景与历史消息队列的核心功能高并发、高可用的业务场景消息队列的实用性企业规模与消息队列的选择Java实战案例:基于RabbitMQ的高并发、高可用消息队列 6.1 环境准备6.2 RabbitMQ的安装与配置6.3 Java客户端集成6.4 生产者与消费者实现6.5 高并发处理6.6 高可…...
数据库 - Sqlserver - SQLEXPRESS、由Windows认证改为SQL Server Express认证进行连接 (sa登录)
本文讲SqlServer Express版本在登录的时候, 如何由Windows认证,修改为Sql Server Express认证。 目录 1,SqlServer Express的Windows认证 2,修改为混合认证 3,启用sa 用户 4,用sa 用户登录 下面是详细…...
二分基础两道
Leetcode704: 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 示例 1: 输入: nums [-1,0,3,5,9,12], target 9 输出:…...
编程AI深度实战:AI编程工具哪个好? Copilot vs Cursor vs Cody vs Supermaven vs Aider
系列文章: 编程AI深度实战:私有模型deep seek r1,必会ollama-CSDN博客 编程AI深度实战:自己的AI,必会LangChain-CSDN博客 编程AI深度实战:给vim装上AI-CSDN博客 编程AI深度实战:火的编程AI,都在用语法树(AST)-CSDN博客 编程AI深度实战:让verilog不再是 AI …...
鸿蒙HarmonyOS Next 视频边播放边缓存- OhosVideoCache
OhosVideoCache 是一个专为OpenHarmony开发(HarmonyOS也可以用)的音视频缓存库,旨在帮助开发者轻松实现音视频的边播放边缓存功能。以下是关于 OhosVideoCache 的详细介绍: 1. 核心功能 边播放边缓存:将音视频URL传递给 OhosVideoCache 处理后…...
中间件漏洞之CVE-2024-53677
目录 什么是struts?CVE-2024-53677简介影响版本复现环境搭建漏洞利用修复 什么是struts? 在早期的 Java Web 开发中,代码往往混乱不堪,难以维护和扩展。比如,一个简单的用户登录功能,可能在不同的 Java 类…...
Python玄学
过年期间无聊的看了看DY直播,也是迷上玄学了。突然想着为啥要自己掐指算,我这🐷脑哪记得到那么多东西啊。然后,就捣鼓捣鼓了一些玩意儿。留个纪念。 注:就是一个玄学推动学习,部分内容不必当真,…...
16.1.STM32F407ZGT6-CAN基础概念
参考: https://blog.csdn.net/sunlight_vip/article/details/128639144 前言: 学习总结CAN的知识点: 1.can是什么,历史由来和背景 2.can的物理层,链路层 3.初始化的流程和关键点 4.波特率怎么设置 5.can id怎么过滤 6…...
记忆化搜索和动态规划 --最长回文子串为例
记忆化搜索 记忆化搜索是一种优化递归算法的方法,通过将已经计算过的子问题的结果存储起来(通常使用哈希表或数组),避免重复计算相同的子问题。 本质上是通过缓存中间结果来减少计算的重复性。 动态规划 动态规划是通过将问题分…...
【论文笔记】Fast3R:前向并行muti-view重建方法
众所周知,DUSt3R只适合做稀疏视角重建,与sapnn3r的目的类似,这篇文章以并行的方法,扩展了DUSt3R在多视图重建中的能力。 abstract 多视角三维重建仍然是计算机视觉领域的核心挑战,尤其是在需要跨不同视角实现精确且可…...
cf div3 998 E(并查集)
E : 给出两个简单无向图 (没有重边和自环)f g . 可以对f 进行 删边 和加边 的操作。问至少操作多少次 ,使得 f 和 g 的 点的联通情况相同(并查集的情况相同) 首先思考删边 : 对于 我 f 图存在边 e &#x…...
使用VCS对Verilog/System Verilog进行单步调试的步骤
Verilog单步调试: System Verilog进行单步调试的步骤如下: 1. 编译设计 使用-debug_all或-debug_pp选项编译设计,生成调试信息。 我的4个文件: 1.led.v module led(input clk,input rst_n,output reg led );reg [7:0] cnt;alwa…...
Pyside6异步通信测试
#第一种方式,借助qasync实现。使用pip install qasync安装。 from PySide6.QtWidgets import * from PySide6.QtCore import * from PySide6.QtGui import * import asyncio from qasync import QEventLoop, asyncSlotclass Form(QWidget):def __init__(self,paren…...
[ESP32:Vscode+PlatformIO]新建工程 常用配置与设置
2025-1-29 一、新建工程 选择一个要创建工程文件夹的地方,在空白处鼠标右键选择通过Code打开 打开Vscode,点击platformIO图标,选择PIO Home下的open,最后点击new project 按照下图进行设置 第一个是工程文件夹的名称 第二个是…...
如何使用 DeepSeek API 结合 VSCode 提升开发效率
引言 在当今的软件开发领域,API 的使用已经成为不可或缺的一部分。DeepSeek 是一个强大的 API 平台,提供了丰富的功能和数据,可以帮助开发者快速构建和优化应用程序。而 Visual Studio Code(VSCode)作为一款轻量级但功…...
自定义数据集 ,使用朴素贝叶斯对其进行分类
数据集定义: - data 列表包含了文本样本及其对应的情感标签。每个元素是一个元组,第一个元素是文本,第二个元素是标签。 特征提取: - 使用 CountVectorizer 将文本转换为词频向量。 fit_transform 方法在训练数据上拟合向量器…...
Flutter使用Flavor实现切换环境和多渠道打包
在Android开发中通常我们使用flavor进行多渠道打包,flutter开发中同样有这种方式,不过需要在原生中配置 具体方案其实flutter官网个了相关示例(https://docs.flutter.dev/deployment/flavors),我这里记录一下自己的操作 Android …...
C# lock使用详解
总目录 前言 在 C# 多线程编程中,lock 关键字是一种非常重要的同步机制,用于确保同一时间只有一个线程可以访问特定的代码块,从而避免多个线程同时操作共享资源时可能出现的数据竞争和不一致问题。以下是关于 lock 关键字的详细使用介绍。 一…...
C# 接口介绍
.NET学习资料 .NET学习资料 .NET学习资料 一、接口的定义 在 C# 中,接口是一种特殊的抽象类型,它定义了一组方法签名,但不包含方法的实现。接口使用interface关键字来声明。例如,定义一个表示形状的接口IShape: in…...
第三周 树
猫猫和企鹅 分数 10 全屏浏览 切换布局 作者 姜明欣 单位 河北大学 王国里有 nn 个居住区,它们之间有 n−1 条道路相连,并且保证从每个居住区出发都可以到达任何一个居住区,并且每条道路的长度都为 1。 除 1号居住区外,每个居…...
OpenAI 实战进阶教程 - 第四节: 结合 Web 服务:构建 Flask API 网关
目标 学习将 OpenAI 接入 Web 应用,构建交互式 API 网关理解 Flask 框架的基本用法实现 GPT 模型的 API 集成并返回结果 内容与实操 一、环境准备 安装必要依赖: 打开终端或命令行,执行以下命令安装 Flask 和 OpenAI SDK: pip i…...
Nginx 中文文档
文章来源:nginx 文档 -- nginx中文文档|nginx中文教程 nginx 文档 介绍 安装 nginx从源构建 nginx新手指南管理员指南控制 nginx连接处理方法设置哈希调试日志记录到 syslog配置文件测量单位命令行参数适用于 Windows 的 nginx支持 QUIC 和 HTTP/3 nginx 如何处理…...
