「AI学习笔记」深度学习的起源与发展:从神经网络到大数据(二)

深度学习(DL)是现代人工智能(AI)的核心之一,但它并不是一夜之间出现的技术。从最初的理论提出到如今的广泛应用,深度学习经历了几乎一个世纪的不断探索与发展。今天,我们一起回顾深度学习的历史,看看它如何从简单的神经网络起步,一步步发展成今天改变世界的技术。
1. 神经网络的诞生:从“模仿大脑”开始
深度学习的起点可以追溯到20世纪40年代。当时,沃伦·麦卡洛克(Warren S. McCulloch)和沃尔特·皮茨(Walter Pitts)通过发表论文《A logical calculus of the ideas immanent in nervous activity》,首次将数学与神经学结合,提出了一种基于神经网络的计算机模型。这一模型灵感来源于我们大脑中的神经元网络,他们尝试通过算法设定“阈值”,模拟信息如何在神经元之间传递。
紧接着,在1958年,弗兰克·罗森布拉特(Frank Rosenblatt)发表了《感知器:一种感知与识别的自动装置》一文,提出了现代神经网络的雏形——感知器。虽然感知器结构简单,但它是神经网络的最初模型,被认为是深度学习的祖先。
2. 神经网络的核心:反向传播算法
神经网络的发展并没有一帆风顺。到了1960年代,虽然神经网络有了初步的构建,但仍面临很多困难。直到20世纪80年代,深度学习的突破性进展才真正发生。当时,戴维·鲁梅尔哈特(David Rumelhart)、杰弗里·辛顿(Geoffrey Hinton)和罗纳德·威廉姆斯(Ronald Williams)提出了反向传播(Backpropagation)算法,这一算法成为了深度学习的核心。
反向传播的基本思想是,通过不断地调整神经网络各层的“权重”来减少误差,从而提高模型的准确性。反向传播的出现使得神经网络能够通过多个层次的“学习”来不断优化,从而能够更加精准地完成任务。
在此之前,神经网络模型主要是前馈型(Feedforward),即数据只在神经网络中单向流动。但反向传播的引入,使得神经网络能够双向学习,从输入到输出的过程不再是单向的,而是能根据过去的错误不断调整,从而提高学习效果。

3. AI寒冬与反复发展的曲折历程

尽管反向传播算法带来了巨大的技术突破,但深度学习的发展并非一帆风顺。从60年代到80年代,神经网络的研究经历了一个停滞期,也就是所谓的“AI寒冬”。主要的原因是缺乏足够的数据和资金支持。虽然模型的理论在不断发展,但没有足够的实践应用支持这些模型的成长,研究人员也无法获得足够的数据来训练和验证这些模型。
4. 长短期记忆网络(LSTM):突破时间序列的限制

深度学习的另一个重大突破发生在1997年,赛普·霍赫赖特(Sepp Hochreiter)和尤尔根·施密德胡伯(Jürgen Schmidhuber)提出了长短期记忆网络(LSTM)。LSTM有效地解决了传统递归神经网络(RNN)无法处理长时间序列的问题。
LSTM的核心创新在于它能够处理时间序列数据中的长时间依赖关系,这对于处理如语言生成、语音识别等问题至关重要。通过LSTM,深度学习模型能够记住更长时间的数据,从而提升了处理时序问题的能力。例如,LSTM能够帮助模型在自动补全句子的过程中理解时间顺序,而传统的神经网络则很难做到这一点。
5. 数据驱动与深度学习的未来

如今,深度学习依赖海量的数据进行训练。神经网络需要大量的实例来区分不同的事物,例如区分狗和马。这种数据驱动的方式虽然与我们大脑的学习方式有所不同(比如小孩很少需要通过反复的提醒来区分狗和马),但随着技术的发展,深度学习模型正在朝着需要更少数据的方向发展。
目前,虽然我们能够获取大量数据来训练深度学习模型,但未来的目标是实现能够在较少数据下进行训练的深度学习模型。这将使得深度学习更加高效,也能更好地解决实际应用中的问题。
总结:深度学习的辉煌历程
回顾深度学习的发展历程,我们可以看到,从最初的神经网络模型到反向传播的引入,再到LSTM的突破,深度学习经历了多次技术革命。如今,深度学习不仅在语音识别、图像处理、自然语言处理等领域取得了巨大的成功,还在不断演化,朝着更智能、更高效的方向发展。
对初学者而言,了解深度学习的历史不仅能够帮助我们更好地理解今天的技术进展,也能为未来的学习和应用打下坚实的基础。随着技术的不断进步,深度学习将在更多的领域展现出巨大的潜力,未来充满了无限的可能。
相关文章:
「AI学习笔记」深度学习的起源与发展:从神经网络到大数据(二)
深度学习(DL)是现代人工智能(AI)的核心之一,但它并不是一夜之间出现的技术。从最初的理论提出到如今的广泛应用,深度学习经历了几乎一个世纪的不断探索与发展。今天,我们一起回顾深度学习的历史…...
【漫话机器学习系列】069.哈达马乘积(Hadamard Product)
哈达马乘积(Hadamard Product) 哈达马乘积(Hadamard Product)是两个矩阵之间的一种元素级操作,也称为逐元素乘积(Element-wise Product)。它以矩阵的对应元素相乘为规则,生成一个新…...
2025一区新风口:小波变换+KAN!速占!
今天给大家分享一个能让审稿人眼前一亮,好发一区的idea:小波变换KAN! 一方面:KAN刚中稿ICLR25,正是风口上,与小波变换的结合还处于起步阶段,正是红利期,创新空间广阔。 另一方面&a…...
相同的树及延伸题型(C语言详解版)
从LeetCode 100和101看二叉树的比较与对称性判断 今天要讲的是leetcode100.相同的树,并且本文章还会讲到延伸题型leetcode101.对称二叉树。本文章编写用的是C语言,大家主要是学习思路,学习过后可以自己点击链接测试,并且做一些对…...
【Redis】 String 类型的介绍和常用命令
1. 介绍 Redis 中的 key 都是字符串类型Redis 中存储字符串是完全按照二进制流的形式保存的,所以 Redis 是不处理字符集编码的问题,客户端传入的命令中使用的是什么编码就采用什么编码,使得 Redis 能够处理各种类型的数据,包括文…...
LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/145356022 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 Scaling Laws (缩放法则) 是大模型领域中,用于描述 模型性能(Loss) 与…...
Docker/K8S
文章目录 项目地址一、Docker1.1 创建一个Node服务image1.2 volume1.3 网络1.4 docker compose 二、K8S2.1 集群组成2.2 Pod1. 如何使用Pod(1) 运行一个pod(2) 运行多个pod 2.3 pod的生命周期2.4 pod中的容器1. 容器的生命周期2. 生命周期的回调3. 容器重启策略4. 自定义容器启…...
32、【OS】【Nuttx】OSTest分析(1):stdio测试(二)
背景 接上篇wiki 31、【OS】【Nuttx】OSTest分析(1):stdio测试(一) 继续stdio测试的分析,上篇讲到标准IO端口初始化,单从测试内容来说其实很简单,没啥可分析的,但这几篇…...
git push到远程仓库时无法推送大文件
一、错误 remote: Error: Deny by project hooks setting ‘default’: size of the file ‘scientific_calculator’, is 164 MiB, which has exceeded the limited size (100 MiB) in commit ‘4c91b7e3a04b8034892414d649860bf12416b614’. 二、原因 本地提交过大文件&am…...
Vue.js路由管理与自定义指令深度剖析
Vue.js 是一个强大的前端框架,提供了丰富的功能来帮助开发者构建复杂的单页应用(SPA)。本文将详细介绍 Vue.js 中的自定义指令和路由管理及导航守卫。通过这些功能,你可以更好地控制视图行为和应用导航,从而提升用户体验和开发效率。 1 自定义指令详解 1.1 什么是自定义…...
NVIDIA GPU介绍:概念、序列、核心、A100、H100
概述 入职一家大模型领域创业公司,恶补相关知识。 概念 一些概念: HPC:High Performance Computing,高性能计算SoC:System on Chip,单片系统FLOPS:Floating Point Operations Per Second&am…...
【PyTorch】6.张量运算函数:一键开启!PyTorch 张量函数的宝藏工厂
目录 1. 常见运算函数 个人主页:Icomi 专栏地址:PyTorch入门 在深度学习蓬勃发展的当下,PyTorch 是不可或缺的工具。它作为强大的深度学习框架,为构建和训练神经网络提供了高效且灵活的平台。神经网络作为人工智能的核心技术&…...
C语言练习(31)
有5个学生,每个学生有3门课程的成绩,从键盘输入以上数据(包括学号、姓名、3门课程成绩),计算出平均成绩,将原有数据和计算出的平均分数存放在磁盘文件stud中。 设5名学生的学号、姓名和3门课程成绩如下&am…...
什么是长短期记忆网络?
一、概念 长短期记忆网络(Long Short-Term Memory, LSTM)是一种特殊的循环神经网络(RNN),旨在解决标准RNN在处理长序列时的梯度消失和梯度爆炸问题。LSTM通过引入三个门(输入门、遗忘门和输出门)…...
git中有关old mode 100644、new mode 10075的问题解决小结
在 Git 版本控制系统中,文件权限变更是一种常见情况。当你看到类似 old mode 100644 和 new mode 100755 的信息时,这通常表示文件的权限发生了变化。本文将详细解析这种情况,并提供解决方法和注意事项。 问题背景 在 Git 中,文…...
Jenkins上生成的allure report打不开怎么处理
目录 问题背景: 原因: 解决方案: Jenkins上修改配置 通过Groovy脚本在Script Console中设置和修改系统属性 步骤 验证是否清空成功 进一步的定制 也可以使用Nginx去解决 使用逆向代理服务器Nginx: 通过合理调整CSP配置&a…...
JSR303校验教学
1、什么是JSR303校验 JSR是Java Specification Requests的缩写,意思是Java 规范提案。是指向JCP(Java Community Process)提出新增一个标准化技术规范的正式请求。任何人都可以提交JSR,以向Java平台增添新的API和服务。JSR已成为Java界的一个重要标准。…...
使用DeepSeek技巧:提升内容创作效率与质量
一、引言 在当今快节奏的数字时代,内容创作的需求不断增加,无论是企业营销、个人博客还是学术研究,高效且高质量的内容生成变得至关重要。DeepSeek作为一款先进的人工智能写作助手,凭借其强大的语言生成能力,为创作者…...
【第六天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-一种常见的贪心算法(持续更新)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、Python数据结构与算法的详细介绍1.Python中的常用的贪心算法2.贪心算法3.详细的贪心代码1)一种常见的贪心算法 总结 前言 提示:这里…...
C# Winform制作一个登录系统
using System; using System.Collections; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace 登录 {p…...
大功率充电桩生产厂家:高效能产品的选择与评估标准
一、行业背景与权威数据据中国电动汽车充电基础设施促进联盟(EVCIPA)数据显示,截至2026年2月底,我国电动汽车充电基础设施(枪)总数达到2101.0万个,同比增长47.8%。其中,公共充电设施…...
DeepSeek Saga模式性能压测实录(TPS从1.2K飙升至8.6K):异步事件总线+快照版本向量的组合拳揭秘
更多请点击: https://intelliparadigm.com 第一章:DeepSeek Saga模式性能压测实录(TPS从1.2K飙升至8.6K):异步事件总线快照版本向量的组合拳揭秘 在真实生产级负载下,DeepSeek R1模型启用Saga模式后&#…...
告别繁琐部署:VS2022一站式打包WinForm应用为独立安装包
1. 为什么需要一站式打包WinForm应用? 每次开发完WinForm应用后,最头疼的就是怎么把程序交给用户使用。直接发个Debug文件夹?用户可能会遇到各种问题:缺少.NET运行环境、依赖的DLL文件丢失、注册表没配置...作为开发者,…...
LinkSwift:九大网盘直链下载的技术革新与优雅突围
LinkSwift:九大网盘直链下载的技术革新与优雅突围 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...
数字IC前端学习笔记:从结构到实现,深入剖析Wallace Tree乘法器的性能优势
1. 为什么需要Wallace Tree乘法器 在数字IC设计中,乘法器是最基础也最关键的运算单元之一。传统的阵列乘法器虽然结构简单直观,但随着位宽增加,其关键路径延迟会呈平方级增长。我曾经在设计一个32位乘法器时,发现阵列结构的延迟直…...
在服务器上如何去部署Codex(AutoDL or 其他的服务器)
在本地 VSCode 中使用 Codex 时,如果通过 Remote-SSH 连接 AutoDL 或其他远端服务器,常常会遇到 Codex 无法正常响应、请求中断、地区限制、stream disconnected before completion 等问题。其根本原因通常是:Codex 的请求实际发生在远端服务…...
macOS开发环境标准化实践:基于Homebrew的CUR环境构建
1. 项目概述与核心价值最近在折腾macOS开发环境,尤其是涉及到一些需要特定编译工具链的项目时,经常被各种依赖和版本问题搞得焦头烂额。相信很多从Linux或Windows转过来的开发者都有同感,macOS虽然优雅,但在某些底层开发工具的生态…...
告别本地跑模型:用恒源云+PyCharm专业版搭建你的第一个远程深度学习环境
告别本地跑模型:用恒源云PyCharm专业版搭建你的第一个远程深度学习环境 当你在本地笔记本上跑ResNet-18都卡得无法切换浏览器标签时,就该考虑把计算任务交给云端了。但真正阻碍开发者上云的往往不是技术门槛,而是开发体验的断层——谁都不想为…...
别再死记硬背了!手把手教你理解UVM寄存器模型中的reg2bus与bus2reg(附APB总线实战代码)
深入解析UVM寄存器模型:揭秘reg2bus与bus2reg的自动化魔法 在芯片验证领域,UVM寄存器模型堪称验证工程师的"瑞士军刀",但其中两个核心转换函数——reg2bus和bus2reg却让不少初学者感到困惑。为什么我们只需要实现这两个函数&#x…...
开源AI对话界面chat-ui:快速部署与定制化LLM前端实践
1. 项目概述:一个开源的AI对话界面如果你最近在折腾大语言模型(LLM),不管是想部署一个私有的ChatGPT替代品,还是想给自己训练或微调的模型配一个像样的“脸面”,那你大概率绕不开一个核心问题:前…...
