当前位置：首页 > news >正文

「AI学习笔记」深度学习的起源与发展：从神经网络到大数据（二）

news 2025/7/4 10:25:32

深度学习（DL）是现代人工智能（AI）的核心之一，但它并不是一夜之间出现的技术。从最初的理论提出到如今的广泛应用，深度学习经历了几乎一个世纪的不断探索与发展。今天，我们一起回顾深度学习的历史，看看它如何从简单的神经网络起步，一步步发展成今天改变世界的技术。

1. 神经网络的诞生：从“模仿大脑”开始

深度学习的起点可以追溯到20世纪40年代。当时，沃伦·麦卡洛克（Warren S. McCulloch）和沃尔特·皮茨（Walter Pitts）通过发表论文《A logical calculus of the ideas immanent in nervous activity》，首次将数学与神经学结合，提出了一种基于神经网络的计算机模型。这一模型灵感来源于我们大脑中的神经元网络，他们尝试通过算法设定“阈值”，模拟信息如何在神经元之间传递。

紧接着，在1958年，弗兰克·罗森布拉特（Frank Rosenblatt）发表了《感知器：一种感知与识别的自动装置》一文，提出了现代神经网络的雏形——感知器。虽然感知器结构简单，但它是神经网络的最初模型，被认为是深度学习的祖先。

2. 神经网络的核心：反向传播算法

神经网络的发展并没有一帆风顺。到了1960年代，虽然神经网络有了初步的构建，但仍面临很多困难。直到20世纪80年代，深度学习的突破性进展才真正发生。当时，戴维·鲁梅尔哈特（David Rumelhart）、杰弗里·辛顿（Geoffrey Hinton）和罗纳德·威廉姆斯（Ronald Williams）提出了反向传播（Backpropagation）算法，这一算法成为了深度学习的核心。

反向传播的基本思想是，通过不断地调整神经网络各层的“权重”来减少误差，从而提高模型的准确性。反向传播的出现使得神经网络能够通过多个层次的“学习”来不断优化，从而能够更加精准地完成任务。

在此之前，神经网络模型主要是前馈型（Feedforward），即数据只在神经网络中单向流动。但反向传播的引入，使得神经网络能够双向学习，从输入到输出的过程不再是单向的，而是能根据过去的错误不断调整，从而提高学习效果。

3. AI寒冬与反复发展的曲折历程

尽管反向传播算法带来了巨大的技术突破，但深度学习的发展并非一帆风顺。从60年代到80年代，神经网络的研究经历了一个停滞期，也就是所谓的“AI寒冬”。主要的原因是缺乏足够的数据和资金支持。虽然模型的理论在不断发展，但没有足够的实践应用支持这些模型的成长，研究人员也无法获得足够的数据来训练和验证这些模型。

4. 长短期记忆网络（LSTM）：突破时间序列的限制

深度学习的另一个重大突破发生在1997年，赛普·霍赫赖特（Sepp Hochreiter）和尤尔根·施密德胡伯（Jürgen Schmidhuber）提出了长短期记忆网络（LSTM）。LSTM有效地解决了传统递归神经网络（RNN）无法处理长时间序列的问题。

LSTM的核心创新在于它能够处理时间序列数据中的长时间依赖关系，这对于处理如语言生成、语音识别等问题至关重要。通过LSTM，深度学习模型能够记住更长时间的数据，从而提升了处理时序问题的能力。例如，LSTM能够帮助模型在自动补全句子的过程中理解时间顺序，而传统的神经网络则很难做到这一点。

5. 数据驱动与深度学习的未来

如今，深度学习依赖海量的数据进行训练。神经网络需要大量的实例来区分不同的事物，例如区分狗和马。这种数据驱动的方式虽然与我们大脑的学习方式有所不同（比如小孩很少需要通过反复的提醒来区分狗和马），但随着技术的发展，深度学习模型正在朝着需要更少数据的方向发展。

目前，虽然我们能够获取大量数据来训练深度学习模型，但未来的目标是实现能够在较少数据下进行训练的深度学习模型。这将使得深度学习更加高效，也能更好地解决实际应用中的问题。

总结：深度学习的辉煌历程

回顾深度学习的发展历程，我们可以看到，从最初的神经网络模型到反向传播的引入，再到LSTM的突破，深度学习经历了多次技术革命。如今，深度学习不仅在语音识别、图像处理、自然语言处理等领域取得了巨大的成功，还在不断演化，朝着更智能、更高效的方向发展。

对初学者而言，了解深度学习的历史不仅能够帮助我们更好地理解今天的技术进展，也能为未来的学习和应用打下坚实的基础。随着技术的不断进步，深度学习将在更多的领域展现出巨大的潜力，未来充满了无限的可能。

「AI学习笔记」深度学习的起源与发展：从神经网络到大数据（二）

深度学习（DL）是现代人工智能（AI）的核心之一，但它并不是一夜之间出现的技术。从最初的理论提出到如今的广泛应用，深度学习经历了几乎一个世纪的不断探索与发展。今天，我们一起回顾深度学习的历史…...

编程日记 2025/1/31 21:48:29

【漫话机器学习系列】069.哈达马乘积（Hadamard Product）

哈达马乘积（Hadamard Product） 哈达马乘积（Hadamard Product）是两个矩阵之间的一种元素级操作，也称为逐元素乘积（Element-wise Product）。它以矩阵的对应元素相乘为规则，生成一个新…...

编程日记 2025/1/31 21:44:03

2025一区新风口：小波变换+KAN！速占！

今天给大家分享一个能让审稿人眼前一亮，好发一区的idea：小波变换KAN！ 一方面：KAN刚中稿ICLR25，正是风口上，与小波变换的结合还处于起步阶段，正是红利期，创新空间广阔。另一方面&a…...

编程日记 2025/1/31 21:42:52

相同的树及延伸题型（C语言详解版）

从LeetCode 100和101看二叉树的比较与对称性判断今天要讲的是leetcode100.相同的树，并且本文章还会讲到延伸题型leetcode101.对称二叉树。本文章编写用的是C语言，大家主要是学习思路，学习过后可以自己点击链接测试，并且做一些对…...

编程日记 2025/1/31 21:40:36

【Redis】 String 类型的介绍和常用命令

1. 介绍 Redis 中的 key 都是字符串类型Redis 中存储字符串是完全按照二进制流的形式保存的，所以 Redis 是不处理字符集编码的问题，客户端传入的命令中使用的是什么编码就采用什么编码，使得 Redis 能够处理各种类型的数据，包括文…...

编程日记 2025/1/31 21:39:22

LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/145356022 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 Scaling Laws (缩放法则) 是大模型领域中，用于描述模型性能(Loss) 与…...

编程日记 2025/1/31 21:33:01

Docker/K8S

文章目录项目地址一、Docker1.1 创建一个Node服务image1.2 volume1.3 网络1.4 docker compose 二、K8S2.1 集群组成2.2 Pod1. 如何使用Pod(1) 运行一个pod(2) 运行多个pod 2.3 pod的生命周期2.4 pod中的容器1. 容器的生命周期2. 生命周期的回调3. 容器重启策略4. 自定义容器启…...

编程日记 2025/1/31 21:31:55

32、【OS】【Nuttx】OSTest分析（1）：stdio测试（二）

背景接上篇wiki 31、【OS】【Nuttx】OSTest分析（1）：stdio测试（一） 继续stdio测试的分析，上篇讲到标准IO端口初始化，单从测试内容来说其实很简单，没啥可分析的，但这几篇…...

编程日记 2025/1/31 21:27:48

git push到远程仓库时无法推送大文件

一、错误 remote: Error: Deny by project hooks setting ‘default’: size of the file ‘scientific_calculator’, is 164 MiB, which has exceeded the limited size (100 MiB) in commit ‘4c91b7e3a04b8034892414d649860bf12416b614’. 二、原因本地提交过大文件&am…...

编程日记 2025/1/31 21:25:43

Vue.js路由管理与自定义指令深度剖析

Vue.js 是一个强大的前端框架，提供了丰富的功能来帮助开发者构建复杂的单页应用（SPA）。本文将详细介绍 Vue.js 中的自定义指令和路由管理及导航守卫。通过这些功能，你可以更好地控制视图行为和应用导航，从而提升用户体验和开发效率。 1 自定义指令详解 1.1 什么是自定义…...

编程日记 2025/1/31 21:24:33

NVIDIA GPU介绍：概念、序列、核心、A100、H100

概述入职一家大模型领域创业公司，恶补相关知识。概念一些概念： HPC：High Performance Computing，高性能计算SoC：System on Chip，单片系统FLOPS：Floating Point Operations Per Second&am…...

编程日记 2025/1/31 21:23:25

【PyTorch】6.张量运算函数：一键开启！PyTorch 张量函数的宝藏工厂

目录 1. 常见运算函数个人主页：Icomi 专栏地址：PyTorch入门在深度学习蓬勃发展的当下，PyTorch 是不可或缺的工具。它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活的平台。神经网络作为人工智能的核心技术&…...

编程日记 2025/1/31 21:22:15

C语言练习（31）

有5个学生，每个学生有3门课程的成绩，从键盘输入以上数据（包括学号、姓名、3门课程成绩），计算出平均成绩，将原有数据和计算出的平均分数存放在磁盘文件stud中。设5名学生的学号、姓名和3门课程成绩如下&am…...

编程日记 2025/1/31 21:21:13

什么是长短期记忆网络？

一、概念长短期记忆网络（Long Short-Term Memory, LSTM）是一种特殊的循环神经网络（RNN），旨在解决标准RNN在处理长序列时的梯度消失和梯度爆炸问题。LSTM通过引入三个门（输入门、遗忘门和输出门&#xff09…...

编程日记 2025/1/31 21:15:02

git中有关old mode 100644、new mode 10075的问题解决小结

在 Git 版本控制系统中，文件权限变更是一种常见情况。当你看到类似 old mode 100644 和 new mode 100755 的信息时，这通常表示文件的权限发生了变化。本文将详细解析这种情况，并提供解决方法和注意事项。问题背景在 Git 中，文…...

编程日记 2025/1/31 21:05:53

Jenkins上生成的allure report打不开怎么处理

目录问题背景： 原因： 解决方案： Jenkins上修改配置通过Groovy脚本在Script Console中设置和修改系统属性步骤验证是否清空成功进一步的定制也可以使用Nginx去解决使用逆向代理服务器Nginx： 通过合理调整CSP配置&a…...

编程日记 2025/1/31 21:03:46

JSR303校验教学

1、什么是JSR303校验 JSR是Java Specification Requests的缩写，意思是Java 规范提案。是指向JCP(Java Community Process)提出新增一个标准化技术规范的正式请求。任何人都可以提交JSR，以向Java平台增添新的API和服务。JSR已成为Java界的一个重要标准。…...

编程日记 2025/1/31 21:00:27

使用DeepSeek技巧：提升内容创作效率与质量

一、引言在当今快节奏的数字时代，内容创作的需求不断增加，无论是企业营销、个人博客还是学术研究，高效且高质量的内容生成变得至关重要。DeepSeek作为一款先进的人工智能写作助手，凭借其强大的语言生成能力，为创作者…...

编程日记 2025/1/31 20:59:13

【第六天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-一种常见的贪心算法（持续更新）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的贪心算法2.贪心算法3.详细的贪心代码1）一种常见的贪心算法总结前言提示：这里…...

编程日记 2025/1/31 20:57:00

C# Winform制作一个登录系统

using System; using System.Collections; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace 登录 {p…...

编程日记 2025/1/31 20:49:37

「AI学习笔记」深度学习的起源与发展：从神经网络到大数据（二）

1. 神经网络的诞生：从“模仿大脑”开始

2. 神经网络的核心：反向传播算法

3. AI寒冬与反复发展的曲折历程

4. 长短期记忆网络（LSTM）：突破时间序列的限制

5. 数据驱动与深度学习的未来

总结：深度学习的辉煌历程

相关文章：

「AI学习笔记」深度学习的起源与发展：从神经网络到大数据（二）

【漫话机器学习系列】069.哈达马乘积（Hadamard Product）

2025一区新风口：小波变换+KAN！速占！

相同的树及延伸题型（C语言详解版）

【Redis】 String 类型的介绍和常用命令

LLM - 大模型 ScallingLaws 的设计 100B 预训练方案(PLM) 教程(5)

Docker/K8S

32、【OS】【Nuttx】OSTest分析（1）：stdio测试（二）

git push到远程仓库时无法推送大文件

Vue.js路由管理与自定义指令深度剖析

NVIDIA GPU介绍：概念、序列、核心、A100、H100

【PyTorch】6.张量运算函数：一键开启！PyTorch 张量函数的宝藏工厂

C语言练习（31）

什么是长短期记忆网络？

git中有关old mode 100644、new mode 10075的问题解决小结

Jenkins上生成的allure report打不开怎么处理

JSR303校验教学

使用DeepSeek技巧：提升内容创作效率与质量

【第六天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-一种常见的贪心算法（持续更新）

C# Winform制作一个登录系统

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

深入理解JavaScript设计模式之单例模式

srs linux

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

OPENCV形态学基础之二腐蚀

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

短视频矩阵系统文案创作功能开发实践，定制化开发

深度学习水论文：mamba＋图像增强

从 GreenPlum 到镜舟数据库：杭银消费金融湖仓一体转型实践

day36-多路IO复用