当代人工智能三教父——深度学习三巨头
文章目录
引言
人物介绍
突出贡献
专业名词解释
引言
今天下午闲来无事翻阅了一下csdn首页的头条文章——《27 岁天才创始人 Joel Hellermark 分享了自己和“AI 教父” Geoffery Hinton 的最新采访》
感觉挺有意思,就从头到尾的看了一遍,里面有很多自己以前从未涉及到的知识,就浅显的整理了一下:
人物介绍
杨立昆(Yann LeCun)、杰弗里·欣顿(Geoffrey Hinton)和约书亚·本希奥(Yoshua Bengio)
被业内称为“当代人工智能三教父”
杨立昆(Yann LeCun),在法国皮埃尔和玛丽·居里大学获得计算机科学博士学位。现任纽约大学柯朗数学科学研究所Silver冠名教授、Facebook公司人工智能首席科学家、副总裁。他获得了包括美国工程院院士、IEEE神经网络先锋奖(IEEE Neural Network Pioneer Award)等一系列荣誉。他还是纽约大学数据科学中心的创始人,与约书亚·本希奥一起担任加拿大先进研究院机器与大脑学习项目的主管。
杰弗里·欣顿(Geoffery Hinton),在爱丁堡大学获得人工智能博士学位。现任谷歌公司副总裁、工程研究员,多伦多人工智能矢量研究所首席科学顾问、多伦多大学名誉教授。他是加拿大先进研究院神经计算和自适应项目(Neural Computation and Adaptive Perception Program)的创始人,还获得了加拿大最高荣誉勋章(Companion of the Order of Canada)、英国皇家学会成员、美国工程院外籍院士、人工智能国际联合会(IJCAI)杰出研究奖等一系列荣誉。2017年被彭博社(Bloomberg)评为改变全球商业格局的50人之一。
约书亚·本希奥(Yoshua Bengio),在加拿大麦吉尔大学取得计算机博士学位。现为加拿大蒙特利尔大学教授、加拿大数据定价中心主任(IVADO)、蒙特利尔学习算法研究中心(Mila)科学主任、加拿大先进研究院主任。他还与杨立昆一起担任加拿大先进研究院机器与大脑学习项目的主管。他创建了目前世界上最大的深度学习研究中心——蒙特利尔学习算法研究中心,使蒙特利尔成为世界上人工智能研究最为活跃的地区之一,引来大批公司和研究室入驻。
突出贡献
三位科学家发明了深度学习的基本概念,在实验中发现了惊人的结果,也在工程领域做出了重要突破,帮助深度神经网络获得实际应用。
Hinton 最重要的贡献来自他1986年发明反向传播的论文 “Learning Internal Representations by Error Propagation”;1983年发明的玻尔兹曼机(Boltzmann Machines),以及2012年对卷积神经网络的改进。
Hinton 和他的学生 Alex Krizhevsky 以及 Ilya Sutskever 通过 Rectified Linear Neurons 和 Dropout Regularization 改进了卷积神经网络,并在著名的 ImageNet 评测中取得了很好的成绩,在计算机视觉领域掀起一场革命。
Bengio 的贡献主要在1990年代发明的 Probabilistic models of sequences。他把神经网络和概率模型(例如隐马尔可夫模型)结合在一起,并和 AT&T 公司合作,用新技术识别手写的支票。现代深度学习技术中的语音识别也是这些概念的扩展。
此外 Bengio 还于2000年还发表了划时代的论文“A Neural Probabilistic Language Model”,使用高维词向量来表征自然语言。他的团队还引入了注意力机制,让机器翻译获得突破,也成为了让深度学习处理序列的重要技术。
Yann LeCun 的代表贡献之一是卷积神经网络。1980年代,LeCun 发明了卷积神经网络,现在已经成为了机器学习领域的基础技术之一,也让深度学习效率更高。1980年代末期,Yan LeCun 在多伦多大学和贝尔实验室工作期间,首次将卷积神经网络用于手写数字识别。
今天,卷积神经网络已经成为了业界标准技术,广泛用于计算机视觉、语音识别、语音合成、图片合成,以及自然语言处理等学术方向,以及自动驾驶、医学图片识别、语音助手、信息过滤等工业应用方向。
LeCun 的第二个重要贡献是改进了反向传播算法。他提出了一个早期的反向传播算法 backprop,也根据变分原理给出了一个简洁的推导。他的工作让反向传播算法更快,比如描述了两个简单的方法可以减少学习时间。
LeCun 第三个贡献是拓展了神经网络的应用范围。他把神经网络变成了一个可以完成大量不同任务的计算模型。他早期引进的一些工作现在已经成为了人工智能的基础概念。
例如,在图片识别领域,他研究了如何让神经网络学习层次特征,这一方法现在已经用于很多日常的识别任务。他们还提出了可以操作结构数据的深度学习架构。
Geoffrey Hinton
反向传播:在 1986 年与 David Rumelhart 和 Ronald Williams 共同撰写的 “Learning Internal Representations by Error Propagation” 一文中,Hinton 证明了反向传播算法允许神经网络发现自己的数据内部表示,这使得使用神经网络成为可能网络解决以前被认为超出其范围的问题。如今,反向传播算法是大多数神经网络的标准。
玻尔兹曼机(Boltzmann Machines):1983 年,Hinton 与 Terrence Sejnowski 一起发明了玻尔兹曼机,这是第一个能够学习不属于输入或输出的神经元内部表示的神经网络之一。
卷积神经网络的改进:2012 年,Hinton 和他的学生 Alex Krizhevsky 以及 Ilya Sutskever 通过 Rectified Linear Neurons 和 Dropout Regularization 改进了卷积神经网络,并在著名的 ImageNet 评测中将对象识别的错误率减半,在计算机视觉领域掀起一场革命。
Yoshua Bengio
序列的概率模型:在 20 世纪 90 年代,Bengio 将神经网络与序列的概率模型相结合,例如隐马尔可夫模型。这些想法被纳入 AT&T / NCR 用于阅读手写支票中,被认为是 20 世纪 90 年代神经网络研究的巅峰之作。现代深度学习语音识别系统也是这些概念的扩展。
高维词汇嵌入和关注:2000 年,Bengio 撰写了具有里程碑意义的论文“A Neural Probabilistic Language Model”,它引入了高维词向量作为词义的表示。Bengio 的见解对自然语言处理任务产生了巨大而持久的影响,包括语言翻译、问答和视觉问答。他的团队还引入了注意力机制,这种机制促使了机器翻译的突破,并构成了深度学习的序列处理的关键组成部分。
生成性对抗网络:自 2010 年以来,Bengio 关于生成性深度学习的论文,特别是与 Ian Goodfellow 共同开发的生成性对抗网络(GAN),引发了计算机视觉和计算机图形学的革命。
Yann LeCun
卷积神经网络:在 20 世纪 80 年代,LeCun 研发了卷积神经网络,现已成为该领域的基本理论基础。其让深度学习更有效。在 20 世纪 80 年代后期,多伦多大学和贝尔实验室工作期间,LeCun 是第一个在手写数字图像上训练卷积神经网络系统的人。如今,卷积神经网络是计算机视觉以及语音识别、语音合成、图像合成和自然语言处理的行业标准。它们用于各种应用,包括自动驾驶、医学图像分析、语音激活助手和信息过滤。
改进反向传播算法:LeCun 提出了一个早期的反向传播算法 backprop,并根据变分原理对其进行了简洁的推导。他的工作让加快了反向传播算,包括描述两种加速学习时间的简单方法。
拓宽神经网络的视野:LeCun 还将神经网络作为可以完成更为广泛任务的计算模型,其早期工作现已成为 AI 的基础概念。例如,在图像识别领域,他研究了如何在神经网络中学习分层特征表示,这个理念现在通常用于许多识别任务中。与 LéonBottou 一起,他还提出了学习系统可以构建为复杂的模块网络,其中通过自动区分来执行反向传播,目前在每个现代深度学习软件中得到使用。他们还提出了可以操作结构化数据的深度学习架构,例如图形。
专业名词解释
人工智能 (AI) 是一组技术,使计算机能够执行各种高级功能,包括查看、理解和翻译口语和书面语言、分析数据、提出建议等各种能力。
卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,通常用于图像、视频、语音等信号数据的分类和识别任务。
计算机视觉(Computer Vision)是一种利用计算机和数学方法对图像和视频进行分析和处理的技术。
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
机器学习是一种人工智能的分支,它是指让计算机通过学习数据和模式,从而自动改进和优化算法的能力。简单来说,机器学习是一种让计算机从数据中学习的方法,而不是通过手动编程来实现特定的任务。
自动驾驶是指通过计算机视觉、传感器、机器学习等技术,使汽车、无人机等车辆实现自主驾驶、导航和避障等功能,不需要人类驾驶员进行干预或者只需要有限的干预。
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
语音助手是一种基于人工智能技术的智能语音交互系统,能够通过语音和人类用户进行沟通,帮助用户完成各种操作或提供各种服务。
结构化数据是指具有固定格式和规则的数据,通常以表格、树状结构或关系模型的形式呈现。结构化数据通常具有明确的数据类型和字段,可以进行数据建模和数据分析等操作。结构化数据的常见形式包括关系型数据库中的表格、XML文档、CSV文件、JSON数据等。
蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)是一种基于统计学习的启发式搜索算法,用于解决决策问题或增强学习问题。它是以蒙特卡洛方法为基础,通过模拟大量的随机游戏来评估每个节点的价值,从而选择最优的决策路径。
MCTS主要分为四个步骤:选择(Selection)、扩展(Expansion)、模拟(Simulation)和回溯(Backpropagation)。在每一步中,算法会根据当前节点的信息,通过模拟多次随机游戏来评估不同决策路径的优劣,并选择一个最具有潜在价值的节点进行扩展和模拟,最终通过回溯来更新每个节点的价值估计,以辅助做出最佳决策。
蒙特卡洛树搜索在围棋、象棋等棋类游戏中取得了很好的效果,并在人工智能领域得到广泛应用。它的优势在于可以应对状态空间庞大、不确定性高的决策问题,并且可以在搜索的过程中动态调整策略,以适应不同情况下的决策需求。
反向传播(Backpropagation)是一种在神经网络中用于计算梯度并更新模型参数的算法。在训练一个神经网络时,我们需要通过最小化损失函数来调整网络参数,以使得模型能够更好地拟合训练数据。而反向传播就是一种通过计算损失函数关于每个参数的梯度,然后根据这些梯度来更新参数的方法。
通常包含以下步骤:
-
前向传播:通过输入数据以及当前的参数设定,计算得到模型的预测输出。
-
计算损失:将模型的输出与真实标签进行比较,计算出模型的损失函数值。
-
反向传播梯度计算:从输出层开始,通过链式法则计算损失函数对于每个参数的偏导数,即梯度。这一过程将梯度从输出层传播回到输入层。
-
参数更新:利用梯度下降等优化算法,根据计算得到的梯度信息更新神经网络中的参数。这一步骤会使得损失函数的值逐渐减小,使得模型表现得更好。
通过反向传播算法,神经网络可以在训练过程中不断调整参数,以使得模型表现更好地拟合训练数据,提高其泛化能力。反向传播算法是深度学习中非常重要的一部分,它使得训练深层神经网络变得可能,并且被广泛应用于各种神经网络结构中。
大语言模型(Large Language Model)是指具有大量参数和大规模数据训练得到的语言模型。语言模型是一种用来估计自然语言文本序列概率的模型,可以用来预测下一个单词或者生成连续的文本。
大语言模型通常基于神经网络架构,例如循环神经网络(RNN)或者变换器(Transformer)等。这些模型在训练时需要大规模的文本数据集,以及大量的计算资源和时间。通过在大规模数据集上进行训练,大语言模型可以学习到更复杂的语言结构和规律,从而在生成文本、翻译、文本分类等自然语言处理任务中表现更好。
一些著名的大语言模型包括GPT-3(Generative Pre-trained Transformer-3)和BERT(Bidirectional Encoder Representations from Transformers)。这些模型在各种自然语言处理任务中取得了令人瞩目的成绩,使得自然语言处理领域取得了重大的进展和突破。
多模态输入指的是包含多种不同类型数据的输入,例如文本、图像、音频、视频等多种形式的数据。在自然语言处理和计算机视觉领域,多模态输入成为了一个研究热点,因为实际应用场景中往往需要同时处理多种类型的数据来完成任务。
例如,在图像描述生成任务中,输入包含图像和文本描述,模型需要通过处理图像和文本数据来生成描述图片内容的文本。在视频理解任务中,输入可能包含视频、音频和文本,模型需要结合这些不同类型的数据来理解视频内容。在智能对话系统中,输入可能包含文本和声音等多种形式的数据,模型需要综合考虑多种数据类型来进行回答和交互。
多模态输入的处理通常需要结合多种不同类型数据的特征表示和融合方法,以便模型可以有效地利用不同数据类型之间的相关性和信息。
知识蒸馏(Knowledge Distillation)是一种模型压缩技术,旨在通过在一个较大复杂模型(教师模型)和一个较小简单模型(学生模型)之间进行知识迁移,从而提高小模型的性能。知识蒸馏的基本思想是利用教师模型的知识(soft labels、logits和attention weights等)来指导学生模型,以便学生模型学习到更深层次、更丰富的特征表示,从而达到提升性能的目的。
在知识蒸馏中,教师模型通常是一个较大的深度神经网络,拥有较高的性能和表达能力,而学生模型则是一个简化版本的模型,通常具有更少的参数和计算量。通过知识蒸馏,学生模型可以利用教师模型的复杂知识和经验,更有效地学习到数据的特征表示,从而在保持模型精度的同时减少计算和内存消耗。
MATLAB代码是使用MATLAB编程语言编写的程序或脚本。MATLAB是一种高级的数学软件,广泛用于科学和工程领域。MATLAB代码可以用来执行各种数学计算、数据分析、图形绘制等任务。MATLAB代码通常采用矩阵表示数据和进行计算,具有强大的数学计算能力和丰富的功能库。
相关文章:

当代人工智能三教父——深度学习三巨头
文章目录 引言 人物介绍 突出贡献 专业名词解释 引言 今天下午闲来无事翻阅了一下csdn首页的头条文章——《27 岁天才创始人 Joel Hellermark 分享了自己和“AI 教父” Geoffery Hinton 的最新采访》 感觉挺有意思,就从头到尾的看了一遍,里面有很多…...
Django项目从创建到开发以及数据库连接的主要步骤,精简实用
1、项目创建 安装命令:pip install django3 -i <https://pypi.tuna.tsinghua.edu.cn/simple>上述命令是使用清华镜像,安装django3在项目的创建目录执行命令:django-admin startproject 项目名称(英文)就可以在指…...
linux 命令 grep 排除 No such file or directory
du -sh * 2>&1 | grep -v "proc" command 2>&1 | grep -v "No such file or directory" 这里的 2>&1 是将错误输出重定向到标准输出,然后 grep -v "No such file or directory" 会过滤掉包含 &qu…...

Unity 滑动条(Slider)拖拽开始和结束、点击等事件的拓展功能
目录 前言 一、关于slider的监听事件 二、方案一 (无脚本版) 三、方案二 (继承slider脚本进行拓展) 四、方案三(外部脚本添加) 前言 前一段时间在使用这个功能,发现搜索出来的文章和脚本&…...
Linux 学习知识 (简单易懂 )持续更新 Linux输出重定向 Linux通配符 Linux正则表达式 持续更新....
一.输出重定向 标准输出:是将信息输出在终端 标准错误输出:在执行命令的过程中所产生错误信息也是输出在终端标准输入:从键盘输入 1.1标准输出重定向 作用:将本来要显示在终端上的信息重定向到一个文件中 实现方法:…...

前端vue用el-table如何实现表头内容过长换行处理,实现换行效果
前端vue用el-table如何实现表头内容过长换行处理,实现换行效果 这是效果图 有两种方法,一种简易版本,一种万能方法,都是el-table,先看文档 表头标题是可以自定义的 方法一 label的解释写在代码里面了,这里会自动形成换…...

15:00面试,15:08出来,面试问的有点变态。。。。
🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 从小厂出来,没想到在另一家公司又寄了。 到这家公司开始上班,加班是每天…...

【BUG】流式响应requests得到: ping - 和时间戳
前情提要 运行Langchain-Chatchat项目,使用自定义请求访问API Server流式输出 报错展示 b: ping - 2024-05-22 00:46:04.83252000:00\r\n\r\n报错原因 这通常是由于 Server-Sent Events (SSE) 实现中使用的“心跳”机制,以确保连接保持活跃。一些 SSE…...

人工智能应用-实验5-BP 神经网络分类手写数据集
文章目录 🧡🧡实验内容🧡🧡🧡🧡代码🧡🧡🧡🧡分析结果🧡🧡🧡🧡实验总结🧡🧡 ǹ…...
K8s Pod 资源进阶
文章目录 K8s Pod 资源进阶pod 资源限制限制资源单位 资源限制实战Pod 服务质量QosDownward API可注入的元数据信息环境变量方式注入元数据存储卷方式注入元数据为注册服务注入Pod 名称为 JVM 注入堆内存限制 K8s Pod 资源进阶 pod 资源限制 资源限制的方法: Req…...
掌握Edge浏览器的使用技巧
导言: Edge浏览器是微软推出的一款现代化、高效的网络浏览器。它不仅提供了基本的浏览功能,还具备了许多强大的特性和技巧,可以帮助用户更好地利用浏览器进行工作和娱乐。本文将介绍一些Edge浏览器的使用技巧,帮助读者更好地掌握这…...

Qt封装ping命令并将ping结果显示到界面
实现界面及在Windows 10下的运行结果如下: 代码如下: pingNetWork.h // 检测网络是否ping通的工具#ifndef PINGNETWORK_H #define PINGNETWORK_H#include <QWidget> #include"control_global.h" namespace Ui { class CPingNetWork; }c…...

图论(洛谷刷题)
目录 前言: 题单: P3386 【模板】二分图最大匹配 P1525 [NOIP2010 提高组] 关押罪犯 P3385 【模板】负环 P3371 【模板】单源最短路径(弱化版) SPFA写法 Dij写法: P3385 【模板】负环 P5960 【模板】差分约束…...

安卓部署ffmpeg全平台so并实现命令行调用
安卓 FFmpeg系列 第一章 Ubuntu生成ffmpeg安卓全平台so 第二章 Windows生成ffmpeg安卓全平台so 第三章 生成支持x264的ffmpeg安卓全平台so 第四章 部署ffmpeg安卓全平台so并使用(本章) 文章目录 安卓 FFmpeg系列前言一、添加so1、拷贝ffmpeg到项目2、bu…...
Go语言中MD5盐值加密解决用户密码问题
1. 用户密码存储的挑战 在Web应用开发中,用户密码的安全存储是一个核心问题。明文存储用户密码是极其危险的,因为一旦数据库被泄露,攻击者就可以直接获取用户的密码。为了保护用户密码,我们需要采取加密措施。 2. MD5算法简介 …...

flutter开发实战-本地SQLite数据存储
flutter开发实战-本地SQLite数据库存储 正在编写一个需要持久化且查询大量本地设备数据的 app,可考虑采用数据库。相比于其他本地持久化方案来说,数据库能够提供更为迅速的插入、更新、查询功能。这里需要用到sqflite package 来使用 SQLite 数据库 预…...
【路由組件】
完成Vue Router 安装后,就可以使用路由了,路由的基本使用步骤,首先定义路由组件,以便使用Vue Router控制路由组件展示与 切换,接着定义路由链接和路由视图,以便告知路由组件渲染到哪个位置,然后…...
【C++风云录】数字逻辑设计优化:电子设计自动化与集成电路
集成电路设计:打开知识的大门 前言 本文将详细介绍关于数字芯片设计,电子设计格式解析,集成电路设计工具,硬件描述语言分析,电路验证以及电路优化六个主题的深入研究与实践。每一部分都包含了主题的概述,…...

Flask Response 对象
文章目录 创建 Response 对象设置响应内容设置响应状态码设置响应头完整的示例拓展设置响应的 cookie重定向响应发送文件作为响应 总结 Flask 是一个 Python Web 框架,用于快速开发 Web 应用程序。在 Flask 中,我们使用 Response 对象来构建 HTTP 响应。…...

算法001:移动零
力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/move-zeroes/ 使用 双指针 来解题: 此处的双指针,…...

linux之kylin系统nginx的安装
一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源(HTML/CSS/图片等),响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址,提高安全性 3.负载均衡服务器 支持多种策略分发流量…...

【OSG学习笔记】Day 18: 碰撞检测与物理交互
物理引擎(Physics Engine) 物理引擎 是一种通过计算机模拟物理规律(如力学、碰撞、重力、流体动力学等)的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互,广泛应用于 游戏开发、动画制作、虚…...

从WWDC看苹果产品发展的规律
WWDC 是苹果公司一年一度面向全球开发者的盛会,其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具,对过去十年 WWDC 主题演讲内容进行了系统化分析,形成了这份…...

2.Vue编写一个app
1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template> <!--html--> </template>…...
将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?
Otsu 是一种自动阈值化方法,用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理,能够自动确定一个阈值,将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

Java-41 深入浅出 Spring - 声明式事务的支持 事务配置 XML模式 XML+注解模式
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
Spring AI 入门:Java 开发者的生成式 AI 实践之路
一、Spring AI 简介 在人工智能技术快速迭代的今天,Spring AI 作为 Spring 生态系统的新生力量,正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务(如 OpenAI、Anthropic)的无缝对接&…...

涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战
“🤖手搓TuyaAI语音指令 😍秒变表情包大师,让萌系Otto机器人🔥玩出智能新花样!开整!” 🤖 Otto机器人 → 直接点明主体 手搓TuyaAI语音 → 强调 自主编程/自定义 语音控制(TuyaAI…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...

html css js网页制作成品——HTML+CSS榴莲商城网页设计(4页)附源码
目录 一、👨🎓网站题目 二、✍️网站描述 三、📚网站介绍 四、🌐网站效果 五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目 七、🎁更多干货 一、👨…...