当前位置: 首页 > news >正文

6 机器学习之应用现状

在过去二十年中,人类收集、存储、传输、处理数据的能力取得了飞速提升,人类社会的各个角落都积累了大量数据,亟需能有效地对数据进行分析利用的计算机算法,而机器学习恰顺应了大时代的这个迫切需求,因此该学科领域很自然地取得巨大发展、受到广泛关注。

今天,在计算机科学的诸多分支学科领域中,无论是多媒体、图形学,还是网络通信、软件工程,乃至体系结构、芯片设计,都能找到机器学习技术的身影,尤其是在计算机视觉、自然语言处理等“计算机应用技术”领域,机器学习已成为最重要的技术进步源泉之一。

机器学习还为许多交叉学科提供了重要的技术支撑。例如,​“生物信息学”试图利用信息技术来研究生命现象和规律,而基因组计划的实施和基因药物的美好愿景让人们为之心潮澎湃。生物信息学研究涉及从“生命现象”到“规律发现”的整个过程,其间必然包括数据获取、数据管理、数据分析、仿真实验等环节,而“数据分析”恰是机器学习技术的舞台,各种机器学习技术已经在这个舞台上大放异彩。

NASA-JPL的全称是美国航空航天局喷气推进实验室,著名的“勇气”号和“机遇”号火星机器人均是在这个实验室研制的。
DARPA的全称是美国国防部先进研究计划局,互联网、全球卫星定位系统等都源于DARPA启动的研究项目。

事实上,随着科学研究的基本手段从传统的“理论+实验”走向现在的“理论+实验+计算”​,乃至出现“数据科学”这样的提法,机器学习的重要性日趋显著,因为“计算”的目的往往是数据分析,而数据科学的核心也恰是通过分析数据来获得价值。若要列出目前计算机科学技术中最活跃、最受瞩目的研究分支,那么机器学习必居其中。2001年,美国NASA-JPL的科学家在Science杂志上专门撰文[Mjolsness andDeCoste,2001]指出,机器学习对科学研究的整个过程正起到越来越大的支撑作用,其进展对科技发展意义重大。2003年,DARPA启动PAL计划,将机器学习的重要性上升到美国国家安全的高度来考虑。众所周知,美国最尖端科技的研究通常是由NASA和DARPA推进的,而这两大机构不约而同地强调机器学习的重要性,其意义不言而喻。

机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。

2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系”​,机器学习领域奠基人之一T.Mitchell教授出任首任系主任。2012年3月,美国奥巴马政府启动“大数据研究与发展计划”​,美国国家科学基金会旋即在加州大学伯克利分校启动加强计划,强调要深入研究和整合大数据时代的三大关键技术:机器学习、云计算、众包(crowdsourcing)。显然,机器学习在大数据时代是必不可少的核心技术,道理很简 单:收集、存储、传输、管理大数据的目的,是为了“利用”大数据,而如果没有机器学习技术分析数据,则“利用”无从谈起。

“数据挖掘”这个词很早就在统计学界出现并略带贬义,这是由于传统统计学研究往往醉心于理论的优美而忽视实际效用。但最近情况发生变化,越来越多的统计学家开始关注现实问题,进入机器学习和数据挖掘领域。

谈到对数据进行分析利用,很多人会想到“数据挖掘”(data mining),这里简单探讨一下数据挖掘与机器学习的联系。数据挖掘领域在二十世纪九十年代形成,它受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大[Zhou,2003].数据挖掘是从海量数据中发掘知识,这就必然涉及对“海量数据”的管理和分析。大体来说,数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。由于统计学界的研究成果通常需要经由机器学习研究来形成有效的学习算法,之后再进入数据挖掘领域,因此从这个意义上说,统计学主要是通过机器学习对数据挖掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑。

今天,机器学习已经与普通人的生活密切相关。例如在天气预报、能源勘探、环境监测等方面,有效地利用机器学习技术对卫星和传感器发回的数据进行分析,是提高预报和检测准确性的重要途径;在商业营销中,有效地利用机器学习技术对销售数据、客户信息进行分析,不仅可帮助商家优化库存降低成本,还有助于针对用户群设计特殊营销策略;……下面再举几

众所周知,谷歌、百度等互联网搜索引擎已开始改变人类的生活方式,例如很多人已习惯于在出行前通过互联网搜索来了解目的地信息、寻找合适的酒店、餐馆等。美国《新闻周刊》曾对谷歌有一句话评论:​“它使任何人离任何问题的答案间的距离变得只有点击一下鼠标这么远。​”显然,互联网搜索是通过分析网络上的数据来找到用户所需的信息,在这个过程中,用户查询是输入、搜索结果是输出,而要建立输入与输出之间的联系,内核必然需要机器学习技术。事实上,互联网搜索发展至今,机器学习技术的支撑厥功至伟。到了今天,搜索的对象、内容日趋复杂,机器学习技术的影响更为明显,例如在进行“图片搜索”时,无论谷歌还是百度都在使用最新潮的机器学习技术。谷歌、百度、脸书、雅虎等公司纷纷成立专攻机器学习技术的研究团队,甚至直接以机器学习技术命名的研究院,充分体现出机器学习技术的发展和应用,甚至在一定程度上影响了互联网产业的走向。

例如著名机器学习教科书[Mitchell,1997]4.2节介绍了二十世纪九十年代早期利用神经网络学习来控制自动驾驶车的ALVINN系统。

再举一例。车祸是人类最凶险的杀手之一,全世界每年有上百万人丧生车轮,仅我国每年就有约十万人死于车祸。由计算机来实现自动汽车驾驶是一个理想的方案,因为机器上路时可以确保不是新手驾驶、不会疲劳驾驶,更不会酒后驾驶,而且还有重要的军事用途。美国在二十世纪八十年代就开始进行这方面研究。这里最大的困难是无法在汽车厂里事先把汽车上路后所会遇到的所有情况都考虑到、设计出处理规则并加以编程实现,而只能根据上路时遇到的情况即时处理。若把车载传感器接收到的信息作为输入,把方向、刹车、油门的控制行为作为输出,则这里的关键问题恰可抽象为一个机器学习任务。2004年3月,在美国DARPA组织的自动驾驶车比赛中,斯坦福大学机器学习专家S.Thrun的小组研制的参赛车用6小时53分钟成功走完了132英里赛程获得冠军。比赛路段是在内华达州西南部的山区和沙漠中,路况相当复杂,在这样的路段上行车即使对经验丰富的人类司机来说也是一个挑战。S.Thrun后来到谷歌领导自动驾驶车项目团队。值得一提的是,自动驾驶车在近几年取得了飞跃式发展,除谷歌外,通用、奥迪、大众、宝马等传统汽车公司均投入巨资进行研发,目前已开始有产品进入市场。2011年6月,美国内华达州议会通过法案,成为美国第一个认可自动驾驶车的州,此后,夏威夷州和佛罗里达州也先后通过类似法案。自动驾驶汽车可望在不久的将来出现在普通人的生活中,而机器学习技术则起到了“司机”作用。

机器学习技术甚至已影响到人类社会政治生活。2012年美国大选期间,奥巴马麾下有一支机器学习团队,他们对各类选情数据进行分析,为奥巴马提示下一步竞选行动。例如他们使用机器学习技术分析社交网络数据,判断出在总统候选人第一次辩论之后哪些选民会倒戈,并根据分析的结果开发出个性化宣传策略,能为每位选民找出一个最有说服力的挽留理由;他们基于机器学习模型的分析结果提示奥巴马应去何处开展拉票活动,有些建议甚至让专业竞选顾问大吃一惊,而结果表明去这地方大有收获。总统选举需要大量金钱,机器学习技术在这方面发挥了奇效。例如,机器学习模型分析出,某电影明星对某地区某年龄段的特定人群很有吸引力,而这个群体很愿意出高价与该明星及奥巴马共进晚餐……果然,这样一次筹资晚宴成功募集到1500万美元;最终,借助机器学习模型,奥巴马筹到了创纪录的10亿美元竞选经费。机器学习技术不仅有助于竞选经费“开源”​,还可帮助“节流”​,例如机器学习模型通过对不同群体选民进行分析,建议购买了一些冷门节目的广告时段,而没有采用在昂贵的黄金时段购买广告的传统做法,使得广告资金效率相比2008年竞选提高了14%;……胜选后,​《时代》周刊专门报道了这个被奥巴马称为“竞选核武器”​、由半监督学习研究专家R.Ghani领导的团队。

值得一提的是,机器学习备受瞩目当然是由于它已成为智能数据分析技术的创新源泉,但机器学习研究还有另一个不可忽视的意义,即通过建立一些关于学习的计算模型来促进我们理解“人类如何学习”​。例如,P.Kanerva在二十世纪八十年代中期提出SDM(Sparse Distributed Memory)模型[Kanerva,1988]时并没有刻意模仿脑生理结构,但后来神经科学的研究发现,SDM的稀疏编码机制在视觉、听觉、嗅觉功能的脑皮层中广泛存在,从而为理解脑的某些功能提供了一定的启发。自然科学研究的驱动力归结起来无外是人类对宇宙本源、万物本质、生命本性、自我本识的好奇,而“人类如何学习”无疑是一个有关自我本识的重大问题。从这个意义上说,机器学习不仅在信息科学中占有重要地位,还具有一定的自然科学探索色彩。

相关文章:

6 机器学习之应用现状

在过去二十年中,人类收集、存储、传输、处理数据的能力取得了飞速提升,人类社会的各个角落都积累了大量数据,亟需能有效地对数据进行分析利用的计算机算法,而机器学习恰顺应了大时代的这个迫切需求,因此该学科领域很自…...

相似度为 K 的字符串

题目链接 相似度为 K 的字符串 题目描述 注意 s1和s2只包含集合 {‘a’, ‘b’, ‘c’, ‘d’, ‘e’, ‘f’} 中的小写字母s2是s1的一个字母异位词 解答思路 可以深度优先遍历交换字母使得s1和s2尽可能接近,基本思路是:设定一个指针idx指向s1和s2的…...

[云] Project Analysis

项目要求分析: 开放性选题: 主题范围:任何与云计算系统相关的主题。项目类型:可以是技术、商业或研究项目。团队规模:最多可组成三人小组。 示例主题: 分析公共云数据:例如,AWS公共数…...

腾讯六宫格本地识别,本地模型识别,腾讯六图识别

基于K哥爬虫昨天发的文章,特此训练了一版腾讯模型,效果不错,特此感谢K哥的指导,效果如下图: 有需求,有疑问的欢迎评论区点出...

Transformer图解以及相关的概念

前言 transformer是目前NLP甚至是整个深度学习领域不能不提到的框架,同时大部分LLM也是使用其进行训练生成模型,所以transformer几乎是目前每一个机器人开发者或者人工智能开发者不能越过的一个框架。接下来本文将从顶层往下去一步步掀开transformer的面…...

Nginx缓存静态文件

在Python项目中,通过Nginx缓存静态文件(如CSS、JS、图片等),可以有效提升网页的加载性能。Nginx可以帮助你缓存静态资源,减少服务器负担,并加速页面加载。 1. 配置Nginx缓存静态文件 首先,你需…...

【隐私计算】隐语HEU同态加密算法解读

HEU: 一个高性能的同态加密算法库,提供了多种 PHE 算法, 包括ZPaillier、FPaillier、IPCL、Damgard Jurik、DGK、OU、EC ElGamal 以及基于FPGA和GPU硬件加速版本的Paillier版本。 本文我们会基于GPU运行HEU Docker容器,编译打包GPaillier并测…...

用C#实现互斥操作

1、传统的lock lock简单易用,适合大多数场景,但在高竞争用情况下可能会导致线程阻塞; Object obj new object(); void method1(){lock (obj){// 进行互斥操作}}2、SpinLock SpinLock在低延迟情况下更有效,因为SpinLock会在忙等…...

【黑马点评优化】之使用Caffeine+Redis实现应用级二层缓存

【黑马点评优化】之使用CaffeineRedis实现应用级二层缓存 1 缓存雪崩定义及解决方案2 为什么要使用多级缓存3 RedisCaffeine实现应用层二级缓存原理4 利用CaffeineRedis解决Redis突然宕机导致的缓存雪崩问题4.1 pom.xml文件引入相关依赖4.2 本地缓存配置类4.3 修改ShopServiceI…...

CEEMDAN +组合预测模型(BiLSTM-Attention + ARIMA)

往期精彩内容: 时序预测:LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较 全是干货 | 数据集、学习资料、建模资源分享! EMD、EEMD、FEEMD、CEEMD、CEEMDAN的区别、原理和Python实现(一)EMD-CSDN博客 EMD、EEM…...

2.1.ReactOS系统中断描述符的格式KIDTENTRY结构体

2.1.ReactOS系统中断描述符的格式KIDTENTRY结构体 2.1.ReactOS系统中断描述符的格式KIDTENTRY结构体 文章目录 2.1.ReactOS系统中断描述符的格式KIDTENTRY结构体KIDTENTRY KIDTENTRY 数据结构KIDTENTRY定义了CPU对中断描述符的格式 // // …...

三、ElementPlus下拉搜索加弹窗组件的封装

近期产品提出了一个需求,要求一个form的表单里面的一个组件既可以下拉模糊搜索,又可以弹窗搜索,我就为这个封装了一个组件,下面看效果图。 效果大家看到了,下面就看组件封装和实现方法 第一步,组件封装&…...

androidStudio编译导致的同名.so文件冲突问题解决

files found with path lib/arm64-v8a/libserial_port.so from inputs: ...\build\intermediates\library_jni\debug\jni\arm64-v8a\libserial_port.so C:\Users\...\.gradle\caches\transforms-3\...\jni\arm64-v8a\XXX.so 解决方式如下: 1.将gradle缓存文件删…...

大学新生编程入门指南:如何选择编程语言与制定学习计划

大学新生编程入门指南:如何选择编程语言与制定学习计划 编程已成为当代大学生的必备技能,尤其是在信息技术高速发展的今天,编程能力不仅能帮助你在课堂学习中脱颖而出,更能为未来职业生涯打下坚实的基础。然而,面对如…...

SpringAI快速上手

一、导入依赖 镜像&#xff08;导入maven依赖&#xff09; <repositories><repository><id>spring-snapshots</id><name>Spring Snapshots</name><url>https://repo.spring.io/snapshot</url><releases><enabled>…...

07 django管理系统 - 部门管理 - 搜索部门

在dept_list.html中&#xff0c;添加搜索框 <div class"container-fluid"><div style"margin-bottom: 10px" class"clearfix"><div class"panel panel-default"><!-- Default panel contents --><div clas…...

数据操作学习

1.导入torch。虽然被称为PyTorch&#xff0c;但应导入torch而不是pytorch import torch 2.张量表示一个数值组成的数组&#xff0c;这个数组可能有多个维度 xtorch.arange(12)x 3.通过张量的shape属性来访问张量的形状和张量中元素的总数 x.shape x.numel() 4.要改变张量的形…...

什么是网络代理

了解网络代理 网络代理是一种特殊的网络服务&#xff0c;它允许一个网络终端&#xff08;通常指客户端&#xff09;通过这个服务与另一个网络终端&#xff08;通常指服务器&#xff09;进行非直接的连接。网络代理服务器位于发送主机和接收主机之间&#xff0c;接收网络请求&a…...

安防监控摄像头图传模组,1公里WiFi无线传输方案,监控新科技

在数字化浪潮汹涌的今天&#xff0c;安防监控领域也迎来了技术革新的春风。今天&#xff0c;我们就来聊聊这一领域的产品——摄像头图传模组&#xff0c;以及它如何借助飞睿智能1公里WiFi无线传输技术&#xff0c;为安防监控带来未有的便利与高效。 一、安防监控的新篇章 随着…...

问:JVM中GC类型有哪些?触发条件有哪些?区别是啥?

在Java虚拟机&#xff08;JVM&#xff09;中&#xff0c;垃圾收集&#xff08;GC&#xff09;是自动管理内存的关键机制。GC负责识别并回收那些不再被程序使用的对象&#xff0c;以释放内存空间。根据回收的区域和策略的不同&#xff0c;JVM中的GC可以分为多种类型。 一、GC的…...

【操作系统的使用】Linux 输入输出重定向:掌握控制台的高级用法

文章目录 Linux 输入输出重定向&#xff1a;掌握控制台的高级用法输出重定向将命令输出保存到文件将命令输出追加到文件 输入重定向从文件读取输入 管道操作将多个命令的输出链接起来 错误重定向将错误信息保存到文件同时重定向输出和错误信息 Linux 输入输出重定向&#xff1a…...

无线通信中的四个关键概念:OFDM、多径效应、CSI和信道均衡

无线通信中的四个关键概念&#xff1a;OFDM、多径效应、CSI和信道均衡 无线通信技术在现代通信系统中发挥着至关重要的作用。无论是日常的手机通信&#xff0c;还是复杂的物联网应用&#xff0c;理解无线信道的特性和优化信号传输的技术是关键。在本文中&#xff0c;我们将介绍…...

如何高效规划千人大会?数字化会议管理的实战经验分享!建议收藏!

在当今快节奏的商业环境中&#xff0c;大型会议不仅是企业展示自身实力、促进交流合作的重要平台&#xff0c;更是推动行业发展、分享创新思维的关键活动。然而&#xff0c;随着参会人数的增加&#xff0c;如何高效规划并管理一场千人大会&#xff0c;成为了组织者面临的巨大挑…...

mysql指令笔记(基本)

一、数据库操作 创建数据库&#xff1a;CREATE DATABASE database_name;选择数据库&#xff1a;USE database_name;删除数据库&#xff1a;DROP DATABASE database_name; 二、表操作 创建表&#xff1a;CREATE TABLE table_name (column1 datatype constraint, column2 datat…...

web前端-----html5----用户注册

以改图为例 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>用户注册</title> </hea…...

bug的定义和测试

一、软件测试的生命周期 软件测试的⽣命周期是指测试流程&#xff0c;这个流程是按照⼀定顺序执⾏的⼀系列特定的步骤&#xff0c;去保证产品 质量符合需求。在软件测试⽣命周期流程中&#xff0c;每个活动都按照计划的系统的执⾏。每个阶段有不同的 ⽬标和交付产物 需求分析…...

Kamailio-Sngrep 短小精悍的利器

一个sip的抓包小工具&#xff0c;在GitHub上竟然能够积累1K的star&#xff0c;看来还是有点东西&#xff0c;当然官方的友链也是发挥了重要作用 首先送上项目地址&#xff0c;有能力的宝子可以自行查看 经典的网络抓包工具有很多&#xff0c;比如&#xff1a; Wireshark&…...

9.6 Linux_I/O_IO模型

基本概念 I/O执行过程与分类&#xff1a; 用户进程中的一个完整I/O分为 "用户进程空间->内核空间->设备空间(磁盘、网卡)" 这两个阶段。 I/O可以分为内存I/O、网络I/O、磁盘I/O 同步和异步是什么&#xff1a; 1、对于线程的请求调用&#xff0c;同步与异步…...

React 探秘(一):fiber 架构

文章目录 背景React 采用 fiber 主要为了解决哪些问题&#xff1f;性能问题&#xff1a;用户体验问题&#xff1a; 为什么在 React 15 版本中性能会差&#xff1a;浏览器绘制原理&#xff1a;react 15 架构和问题 那么 fiber 怎么解决了这个问题&#xff1f;任务“大”的问题递…...

poi通过在word中写入了表格,通过libreoffice转换成PDF后,word中刚才画的表格宽度无限拉伸问题的解决。

一、复现&#xff1a; poi版本&#xff1a; <poi>3.17</poi><poi-ooxml>3.17</poi-ooxml><poi-ooxml-schemas>3.17</poi-ooxml-schemas><dependency><groupId>org.apache.poi</groupId><artifactId>poi</arti…...