打卡智能中国(五):博士都去哪儿了?
《打卡智能中国》系列更新了几期,有读者表示,很爱看这类接地气的真实故事,也有读者反映,不是电工,就是文员、农民、治沙人,人工智能不是高精尖学科吗?那些学历很高的博士都去哪儿了?
答案是:他们在地里,厂里,矿里呢。
中科院的林博士,我见过他两次。
第一次是2020年,某AI精英培训班的开学典礼。当时,林博士对AI的了解,还停留在“深度学习的皮毛”,他调用平台的机器视觉模型,开发了一个识别动物的模型,他说:“可以识别的种类还比较少,我来也想看看其他学员都用AI做些什么工作,跟大家多学习。”林博士那次介绍这个AI产品时,还有些没底气。
第二次是2022年,在一个普通的会议室采访间,林博士的言谈内容,变得自如和丰富了很多。
“之前的那个生物识别应用,这几年已经多出了好多个模型,扩展到了哺乳动物、两栖爬行、昆虫科一级、蝴蝶种一级的识别,”他说,“我们还用AI做了别的事,一个是野外生物的图像采集和自动化识别,一个是通过声纹识别来进行野外动物保护,目前设备已经弄好了。我们还支撑别的企业去做AI商业化应用,比如农业病虫害的识别”。
两年时间,林博士从AI新手成长为AI熟手,也从一个坐在电脑前搞研究的学者,多了很多上深林、下农田的经验。他眼中的AI,倒映着智能中国的上限与纵深。
今天的故事,是科研领域的博士,怎么从零开始用AI、做AI。
研究所里的AI,有什么不一样?
科研领域的智能化,与工农商等行业既有相同点,也有不同点。
相同点在于:1.缺人;2.缺数;3.缺场景。
科研领域汇聚了大量高学历人才,但依然缺少能将AI与细分学科相结合的复合型人才。就拿林博士来说,他本身是信息学专业的,因为生物研究要用到计算机分析等信息技术,才加入了中科院下属的动物研究所,对于深度学习、图像识别、声纹识别等人工智能技术,他也要从头学起,迭代自己的知识体系。
此外,研究型机构大多有一定的数据积累,但也分领域、分专业甚至分物种。比如林博士想做的物种识别、鸟类声纹识别等AI应用,很多珍稀动物,别说语音资料,连野外活动的图像,数据库里一共都没几张,而缺少充足的数据,AI很难发挥作用。
还有,科学研究的哪些课题、方向能用到AI,这也是一个需要科学家们发挥“主观能动性”去摸索的东西。林博士提到,很多科学研究中已经有很成熟的计算工具了,要用到AI肯定是要从一线科研人员开始推动,这就需要自己有一定的想法,他说:“所以我听说有这个深度学习人才培训,就带着我的课题主动来报名了,希望能顺利毕业。”
当然,AI+科研也有其特别的地方。
比如,特别没钱途。
第一次见面,我好奇地问,“当下AI跟生物的碰撞多不多?”林博士笑言:
“AI在医学领域应用的很快,但在生物识别方面就没有那么好,可能跟动物保护这种基础性研究的商业价值不大有关系,投入上有一定的滞后性。”
玩笑归玩笑,AI与科研的结合也特别重要。
林博士的经历证明,基础研究领域的AI创新一旦成长起来,可以带来产学研用的一系列联动效应。
2020年,林博士刚刚做出了一款识别动植物的科普类App,集成了计算机视觉技术和他们单位的动植物百科资料,方便一些动物爱好者、野外观测调查员以及小学生和家长们使用。
中国领土广阔,专家考察有一定的时间线,比如每五年一次,很可能就会错失某些物种的观察机会,导致采样到的数据是有偏差的。而且生物领域的分类学家、人才也处于萎缩状态,越来越少人愿意从事这样艰苦的野外工作,所以全靠研究者和野外工作者去采集和分类,是非常不现实的。
通过智能技术的创新应用,聚集起更多数据合作伙伴,发动机构乃至广大用户一起参与进来,对于生物保护和研究的开展很有帮助。
而这样一个纯公益的工作,随后也凝聚起了很多研究机构、公益组织以及企业/产业界的关注。
林博士告诉我,开发完那个App之后,很多类似的国际动物保护机构跟他们建立了很好的联系,他们输出技术,而对方将获取的生物数据资料反馈给他们,让他们获得了几十万的影像数据,其中很多都是新增的观测点位,相当于给国家节省了好多科研经费。
可持续的数据获取机制,对于后续科研任务的开展是非常重要的。
除此之外,他们还吸引到了一些商业化项目方,前来寻求合作。
比如有企业知道他们有这个技术,找到他们想开发一种害虫识别的系统,恰好林博士所在的单位本身也承担着病虫害防治工作,有做好粮食安全保障的职能。于是双方一拍即合,开始搭建病虫害的数据库,进行识别算法的开发。
相比跟经济价值更近的工农商业,科研领域的智能化看起来好像没那么紧迫,却有着“创新发动机”的作用:影响的不是一个人、一家企业,而可能是一个行业(比如上文提到的农业)、一个群体(比如科普教育)乃至一个国家(比如学科人才建设)。
从象牙塔到农田:一个博士的脚步
此前报道中的电力工人、水厂员工都是AI应用末端环节的一份子。
而借助林博士的脚步,我们可以看到,一种AI能力是如何诞生的又如何抵达应用末端。
第一步:从零做数据。
接收到企业提出的识别病虫害的需求之后,林博士发现,数据就是一个很大的挑战。
从生物学的角度,害虫也有很多种,一种害虫的发育过程中还有很多种形态,从虫卵、弱虫、幼虫、成虫的发育状态都不同,在图像分类过程中就属于不同类别,如果是外行人来做,根本做不明白也没有一个成型的数据库。
所以林博士和团队,必须从电脑桌前走到地里,去实地采集不同阶段的图像,确定病虫害不同发育阶段的形状特征,为后续模型的精准识别打下基础。
第二步:跟农业专家深入交流。
不同地区的病虫害可能并不相同,里面涉及到很多非常专业的知识点,比如北京郊区的番茄有哪些常见的病虫害?发现害虫后会对接怎样的防治措施?提供什么药物?这都要深入到大棚里,跟当地的植保专家以及长期从事一线生产的农民们进行交流,这样才能保证后期打造的AI系统,能够提供从病虫害识别到防治指导的全套工作。
第三步:模型开发与调优迭代。
林博士和同事们基本都是信息学专业,并不是深度学习算法工程师出身,而农业项目的模型迭代又很快,一批图像采集完了之后,马上就要迭代一批模型,为了精准识别不同作物,还要开发不同的模型,这样模型很多,开发和迭代工作量很大。
林博士表示,科研工作中可能很看重AI开发框架的灵活性、可扩展性、先进性等,比如为了发paper便于同行复现,大家更倾向于使用TensorFlow、PyTorch这样的海外平台,而真正在开发产业用模型时,我们更看重的是平台的易用性,以及面向应用的工业化能力是不是很简单易用,有没有已经训练好的性能不错的模型。
因为底层的技术手段、理论方法,国内外开发平台都是一样的,也都是开源的,没什么区别,但容不容易训练,容不容易部署,能不能工业性地批量生产(模型),这些问题的答案对产业智能化很重要。
目前,由林博士及团队支持的该农业病虫害应用已经在北京落地了,这也是北方地区第一款病虫害识别的App。
为什么做这个项目?林博士及团队的出发点和商业公司的想法就不太一样——一方面是企业/农户有需求;另一方面是为了帮助新农人。
“现在大量的新型农业生产者,比如年轻一代,”林博士提到,“他们没有熟练的生产经验,也不依赖上一辈传授的经验,而是更依赖从互联网获取的信息。这时候我们给他提供一个工具——AI识别,慢慢地他们也会成长为有经验的生产者。”
以往《打卡智能中国》的主角,电力工人放飞的无人机,水厂员工日常使用的智慧系统,这些AI工具背后就是无数个林博士。
学员?导师?研究员?开发者?
一个AI人的身份转换
第一次见到林博士,他还是一个带着课题等待被评判的“AI新手学员”。
第二次见到他,已经是国内某AI开源社区的技术专家了。
林博士平时还会承担一些新手指导、开发经验分享等任务,把自己的数据和模型开源放到平台上,让开发者和学生用户有实践和练手的机会。
培养多一点AI人才,这种“利他”的思维,好像就刻在这位学者的脑子里,不用犹豫和思索,自然而然地就去做了。
AI人才需求量大、缺口大,已经是公认的事实,也成为人工智能产业进一步繁荣发展的限制。
AI人才的培养难,一是因为技术新,相较于理数生化等传统学科,以及计算机这样的成熟学科来说,AI本身是一门新兴技术,还在不断更新迭代,没有完善的人才培养模式和课程体系;二是交叉性强,AI是一门应用型技术,要求跟产业紧密结合、实践落地,仅靠学校教育是无法满足AI复合型人才的培养需求。
十四五规划中提出,人工智能行业要形成产学研用深度融合的技术创新体系,连通企业、高校、研究院所、政府等创新主体。
在AI生态里,“产学研用”是分层的,每一层都承担着各自主要的创新任务,但分层不代表割裂,各层还要紧密联动,拧成一个创新链条。
“林博士们”就成了那个游走在各层的关键角色:
在产业中,他们是AI创新的开发者;
在高校人才培养中,他们是那个给学弟、学妹指导的前辈;
在研究中,他们是将AI技术与科学探索相结合的先行者;
在应用环节,他们会主动去贴近一线使用者,让AI工具能变得更好用。
“谈笑有鸿儒,往来无白丁”这就是今天的AI学人,既有身处象牙塔兼济天下的理想情怀,又有身先士卒深入产业的行动能力。
有一个工业大学的老师曾告诉我,要把AI研究做到工厂里,这和林博士把AI做进农田里,有异曲同工之妙。
这些学者拥抱AI的经历,让我深切的感受到:AI既是一个专业,也不是一个专业。AI将更多专家和学者拉进AI的世界,“产学研用”的闭环加速转动,才能持续打开AI的上限和想象空间。
大鹏之动,非一羽之轻也,多元人才的合力,才能托举起智能中国。
相关文章:

打卡智能中国(五):博士都去哪儿了?
《打卡智能中国》系列更新了几期,有读者表示,很爱看这类接地气的真实故事,也有读者反映,不是电工,就是文员、农民、治沙人,人工智能不是高精尖学科吗?那些学历很高的博士都去哪儿了?…...

[Nacos] Nacos Client获取调用服务的提供者列表 (四)
文章目录 1.Nacos Client获取调用服务的提供者列表1.1 从Ribbon的负载均衡入手到Nacos Client获取调用服务的提高者列表1.2 getServers方法返回分析1.3 通过selectInstances方法查找Instances实例1.4 获取到要调用服务的serviceInfo Nacos Client 从Ribbon负载均衡调用服务。 …...
gcc编译一个程序的步骤(嵌入式学习)
1.预处理(Preprocessing): 在这个步骤中,预处理器将处理与#相关的代码,包括展开头文件、删除无用定义和替换宏定义。预处理器会生成一个经过宏替换和条件编译处理的中间文件。 gcc -E xxx.c -o xxx.i2.编译࿰…...

邹检验,结构变化识别及其R语言实现
在描述多维数据的维度关系时,线性模型无疑应用最多。然而某些情况下,我们关心随着时间变化或随着样本分组,线性关系的具体参数是否发生了变化,即是否发生结构变化Structural break。邹检验Chow test提供了最基本的一种结构变化显著…...

腾讯云,物联网开发平台产品,动态注册步骤
1. 下载后解压,qcloud_iot_mqtt_sign-master.zip GitHub - tencentyun/qcloud_iot_mqtt_signContribute to tencentyun/qcloud_iot_mqtt_sign development by creating an account on GitHub.https://github.com/tencentyun/qcloud_iot_mqtt_sign 2. 按照readme文…...

Padding, Spacer, Initializer 的使用
1. Padding 的使用 1.1 样式一 1) 实现 func testText1()-> some View{Text("Hello, World!").background(Color.yellow) // 背景颜色//.padding() // 默认间距.padding(.all, 10) // 所有的间距.padding(.leading, 20) // 开始的间距.ba…...

少儿编程 中国电子学会图形化编程等级考试Scratch编程四级真题解析(判断题)2023年3月
2023年3月scratch编程等级考试四级真题 判断题(共10题,每题2分,共20分) 11、在使用自定义积木时,不可以传递布尔型参数 答案:错 考点分析:考查自定义积木的使用,使用自定义积木的时候可以传递数字、文本和布尔型参数,所以错误 12、执行如下图程序后,输出的结果为“…...
Makefile学习笔记
目录 一、概述 1.1 Makefile 介绍 1.2规则 1.3核心 1.4示例 1.5定义命令 1.6 make是如何工作的 1.7、makefile中使用变量 1.8让make自动推导 1.9、另类风格的makefile 1.10、清空目标文件的规则 二、Makefile 总述 2.1、Makefile里有什么? 2.2、 mak…...
C++ 函数模板基础
文章目录 一、什么是函数模板二、函数模板的优点1、代码重用2、类型安全3、可读性4、泛型编程5、性能优化6、库开发 三、函数模板的使用场景1、通用操作2、数据结构与容器操作3、排序与查找算法4、数学与统计函数5、类型转换器6、自定义函数对象 四、模板参数的声明(…...
CUDA torch reinstall 与杂谈
一 实用技巧 1 从cuda11升级到12 apt-get --purge remove "cuda*" wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run sh cuda_12.1.1_530.30.02_linux.run vim ~/.bashrc export PATH/usr/local…...
[230530] 托福TPO口语真题| TPO66~TPO72|XPO|Task1|20:30~21:00
目录 真题 预测题 真题 66. Do you agree or disagree with the following statement? Some people believe that a person needs a college education in order to have a successful career. Others believe that a college education is not necessary for…...

【FMC201】基于FMC标准的1路CameraLink Full 输入 子卡模块
产品概述 FMC201是一款CameraLink信号输入(采集)FMC子卡模块,该模块支持2路CameraLink Base模式或者1路CameraLink Full模式的图像信号输入。板卡具有2个CameraLink端口(SDR26),可以作为采集卡使用。 技术指…...

C语言_VS系列编译器写C语言或C++代码产生的一些错误与警告的解决方法(VS2010/VS2019)
本次来分享在用VS系列编译(VS2010/VS2019)写C语言或C代码时会遇到的一些警告和错误,提供博主的一些解决方法,若有更好的解决方法,大家也可以在评论区发表自己的意见噢,话不多说,开始上菜: 此博主在CSDN发布…...
从零实现一个数据库(DataBase) Go语言实现版 0.介绍
英文源地址 数据库实现步骤细分 1.持久化(Persistence) 我们为什么需要数据库?为什么不是直接把数据dump进文件中. 第一个话题就是持久化. 我们将讨论如果写入文件的过程中程序崩溃了, 或者电源断电了, 文件的状态会是什么样的呢? 文件是否只是丢失了最后一次写操作?或者…...

操作系统-X18 linux日志审计
Linux日志审计 在unix/类unix(Linux)系统中,日志是内核(内存)的一部分。 用于记录系统、程序运行中发生的各种事件 通过阅读日志,有助于诊断和解决系统故障 日志文件的分类 ①内核及系统日志 由系统sysl…...
【Vue工程】011-Axios
【Vue工程】011-Axios 文章目录 【Vue工程】011-Axios一、概述1、简介2、官网3、訾博其他相关博客【axios】001-axios概述、特点、文档说明【axios】002-axios发起请求axios封装 二、基本使用1、安装2、创建一个 token 状态3、axios 封装4、使用示例设置 baseURL请求调用拦截器…...

Cy7 NHS ester水溶性七甲川花菁染料标记活性脂477908-53-5
Sulfo-CY7 NHS ester是一种荧光标记试剂,可用于生物分子的荧光标记。它是一种水溶性的N-羟基琥珀酰亚胺酯化合物,具有强烈的荧光信号和高度稳定性。Sulfo-CY7 NHS ester的化学结构为C43H48N3NaO16S2,分子量约为968.98 g/mol。Sulfo-CY7 NHS e…...

利用CX-ONE搭建omron PLC仿真环境
目录 1 安装参考 2 CX-Simulator 2.1 打开软件 2.2 选择PLC配置文件存放位置 2.3 选择PLC类型 2.4 PLC Unit全部选择 2.5 设置FINS通讯 2.6 设置串口通讯 2.7 建立连接 3 CX-Programmer 3.1 新建工程 3.2 设置PLC型号 3.3 设置网络类型 3.4 设置串口通讯 3.5 设…...

webpack Plugin Loader
本文作者为 360 奇舞团前端开发工程师 webpack是Javascript工具链的关键部分。webpack是个用于现代JavaScript应用程序的静态模块打包工具。它不仅可以支持ESM和CommonJS模块化编程,而且还可以支持或扩展支持许多不同的静态资源,例如:Files,I…...

关闭eslint - vue篇
文章目录 一、问题描述二、问题解决1、首先是比较旧的vue项目2、创建项目的时候,不要选eslint3、如果你使用的编辑软件是webstorm4、创建的项目没有webpack.base.conf.js文件,但是有 .eslintrc.js5、比较新的vue项目,目录没有(直接…...
SciencePlots——绘制论文中的图片
文章目录 安装一、风格二、1 资源 安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格 简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源 论文绘图神器来了:一行…...
Admin.Net中的消息通信SignalR解释
定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...
QMC5883L的驱动
简介 本篇文章的代码已经上传到了github上面,开源代码 作为一个电子罗盘模块,我们可以通过I2C从中获取偏航角yaw,相对于六轴陀螺仪的yaw,qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

Swift 协议扩展精进之路:解决 CoreData 托管实体子类的类型不匹配问题(下)
概述 在 Swift 开发语言中,各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。 不过,在涉及到多个子类派生于基类进行多态模拟的场景下,…...
1688商品列表API与其他数据源的对接思路
将1688商品列表API与其他数据源对接时,需结合业务场景设计数据流转链路,重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点: 一、核心对接场景与目标 商品数据同步 场景:将1688商品信息…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用
1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制
在数字化浪潮席卷全球的今天,数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具,在大规模数据获取中发挥着关键作用。然而,传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时,常出现数据质…...

基于Java+MySQL实现(GUI)客户管理系统
客户资料管理系统的设计与实现 第一章 需求分析 1.1 需求总体介绍 本项目为了方便维护客户信息为了方便维护客户信息,对客户进行统一管理,可以把所有客户信息录入系统,进行维护和统计功能。可通过文件的方式保存相关录入数据,对…...

深度学习水论文:mamba+图像增强
🧀当前视觉领域对高效长序列建模需求激增,对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模,以及动态计算优势,在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内,就有不…...

Golang——7、包与接口详解
包与接口详解 1、Golang包详解1.1、Golang中包的定义和介绍1.2、Golang包管理工具go mod1.3、Golang中自定义包1.4、Golang中使用第三包1.5、init函数 2、接口详解2.1、接口的定义2.2、空接口2.3、类型断言2.4、结构体值接收者和指针接收者实现接口的区别2.5、一个结构体实现多…...