当前位置: 首页 > news >正文

神奇动物在哪里,但导演是微软

3e930e97fba287d37e39139d5418fdc1.png

944cd2661ba835ad0703e5dc46668cfa.png

c6873211587af74d2ecaf430b820289f.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


一说到计算机视觉,大多数人第一时间联想到的便是“人脸识别”、“自动驾驶“、道路检测”等跟我们日常生活息息相关的关键词。而在2024年的5月末,微软在GitHub上面上传了这样一个计算机视觉的项目,完全不包含这些关键词,却吸引来了无数人围观,短短两天时间就冲到了700颗星。

这个项目就是Pytorch-Wildlife。项目成立的初衷是因为人类活动导致全球生物多样性急剧下降,对野生动物种群的全面监控变得尤为迫切。

可是想要完全利用人力,来对某一种群或者某一块栖息地进行24小时监控,这显然是不现实的。不仅仅是因为成本过于高昂,而是人类肉眼很难完整观察清楚一些行动迅敏的动物,这就会导致没有办法准确记录物种以及栖息地情况。于是在这个大背景下,Pytorch-Wildlife诞生了。

PyTorch-Wildlife是一个用于创建、修改和共享强大 AI 保护模型的平台。这些模型可用于各种应用,包括相机陷阱图像(当检测到动物经过时进行拍照)、俯视图像、水下图像以及生物声学。通俗来讲,项目是利用数据集和深度学习架构来实现保护野生动物的目的。

项目的原理其实并不复杂。首先,利用了Megadetector v5进行对象检测,这是一个预先训练好的模型,用以过滤掉空图像或含有非动物对象(如人类和车辆)的图像。

8cc4b6fed7b969261b4d7168a8dc52dc.png图:亚马逊丛林的动物

Megadetector是基于Yolov5检测模型架构,专门为动物检测设计的深度学习模型。能够处理来自不同地区和生态系统的大约300万张动物图像。

接下来,对所拍摄的视频和图像进行采集,把采集得到的数据喂给Megadetector v5进行识别筛选。其中,对于视频数据,每段视频按30fps的帧率被拆分成图像帧,如果原视频帧率低于30fps,则使用原始帧率。这种取舍可以平衡模型的运行效率以及识别精准度。

针对检测到的动物对象,Pytorch-Wildlife会将它们裁剪并调整至256x256像素的尺寸,并根据图像级别的标注为每个裁剪图像分配标签。

大多数深度学习模型,尤其是卷积神经网络(CNN),它对输入的素材是有严格规范的。256x256其实是一个常见的选择,因为它既能保持一定的图像细节,又不会使计算负担过大。

在裁剪之后,利用Pytorch-Wildlife的分类微调模块,采用ResNet-50作为基础模型架构,进行动物的识别训练。训练设置包括60个训练周期,批量大小为128,采用随机梯度下降优化器,并设定学习率在每20个周期后衰减。

以往来看,开发者需要对模型进行微调,模型才能够更好地理解和区分特定的动物类别,提高在实际野生动物监测任务中的识别准确率。而Pytorch-Wildlife框架提供的微调模块则简化了这一过程,使得即使是没有深厚技术背景的研究人员,也能利用先进的深度学习技术进行动物识别模型的定制化训练。

Pytorch-Wildlife团队准备两份案例,第一个是在亚马逊丛林中检测动物。

亚马逊雨林是世界上最大的热带雨林,是地球上生物多样性最丰富的地区之一。亚马逊雨林里的动物数量是非常惊人的,已知的动物种类超过了10万种,这包括鸟类、哺乳动物、爬行动物、两栖动物以及其他无脊椎动物等。但是这个数字仅仅是已记录和描述的物种,现代学者普遍认为,还有成千上万甚至是数百万种动物物种尚未被发现和描述。由于亚马逊雨林的广阔和复杂性,新的物种仍在不断被发现,因此确切的动物种类数量是一个不断变化且难以精确统计的数字。

Pytorch-Wildlife使用了一个包含41904张图像的数据集,这些图像覆盖了36个已标记的动物属,其中33569张用于训练,8335张用于验证。

在亚马逊雨林项目中,模型实现了92%的识别准确率,针对90%的数据集在98%的置信度阈值下正确预测。这意味着,大部分动物图像能够被准确分类,只有少量需要人工审核。

除了亚马逊丛林的案例外,Pytorch-Wlidlife还有一个在加拉帕戈斯群岛的项目。这个项目的背景非常独特,虽然加拉帕戈斯群岛的动物种类也很多,然而这个脆弱的生态系统正面临外来入侵物种的重大威胁,这些物种可能改变本地物种的种群动态并导致它们灭绝。

Pytorch-Wlidlife检测到,一些负鼠通过船只、陆地等手段,正在入侵加拉帕戈斯群岛的生态。对本地生物构成了竞争压力,因此连续的监测和管理对于维持生态平衡至关重要。

项目中使用的数据集包含491471段视频,这些视频被标记为“负鼠”或“非负鼠”。数据集被划分为训练集和验证集,分别包含343053段和148418段视频。

经过验证,Pytorch-Wildlife平台训练的模型针对入侵的负鼠识别达到了98%的准确率。比如下面两张图,由于是夜间拍摄的缘故,即便是人的肉眼也很难第一时间分清两种动物。第一张图片是当地的食蚁兽,第二张是外来入侵物种负鼠。

43c205fdb8d6ea81a6a108eb1b41e061.png图:食蚁兽

8de0d7c38df1f3d107cf0080ebe7cc05.png图:负鼠

这部片接下来要怎么拍?

Pytorch-Wildlife在监控和识别上初步取得了成功,不过这对于保护生态平衡上来说显然还是远远不够的。未来Pytorch-Wildlife将会连接LILA:BC数据集,进一步提高对物种识别的能力。

LILA数据集指的是亚历山大图书馆的标注信息库:生物与保护(Labeled Information Library of Alexandria:Biology and Conservation),这是一个专注于生物学和野生动物保护领域的数据集库,提供了多样化的开放数据资源,用于促进野生动植物的监测、保护生物学研究以及生态系统的管理。

LILA数据集包含大量经过标注的信息,比如图片、视频和其他类型的数据,这些数据有助于科学家和保护工作者利用机器学习和深度学习技术来识别和跟踪野生动物,评估生物多样性。此外,通过使用LILA进行与训练,还能够监测生态系统的健康状况。

b7de21ceb6ee003af0a2dc3c4b2c14c6.png图:Pytorch-Wildlife未来的规划图

数据猿也体验了一下Megadetector的实力。识别模型选择Megadetector v5,检测模型选择的是亚马逊丛林。可以明显看出,只要是亚马逊丛林中出现的动物,Megadetector都能很好的识别出来。

a3b30544134b2c528e11026283edca09.png图:亚马逊丛林中的豹子

不过像是数据猿LOGO这种卡通动物形象,即便把识别阈值拉满,Megadetector也没有办法识别出来。相反,如果是真实的动物,Megadetector只需要很低的阈值就能识别。

05f2ee5020e42e3985f666b1b43ae853.png图:Megadetector无法识别卡通动物形象

根据开发团队的介绍,Megadetector的最新版本,也就是Megadetector v6即将上线,识别率远超v5版本,同时消耗的计算资源更低。目前,使用Megadetector v5检测一张图片耗时约为20秒,而v6版本将会让耗时小于15秒。

另外Megadetector v6还会支持更多的低预算设备,这是因为在亚马逊丛林等地,温热潮湿的生态环境会使得拍摄设备损坏率提高,没办法长期维持成本高昂的拍摄设备。然而成本较低的拍摄设备会导致拍摄画面的分辨率低下,帧数低下等等,对Megadetector的识别作业起到非常负面的影响。

在未来,Pytorch-Wildlife会支持更多种类的识别方式,比如鸟瞰图、水下拍摄。这何尝不是一种新的云养殖野生动物的方法?

AI For Good

Pytorch-Wildlife属于典型的AI For Good项目,这个概念由微软提出,不过与其说是概念,更像是一种倡议。它是指在推动人工智能技术的发展与应用,以解决全球性的社会、环境和经济挑战,促进可持续发展。这一理念鼓励科研人员、企业、政府、非政府组织以及社会各界合作,利用人工智能的力量创造正面影响,确保技术进步惠及全人类和地球生态。

不一定非得是动物,其他类似的方式都可以算是AI For Good。例如,通过机器学习算法监测森林砍伐、海洋污染、气候变化和生物多样性减少,以及开发智能系统优化资源利用和能源管理。

事实上,Pytorch-Wildlife的核心,Megadetector,几乎没有办法复刻任何的商业途径。但这个项目依然拥有足够高的关注度,说明人们关注AI,使用AI技术,眼里并不是只有它的商业化能力,而是如何去使用AI,来建设赖以生存的家园。当然了,也有一部分人是冲着这个项目可以免费看真正的野生动物去的。

国内也有不少AI公司着手于类似的项目,比如百度的“绿色伙伴计划”,通过AI来减少碳排放。根据记录,百度地图“低碳计划”全年累计访问量超过 4000 万人次,累计可减少碳排放量超 3800 吨。

还有腾讯的“自然风险评估”,应用AI调优技术,腾讯2023年当年减少用电量约5000兆瓦时,避免碳排放2851.5吨。

文:火焰翼人 / 数据猿
责编:凝视深空 / 数据猿

1ad7d65aa6175a68156225402597d915.jpeg

cac43d5e6580bd77fff93af40e463223.png

bdb2f5ef2f7610d0ab86aab0705b5401.png

ccda0ddd01768285fce4f4e88766a0c1.jpeg

8c9b0ad7f29a9c4519b88cf9413a1303.png

相关文章:

神奇动物在哪里,但导演是微软

大数据产业创新服务媒体 ——聚焦数据 改变商业 一说到计算机视觉,大多数人第一时间联想到的便是“人脸识别”、“自动驾驶“、道路检测”等跟我们日常生活息息相关的关键词。而在2024年的5月末,微软在GitHub上面上传了这样一个计算机视觉的项目&#x…...

Flutter 中的 Flow 小部件:全面指南

Flutter 中的 Flow 小部件:全面指南 Flutter 的 Flow 是一个功能强大的布局小部件,它允许开发者在父组件的任意位置放置子组件。Flow 可以通过使用 FlowDelegate 完全自定义子组件的布局,这为创建复杂的自定义布局提供了极大的灵活性。本文将…...

【pyspark速成专家】11_Spark性能调优方法2

目录 ​编辑 二,Spark任务UI监控 三,Spark调优案例 二,Spark任务UI监控 Spark任务启动后,可以在浏览器中输入 http://localhost:4040/ 进入到spark web UI 监控界面。 该界面中可以从多个维度以直观的方式非常细粒度地查看Spa…...

吊顶的做法防踩坑,吊顶怎么省钱还好看

怎么做个好看的吊顶?你天天抬头看不? 现在楼房到手本身层高两米75左右,等铺完地暖和瓷砖还得增加几公分 如果再整个吊顶,就属于花钱买压抑了,吊顶就是遮丑, 某些比较显层高还亮堂,今天把做法分享出来 开发商给的毛坯两米8 做完地暖铺完瓷砖,层高是两米七八, 让木工在走廊两边…...

揭秘Tensor Core黑科技:如何让AI计算速度飞跃

揭秘 Tensor Core 底层:如何让AI计算速度飞跃 Tensor Core,加速深度学习计算的利器,专用于高效执行深度神经网络中的矩阵乘法和卷积运算,提升计算效率。 Tensor Core凭借混合精度计算与张量核心操作,大幅加速深度学习…...

为什么会有websocket(由来)

一、HTTP 协议的缺点和解决方案 1、HTTP 协议的缺点和解决方案 用户在使用淘宝、京东这样的网站的时候,每当点击一个按钮其实就是发送一个http请求。那我们先来回顾一下http请求的请求方式。 一个完整的http请求是被分为request请求节点和response响应阶段的&…...

【MySQL精通之路】优化

1 优化概述 数据库性能取决于数据库级别的几个因素,如表、查询和配置设置。这些软件结构导致了硬件级别的CPU和I/O操作,您必须将其最小化并使其尽可能高效。 在研究数据库性能时,首先要学习软件方面的高级规则和指导原则,并使用挂…...

解读大模型应用的可观测性

一、引言 随着人工智能技术的飞速发展,大模型作为AI领域的重要分支,正日益成为科技竞争的新高地。大模型通过输入大量语料进行训练,赋予计算机拥有像人类一样的“思考”能力,使其能够理解文本、图片、语音等内容,并进…...

嵌入式学习记录5.18(多点通信)

一、套接字属性设置相关函数 #include <sys/types.h> /* See NOTES */#include <sys/socket.h>int getsockopt(int sockfd, int level, int optname,void *optval, socklen_t *optlen);int setsockopt(int sockfd, int level, int optname,const void *op…...

shell脚本的基础应用

规范脚本的构成 #&#xff01;/bin/bash # 注释信息 可执行的语句 执行脚本的方法 有1.添加x权限 ,绝对路经&#xff0c;或者相对路径2. 使用解释器 不需加x,root...bash...bash..echo 3,用source&#xff0c; 开机root ...bash ...echo bash -x /opt/test01.sh &#xff…...

【golang】内存对齐

什么是内存对齐 在访问特定类型变量的时候通常在特定的内存地址访问&#xff0c;这就需要对这些数据在内存中存放的位置有限制&#xff0c;各种类型数据按照一定的规则在空间上排列&#xff0c;而不是顺序的一个接一个的排放&#xff0c;这就是对齐。 内存对齐是编译器的管辖…...

Java 17的新特性有哪些?

Java 17是Java编程语言的最新版本&#xff0c;于2021年9月14日发布。以下是Java 17的一些新特性&#xff1a; Sealed类和接口&#xff1a;Sealed类和接口限制了继承和实现的范围&#xff0c;在编译时提供更强的封装性。 Pattern匹配&#xff1a;Pattern匹配简化了对实例进行类…...

攻击同学网络,让同学断网

技术介绍&#xff1a;ARP欺骗 ARP欺骗&#xff08;ARP spoofing&#xff09;是一种网络攻击技术&#xff0c;它通过伪造ARP&#xff08;地址解析协议&#xff09;响应包来欺骗目标设备&#xff0c;使其将网络流量发送到攻击者指定的位置。具体操作步骤如下&#xff1a; 攻击者…...

Springboot启动时报错Property ‘mapperLocations‘ was not specified.

这几天没整boot 晚上直接运行不了了 本想是在表现层写点代码测测接口的 localhost8080找半天 结果404 先考虑好久 是不是url输入错了 然后 就发现 结果boot都不能启动了 JUnit也测不出来 找了半天 结果是开关机导致数据库没开 手动打开服务 找到MySQL启动 IDEA连接数据…...

MyBatis系统学习篇 - 动态SQL

MyBatis提供了动态SQL帮助我们解决在业务过程中&#xff0c;我们根据不同的条件动态生成SQL语句&#xff0c;用来满足各种复杂的查询需求&#xff0c;包括MyBatis中常用的动态SQL标签和用法&#xff0c;这种方式在一定程度上帮助我们重复写许多SQL堆积在一起&#xff0c;下面我…...

[LLM-Agent]万字长文深度解析规划框架:HuggingGPT

HuggingGPT是一个结合了ChatGPT和Hugging Face平台上的各种专家模型&#xff0c;以解决复杂的AI任务&#xff0c;可以认为他是一种结合任务规划和工具调用两种Agent工作流的框架。它的工作流程主要分为以下几个步骤&#xff1a; 任务规划&#xff1a;使用ChatGPT分析用户的请求…...

二十三篇:未来数据库革新:AI与云原生的融合之旅

未来数据库革新&#xff1a;AI与云原生的融合之旅 1. 智能数据库管理&#xff1a;AI的魔法 在数字化时代&#xff0c;数据库技术作为信息管理的核心&#xff0c;正经历着前所未有的变革。AI&#xff08;人工智能&#xff09;和云原生技术的融合&#xff0c;正在重新定义数据库…...

彩光赋能中国智造 极简光3.X助力“数智”转型

蒸汽时代、电气时代、信息时代三大工业革命后 互联网和智能制造主导的工业4.0时代来临 大数据、云计算、人工智能等新兴技术 对企业园区的网络架构、负载能力等 提出了新要求,也使得光纤较于传统铜缆 在距离、性能、延时上的优势日益凸显 基于此 围绕未来园区网建设的企…...

985上交应届生转正12天,被某东辞退了!

&#x1f447;我的小册 45章教程:(小白零基础用Python量化股票分析小册) ,原价299&#xff0c;限时特价2杯咖啡&#xff0c;满100人涨10元。 01.事情起源 最近粉丝群都在转发一个截图&#xff0c;某应届毕业生在某东实习一年&#xff0c;才转正才12天&#xff0c;就因为自己调侃…...

Unity算法(一)——快速排序算法

文章目录 前言快速排序算法1、概念与实现2、优化 前言 算法是程序员的基础能力之一&#xff0c;资质越老的程序员在这方面理解会越深&#xff0c;很多时候项目在某个需要优化、提升的节点时&#xff0c;往往一些算法的使用就可以大大提升程序性能。当然&#xff0c;对于不同项…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…...

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明&#xff1a; 想象一下&#xff0c;你正在用eNSP搭建一个虚拟的网络世界&#xff0c;里面有虚拟的路由器、交换机、电脑&#xff08;PC&#xff09;等等。这些设备都在你的电脑里面“运行”&#xff0c;它们之间可以互相通信&#xff0c;就像一个封闭的小王国。 但是&#…...

工业安全零事故的智能守护者:一体化AI智能安防平台

前言&#xff1a; 通过AI视觉技术&#xff0c;为船厂提供全面的安全监控解决方案&#xff0c;涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面&#xff0c;能够实现对应负责人反馈机制&#xff0c;并最终实现数据的统计报表。提升船厂…...

Nuxt.js 中的路由配置详解

Nuxt.js 通过其内置的路由系统简化了应用的路由配置&#xff0c;使得开发者可以轻松地管理页面导航和 URL 结构。路由配置主要涉及页面组件的组织、动态路由的设置以及路由元信息的配置。 自动路由生成 Nuxt.js 会根据 pages 目录下的文件结构自动生成路由配置。每个文件都会对…...

Java 加密常用的各种算法及其选择

在数字化时代&#xff0c;数据安全至关重要&#xff0c;Java 作为广泛应用的编程语言&#xff0c;提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景&#xff0c;有助于开发者在不同的业务需求中做出正确的选择。​ 一、对称加密算法…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

用机器学习破解新能源领域的“弃风”难题

音乐发烧友深有体会&#xff0c;玩音乐的本质就是玩电网。火电声音偏暖&#xff0c;水电偏冷&#xff0c;风电偏空旷。至于太阳能发的电&#xff0c;则略显朦胧和单薄。 不知你是否有感觉&#xff0c;近两年家里的音响声音越来越冷&#xff0c;听起来越来越单薄&#xff1f; —…...

【JVM】Java虚拟机(二)——垃圾回收

目录 一、如何判断对象可以回收 &#xff08;一&#xff09;引用计数法 &#xff08;二&#xff09;可达性分析算法 二、垃圾回收算法 &#xff08;一&#xff09;标记清除 &#xff08;二&#xff09;标记整理 &#xff08;三&#xff09;复制 &#xff08;四&#xff…...

LabVIEW双光子成像系统技术

双光子成像技术的核心特性 双光子成像通过双低能量光子协同激发机制&#xff0c;展现出显著的技术优势&#xff1a; 深层组织穿透能力&#xff1a;适用于活体组织深度成像 高分辨率观测性能&#xff1a;满足微观结构的精细研究需求 低光毒性特点&#xff1a;减少对样本的损伤…...

第7篇:中间件全链路监控与 SQL 性能分析实践

7.1 章节导读 在构建数据库中间件的过程中&#xff0c;可观测性 和 性能分析 是保障系统稳定性与可维护性的核心能力。 特别是在复杂分布式场景中&#xff0c;必须做到&#xff1a; &#x1f50d; 追踪每一条 SQL 的生命周期&#xff08;从入口到数据库执行&#xff09;&#…...