当前位置：首页 > news >正文

Modnet 人像抠图（论文复现）

news 2026/2/8 21:47:18

Modnet 人像抠图（论文复现）

本文所涉及所有资源均在传知代码平台可获取

文章目录

- Modnet 人像抠图（论文复现）
- - 论文概述
  - 论文方法
  - 复现
  - WebUI
  - 部署

论文概述

人像抠图(Portrait matting)旨在预测一个精确的 alpha 抠图，可以用于提取给定图像或视频中的人物。

MODNet 是一个轻量级的实时无 trimap 人像抠图模型，与以往的方法相比，MODNet在单个阶段应用显式约束解决抠图子目标，并增加了两种新技术提高效率和鲁棒性。

MODNet 具有更快的运行速度，更准确的结果以及更好的泛化能力。简单来说，MODNet 是一个非常强的人像抠图模型。下面两幅图展示了它的抠图效果

在这里插入图片描述

论文方法

在这里插入图片描述

ModNet 基于三个基础模块构建：语义预测(semantic estimation)，细节预测(detail prediction)，语义-细节混合(semantic-detail fusion)。分别对应图中的左下(S)、上(D)、右下(F)三个模块。

语义预测主要作用于预测人像的整体轮廓，但是仅仅是一个粗略的前景 mask，用于低分辨率监督信号。细节预测用于区分前景与背景的过度区域，判断该区域内的点属于前景还是背景，可以预测边缘细节，用于高分辨率监测信号。两个相结合便可以实现整体的人像分离。

语义预测模块（S）中使用 channel-wise attention 的 SE-Block。监督信号为使用下采样及高斯模糊后的GT，损失函数采用L2-Loss。

细节预测模块(D)的输入由三部分组成，原始图像，S 的中间特征， S 的输出（语义分割图）。D 整体上是一个 Encoder-Decoder 结构，D的监督信号为

在这里插入图片描述

复现

官方并没有给出训练代码以及训练数据集，因此本文主要介绍推理的步骤。

项目的结构如下图

在这里插入图片描述

首先导入库并加载模型，工作目录为代码所在文件夹。

import gradio as gr
import os, sys
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.transforms as transforms
from src.models.modnet import MODNet
import numpy as np
from PIL import Imagemodnet = MODNet(backbone_pretrained=False)
modnet = nn.DataParallel(modnet)
ckpt_path = "./pretrained/modnet_photographic_portrait_matting.ckpt"if torch.cuda.is_available():modnet = modnet.cuda()weights = torch.load(ckpt_path)
else:weights = torch.load(ckpt_path, map_location=torch.device('cpu'))
modnet.load_state_dict(weights)
modnet.eval()ref_size = 512

之后加载图片并处理数据,此处加载名称为1的图片

在这里插入图片描述

image = '1.jpg'
im = Image.open(image)
im = np.asarray(im)if len(im.shape) == 2:im = im[:, :, None]
if im.shape[2] == 1:im = np.repeat(im, 3, axis=2)
elif im.shape[2] == 4:im = im[:, :, 0:3]im_transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]
)im = Image.fromarray(im)
im = im_transform(im)
im = im[None, :, :, :]
im_b, im_c, im_h, im_w = im.shape
if max(im_h, im_w) < ref_size or min(im_h, im_w) > ref_size:if im_w >= im_h:im_rh = ref_sizeim_rw = int(im_w / im_h * ref_size)elif im_w < im_h:im_rw = ref_sizeim_rh = int(im_h / im_w * ref_size)else:im_rh = im_him_rw = im_w
im_rw = im_rw - im_rw % 32
im_rh = im_rh - im_rh % 32
im = F.interpolate(im, size=(im_rh, im_rw), mode='area')

得到可以处理的数据im后，投入模型进行推理。将得到的结果保存为名为 temp.png 的图片

_, _, matte = modnet(im.cuda() if torch.cuda.is_available() else im, True)
matte = F.interpolate(matte, size=(im_h, im_w), mode='area')
matte = matte[0][0].data.cpu().numpy()
matte_temp = './temp.png'

运行之后得到结果，可以看见模型很好的得到了人像

在这里插入图片描述

WebUI

在原项目的基础上，构建了一个 WebUI 方便大家进行操作，界面如下所示

在这里插入图片描述

拖拽你想抠图的人像到左侧的上传框中，点击提交，等待片刻即可在右侧得到对应的结果。此处使用 flickr 的图片进行演示

在这里插入图片描述

模型推导的 mask 会暂时保存在 temp 文件夹中，例如上面的图像得到的就是下图:

在这里插入图片描述

部署

运行 pip install -r requirements.txt 安装所需依赖，并确保你的环境中安装有 PyTorch。在文件夹中运行 python webui.py 即可启动网站,在浏览器中访问即可进入网页

文章代码资源点击附件获取

Modnet 人像抠图（论文复现）

Modnet 人像抠图（论文复现） 本文所涉及所有资源均在传知代码平台可获取文章目录 Modnet 人像抠图（论文复现）论文概述论文方法复现WebUI部署论文概述人像抠图(Portrait matting)旨在预测一个精确的 alpha 抠图，可以用…...

编程日记 2024/10/15 16:11:42

利用session机制造测试账号，无需前端也可以测试后端接口

适用场景：我们在测试的时候经常会遇到前端还没有开发完毕，后端已经结束开发了，但是后端的有些接口是需要特定的账号身份调用才会生效，此时因为前端未开发完毕，所以我们不能通过web页面进行登录，那么如何解决…...

编程日记 2024/10/15 16:08:36

JAVA_18

JAVA_18 1.IO流2.JAVA_IO流3.标准输入输出4.对象序列化5.字符编码与字符集6.异常处理和资源关闭 1.IO流 IO流(Input/Output stream)是用于在程序和外部设备(如文件、网络等)之间进行数据传输的机制。它是Java中处理输入和输出操作的一种抽象方式。概念: 输入流(Input Stream):…...

编程日记 2024/10/15 16:05:30

Linux升级openssl版本服务器编译依赖库检查 $ yum -y install gcc gcc-c make libtool zlib zlib-devel版本检测 $ openssl version OpenSSL 1.0.1e-fips 11 Feb 2013 $ ssh -V OpenSSH_6.6.1p1, OpenSSL 1.0.1e-fips 11 Feb 2013下载openssl 地址：https://www.o…...

编程日记 2024/10/15 16:04:29

多态对象的存储方案小结

某个类型有几种不同的子类，Jackson中的JsonTypeInfo 和JsonSubTypes可以应对这种情形，但有点麻烦，并且name属性必须是字符串、必须用Jackson为基础的json工具类对json字符串和对象进行序列化和反序列化。用过一次这种方案后边就不想再用了。 …...

编程日记 2024/10/15 16:02:26

Linux 之 nano 编辑器

使用git提交的时候，发生冲突或要记录相关信息时会弹出nano这个编辑器。 nano [选项] [[行,列] 文件名]... nano[必要参数][选择参数][文件] 命令行白的部分是组合键，后面的则是该组合键的功能。指数符号(^)代表的是键盘的[ctrl]按键，(M)表示…...

编程日记 2024/10/15 15:58:22

zipkin启动脚本并指定mysql数据存储

#!/bin/bash# 配置部分 ############################################################## Zipkin JAR 文件的名称 # 这里指定了 Zipkin 的可执行 JAR 文件，确保该文件在当前目录中可用。 ZIPKIN_JAR"zipkin-server-2.23.2-exec.jar"# PID 文件的位置 # 该…...

编程日记 2024/10/15 15:57:20

超越GPT-4的视觉与文本理解能力，开源多模态模型领跑者 - Molmo

Molmo是由艾伦人工智能研究所（Ai2）发布的一系列多模态人工智能模型，旨在提高开放系统在性能上与专有系统（如商业模型）之间的竞争力。以下是对Molmo的详细总结： Molmo是什么： Molmo是基于Qwen2和…...

编程日记 2024/10/15 15:56:18

输入输出--I/O流【C++提升】（）

1.1基础知识： 在C中，输入输出（IO）流是通过标准库中的 <iostream> 头文件来处理的。C 提供了几种基本的输入输出流类，最常用的有以下几种： std::cin：用于输入。std::cout：用于…...

编程日记 2024/10/15 15:55:17

Maven 中央仓库地址推荐

目录 Maven 中央仓库地址推荐 Maven Maven 中央仓库概述什么是 Maven 中央仓库？ 中央仓库的作用常用的 Maven 中央仓库地址官方 Maven 中央仓库阿里云 Maven 中央仓库镜像腾讯云 Maven 中央仓库镜像网易 Maven 中央仓库镜像华为云 Maven 中央仓库…...

编程日记 2024/10/15 15:54:16

Fastgpt本地化部署 - 以MAC为例

1.认识fastgpt 2.私有化部署 MongoDB：用于存储除了向量外的各类数据PostgreSQL/Milvus：存储向量数据OneAPI: 聚合各类 AI API，支持多模型调用 （任何模型问题，先自行通过 OneAPI 测试校验） （1&a…...

编程日记 2024/10/15 15:53:16

SpringBoot框架下购物推荐网站的设计模式与实现

3系统分析 3.1可行性分析通过对本东大每日推购物推荐网站实行的目的初步调查和分析，提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性本东大每日推购物推荐网站采用JAVA作为开发语言&…...

编程日记 2024/10/15 15:52:14

Apache Flink 和 Apache Kafka

Apache Flink 和 Apache Kafka 都是大数据生态系统中非常重要的工具，但它们的作用和应用场景有所不同。下面将分别介绍两者的主要特性和它们之间的异同点。 Apache Kafka 作用： 消息队列：Kafka 主要作为消息队列使用，用于解耦生…...

编程日记 2024/10/15 15:51:13

Excel中Ctrl+e的用法

重点：想要使用ctrle，前提是整合或拆分后的结果放置的单元格必须和被提取信息的单元格相邻，且被提取信息的单元格也必须相连。下图为错误示例这样则可以使用ctrle 1、信息整合 2、提取信息 3、添加符号 4、信息顺序调换 5、数字提取 crtle还…...

编程日记 2024/10/15 15:50:12

07-Cesium动态处理线条闪烁材质的属性

这段代码定义了 LineFlickerMaterialProperty 类，用于管理线条闪烁材质的属性。构造函数接收颜色和速度作为选项，类包含动态属性 isConstant 和 definitionChanged，以及获取材质类型和当前属性值的方法。getValue 方法返回颜色和速度的当前值，equals 方法用于比较两个实例是…...

编程日记 2024/10/15 15:48:11

postgresql16分区表解析

PostgreSQL 16 引入了对分区表的多项改进，增强了其性能和可用性。本文介绍PostgreSQL 16 中分区表功能，包括基本概念、创建方法、管理技巧以及一些最佳实践。分区表的基本概念分区表是一种将大表物理分割成更小、更易管理的部分的技术。每个部分称为…...

编程日记 2024/10/15 15:45:07

文字识别解决方案-OCR识别应用场景解析

光学字符识别（Optical Character Recognition, OCR）技术是一种将图像中的文字转换为可编辑和可搜索的数据的技术。随着人工智能和机器学习的发展，OCR技术的应用场景越来越广泛，为文字录入场景带来了革命性的变革，下面以…...

编程日记 2024/10/15 15:44:06

Qt 每日面试题 -9

81、请写一个调用消息对话框提示报错的程序 QMessageBox::waring(this,tr("警告"), tr("用户名或密码错误!"),QMessageBox::Yes)82、Qt都提供哪些标准对话框以供使用，他们实现什么功能? Qt提供9个标准对话框: QColorDialog 颜色对话框&…...

编程日记 2024/10/15 15:43:04

K8s环境下使用sidecar模式对EMQX的exhook.proto 进行流量代理

背景在使用emqx作为mqtt时需要我们需要拦截client的各种行为，如连接，发送消息，认证等。除了使用emqx自带的插件机制。我们也可以用多语言-钩子扩展来实现这个功能，但是目前emqx仅仅支持单个grpc服务端的设置，所以会有…...

编程日记 2024/10/15 15:42:03

Dirble：一款高性能目录扫描与爬取工具

今天给大家介绍的是一款名叫Dirble工具，它是一款易于使用的高性能网站目录扫描工具。该工具针对Windows和Linux平台设计，在Dirble的帮助下，广大安全研究人员可以快速对目标站点进行目录扫描和资源爬取。工具安装广大研究人员可以使用下列…...

编程日记 2024/10/15 15:41:01

Python爬虫实战：研究MechanicalSoup库相关技术

一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库，专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力，提供了直观的 API，让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

编程新知 2025/10/10 18:13:55

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2026/2/8 4:37:20

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

一、破局：PCB行业的时代之问在数字经济蓬勃发展的浪潮中，PCB（印制电路板）作为 “电子产品之母”，其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透，PCB行业面临着前所未有的挑战与机遇。产品迭代…...

编程新知 2026/2/7 17:29:24

MVC 数据库

MVC 数据库引言在软件开发领域，Model-View-Controller（MVC）是一种流行的软件架构模式，它将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系，以…...

编程新知 2025/10/30 4:58:11

P3 QT项目----记事本（3.8）

3.8 记事本项目总结项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

编程新知 2026/2/1 6:56:36

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景随着大语言模型（LLM）的广泛应用，开发者常面临多个挑战：各大模型（OpenAI、Claude、Gemini、Ollama）接口风格不统一；缺乏一个统一平台进行模型调用与测试；本地模型 Ollama 的集成与前…...

编程新知 2026/1/25 3:31:07