当前位置：首页 > news >正文

数学建模_缺失值处理_拉格朗日、牛顿插值（全）

news 2026/2/11 1:26:14

- 缺失值处理

1. 识别缺失值

在处理缺失值之前，首先需要识别数据中的缺失值。

1.1 使用 isna() 和 isnull()

Pandas 提供了 isna() 和 isnull() 方法来检测缺失值，二者功能相同。
import pandas as pddf = pd.DataFrame({'A': [1, 2, None, 4],'B': [None, 2, 3, 4],'C': [1, None, None, 4]
})# 检测缺失值
print(df.isna())
1.2 汇总缺失值

使用 sum() 可以汇总缺失值的数量。
# 每列缺失值的数量
print(df.isna().sum())# 每行缺失值的数量
print(df.isna().sum(axis=1))
2. 删除缺失值

有时删除缺失值是最佳选择，特别是当缺失值较多或数据无用时。

2.1 删除包含缺失值的行

使用 dropna() 删除包含缺失值的行。
df_cleaned = df.dropna()
print(df_cleaned)
2.2 删除包含缺失值的列

通过设置 axis=1，可以删除包含缺失值的列。
df_cleaned = df.dropna(axis=1)
print(df_cleaned)
2.3 根据特定条件删除缺失值

使用 thresh 参数可以保留至少有指定数量非缺失值的行或列。
df_cleaned = df.dropna(thresh=2)
print(df_cleaned)
3. 填充缺失值

填充缺失值是一种常用的策略，特别是在不能删除数据的情况下。

3.1 使用固定值填充

使用 fillna() 方法可以用指定的值填充缺失值。
df_filled = df.fillna(0)
print(df_filled)
3.2 使用前向或后向填充

使用 method 参数选择前向填充（ffill）或后向填充（bfill）。
# 前向填充
df_filled = df.fillna(method='ffill')
print(df_filled)# 后向填充
df_filled = df.fillna(method='bfill')
print(df_filled)
3.3 使用均值、中位数或众数填充

可以根据列的统计值进行填充，如均值、中位数或众数。
# 用列的平均值填充
df_filled = df.fillna(df.mean())
print(df_filled)# 用列的中位数填充
df_filled = df.fillna(df.median())
print(df_filled)# 用列的众数填充
df_filled = df.fillna(df.mode().iloc[0])
print(df_filled)
4. 替换特定值

有些数据集中缺失值可能被标记为特定的值，如 -999。可以将这些值替换为 NaN。
df_replaced = df.replace(-999, pd.NA)
5. 插值法填充缺失值

插值法通过已有数据来估算未知数据点。

5.1 线性插值

Pandas 提供 interpolate() 方法进行插值填充。
df_interpolated = df.interpolate(method='linear')
print(df_interpolated)
5.2 时间序列插值

如果数据是时间序列，可以使用 time 方法进行插值。
df_time_interpolated = df.interpolate(method='time')
print(df_time_interpolated)
6. 拉格朗日插值法填充缺失值

拉格朗日插值法基于所有数据点构建多项式，从而估算缺失值。

6.1 拉格朗日插值法的基本概念

拉格朗日插值多项式 L(x)L(x)L(x) 通过构造基函数 li(x)l_i(x)li(x) 并将其线性组合来估算缺失值。

6.2 拉格朗日插值法的 Python 实现
import pandas as pd
from scipy.interpolate import lagrange
import numpy as np# 读取Excel文件
df = pd.read_excel('data.xlsx')# 假设你的数据在以下列中
x_column = 'X'  # X轴的列名
y_column = 'Y'  # Y轴的列名# 提取非缺失值的部分进行插值
x = df[x_column].dropna().values
y = df[y_column].dropna().values# 创建拉格朗日插值多项式
poly = lagrange(x, y)# 查找缺失值所在的行并填充
missing_rows = df[df[y_column].isna()].index
for i in missing_rows:x_missing = df.at[i, x_column]y_missing = poly(x_missing)df.at[i, y_column] = y_missing# 打印填充后的DataFrame
print(df)# 保存填充后的数据到Excel文件
df.to_excel('filled_data.xlsx', index=False)
7. 牛顿插值法填充缺失值

牛顿插值法使用差商表构建插值多项式，适合逐步添加数据点的情况。

7.1 牛顿插值法的基本概念

牛顿插值通过构造差商表并逐步构建多项式进行插值。

7.2 牛顿插值法的 Python 实现
import pandas as pd
import numpy as np# 读取Excel文件
df = pd.read_excel('data.xlsx')# 假设你的数据在以下列中
x_column = 'X'  # X轴的列名
y_column = 'Y'  # Y轴的列名# 提取非缺失值部分进行插值
x = df[x_column].dropna().values
y = df[y_column].dropna().values# 计算差商表
def divided_diff(x, y):n = len(y)coef = np.zeros([n, n])coef[:, 0] = yfor j in range(1, n):for i in range(n - j):coef[i][j] = (coef[i + 1][j - 1] - coef[i][j - 1]) / (x[i + j] - x[i])return coef[0, :]  # 返回差商表的第一行# 计算牛顿插值多项式
def newton_poly(coef, x_data, x):n = len(coef) - 1p = coef[n]for k in range(1, n + 1):p = coef[n - k] + (x - x_data[n - k]) * preturn p# 计算差商表的系数
coef = divided_diff(x, y)# 查找缺失值所在的行并填充
missing_rows = df[df[y_column].isna()].index
for i in missing_rows:x_missing = df.at[i, x_column]y_missing = newton_poly(coef, x, x_missing)df.at[i, y_column] = y_missing# 打印填充后的DataFrame
print(df)# 保存填充后的数据到Excel文件
df.to_excel('filled_data_newton.xlsx', index=False)
8. 检查和处理重复值

处理缺失值后，检查并处理数据中的重复值同样重要。

8.1 检查重复值

使用 duplicated() 方法检查重复行。
print(df.duplicated())
8.2 删除重复值

使用 drop_duplicates() 方法删除重复行。
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)
9. 高级操作：条件填充和分组处理

9.1 根据条件填充缺失值

有时需要根据其他列的条件填充缺失值。
df['C'] = df['C'].fillna(df['A'] + df['B'])
9.2 分组填充

可以对数据进行分组，然后对每个组分别填充缺失值。
df['C'] = df.groupby('A')['C'].transform(lambda x: x.fillna(x.mean()))

数学建模_缺失值处理_拉格朗日、牛顿插值（全）

- 缺失值处理 1. 识别缺失值在处理缺失值之前，首先需要识别数据中的缺失值。 1.1 使用 isna() 和 isnull() Pandas 提供了 isna() 和 isnull() 方法来检测缺失值，二者功能相同。 import pandas as pddf pd.DataFrame({A: [1, 2, None, 4],B: [None, 2,…...

编程日记 2024/9/8 11:43:44

算法题之水壶问题

水壶问题有两个水壶，容量分别为 x 和 y 升。水的供应是无限的。确定是否有可能使用这两个壶准确得到 target 升。你可以： 装满任意一个水壶清空任意一个水壶将水从一个水壶倒入另一个水壶，直到接水壶已满，或倒水壶已空。示…...

编程日记 2024/9/8 11:42:40

Java项目: 基于SpringBoot+mysql蜗牛兼职网兼职平台管理系统(含源码+数据库+答辩PPT+毕业论文)

一、项目简介本项目是一套基于SpringBootmysql蜗牛兼职网兼职平台管理系统包含：项目源码、数据库脚本等，该项目附带全部源码可作为毕设使用。项目都经过严格调试，eclipse或者idea 确保可以运行！ 该系统功能完善、界面美观、操…...

编程日记 2024/9/8 11:40:37

C#数组中的Rank，GetUpperBound(), GetLength()

Rank-数组的秩，一维数组的Rank1；二维数组的Rank2； GetUpperBound()--获取每一维的索引的上限， 比如int[4,5], 那么GetUpperBound(0) 3; GetUpperBound(1) 4 ; 所以对于二维数组来说 GetUpperBound(0)1行数； G…...

编程日记 2024/9/8 11:39:35

Android应用开发项目式教程——序

文章目录 Android技术本书特点本书内容本书参考 Android技术 Android是重要的客户端技术，因其开源开放的特点，Android在其初期就迅速成长为智能手机的主流操作系统，近年来更进一步成为智能电视、智能车载终端等智能设备的主流操作系统&#…...

编程日记 2024/9/8 11:37:33

【Spring Boot 3】【Web】统一处理 HTTP 请求体

【Spring Boot 3】【Web】统一处理 HTTP 请求体背景介绍开发环境开发步骤及源码工程目录结构总结背景软件开发是一门实践性科学，对大多数人来说，学习一种新技术不是一开始就去深究其原理，而是先从做出一个可工作的DEMO入手。但在我个人学习和工作经历中，每次学习新技术总…...

编程日记 2024/9/8 11:34:29

uni-app开发微信小程序

uni-app 是一个使用 Vue.js 开发所有前端应用的框架，它允许开发者编写一次代码，然后发布到iOS、Android、Web（包括各种小程序平台如微信小程序、支付宝小程序、百度智能小程序等）以及各种快应用平台上。对于使用uni-app开发微信小…...

编程日记 2024/9/8 11:31:26

Qt开发框架--完整的软件开发框架

Qt开发框架包含一整套高度直观、模块化的C 库类，并加载可简化应用程序开发的API。Qt 可生成高可读、易维护和可重用的代码，具有较高的运行时性能，且内存占用小。最重要的是，Qt是跨平台的。 Qt工具分为这么几个类别： …...

编程日记 2024/9/8 11:30:22

Python爬虫-Amazon亚马逊oData参数

前言本文是该专栏的第37篇，后面会持续分享python爬虫干货知识，记得关注。本文以“亚马逊Amazon”为例，主要获取亚马逊商品详情页的oData参数规律。具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整…...

编程日记 2024/9/8 11:28:20

Q215 数组中第K大的元素

思路可以用排序，但是不用全有序还有个要求是O（n） 快排改版快排只排需要的部分 public int findKthLargest(int[] nums, int k) {return quickSort(nums, 0, nums.length-1, nums.length-k);}public static int quickSort(int[] nums, …...

编程日记 2024/9/8 11:26:15

Java8特性：分组、提取字段、去重、过滤、差集、交集

总结下自己使用过的特性将对象集合根据某个字段分组 //根据id分组 Map<String, List<Bean>> newMap successCf.stream().collect(Collectors.groupingBy(b -> b.getId().trim()));获取对象集合里面的某个字段的集合 List<Bean> list new ArrayList&l…...

编程日记 2024/9/8 11:25:10

Maven快速上手使用指南的笔记

Maven Mini Guides Configuring for Reproducible Builds 使用Maven实现重复构建。检查当前使用的插件的版本。 mvn artifact:check-buildplan修改pom.xml，增加如下配置，显式指定project.build.outputTimestamp的取值： <properties>…...

编程日记 2024/9/8 11:24:09

MySQL面试题大全和详解，含SQL例子

若有不理解，可以问一下这几个免费的AI网站 https://ai-to.cn/chathttp://m6z.cn/6arKdNhttp://m6z.cn/6b1quhhttp://m6z.cn/6wVAQGhttp://m6z.cn/63vlPw 下面是一些常见的 MySQL 面试题及其解答，包含 SQL 示例。 1. 什么是 MySQL？ 答&…...

编程日记 2024/9/8 11:20:56

java-redis-雪崩

Redis 雪崩问题 Redis雪崩是指在 Redis 缓存系统中，当大量缓存同时失效时，所有请求直接打到数据库，导致数据库瞬间压力激增，甚至崩溃的现象。雪崩问题通常出现在高并发的系统中，因为缓存的失效导致后端数据库承受不了…...

编程日记 2024/9/8 11:18:51

如何在mac上玩使命召唤手游？苹果电脑好玩的第一人称射击游戏推荐

《使命召唤4：现代战争》（Call of Duty 4: Modern Warfare）是由Infinity Ward开发并于2007年发行的第一人称射击游戏。该游戏是《使命召唤》系列的第四部作品，是一款非常受欢迎的游戏之一，《使命召唤4：现代战…...

编程日记 2024/9/8 11:16:49

SimHash算法详解与应用

1. 简介在当今信息爆炸的时代，如何有效地管理和处理海量的文本数据，尤其是去除重复内容，是一项重要的任务。SimHash 是一种巧妙的哈希算法，它不仅能快速生成文本的哈希值，还能在不同文本之间生成相似的哈希值&#x…...

编程日记 2024/9/8 11:14:44

RasberryPi 3B树莓派基本配置

RaspberryPi 3B树莓派基本配置文章目录 RaspberryPi 3B树莓派基本配置一、准备工作1.1 硬件准备：1.1.1 树莓派和电源适配器：1.1.2 USB转TTL模块：1.1.3 读卡器和TF卡： 1.2 软件准备：1.2.1 下载 Raspberry Pi OS&#x…...

编程日记 2024/9/8 11:12:42

Docker编译环境的使用(ubuntu)

目录 Ubuntu安装docker 重启docker 拉取镜像进入docker安装软件提交docker 添加用户到docker组进入docker 添加build用户停止容器保存docker镜像 load镜像删除容器 Ubuntu安装docker sudo apt install docker.io 国内可用的源 Welcome to nginx! (tence…...

编程日记 2024/9/8 11:10:35

认知杂谈53

今天分享有人说的一段争议性的话 I I 1.自助者天助首先呢，咱得好好琢磨琢磨“自助者天助”这句话。这话说起来好像有点高深莫测的感觉，其实啊，道理特别简单。就是说要是你自己都不乐意努力，那老天爷也不会平白无故地来帮你…...

编程日记 2024/9/8 11:07:29

量子计算信息安全威胁与应对策略分析

作者简介赖俊森中国信息通信研究院技术与标准研究所光网络技术与应用研究部主任工程师，正高级工程师，主要研究方向为量子信息、量子通信、量子计算等。赵文玉中国信息通信研究院技术与标准研究所副所长，正高级工程师，主要…...

编程日记 2024/9/8 11:05:24

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2026/2/10 23:54:46

synchronized 学习

学习源： https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景不超卖，也要考虑性能问题（场景） 2.常见面试问题： sync出…...

编程新知 2025/12/14 17:38:17

FastAPI 教程：从入门到实践

FastAPI 是一个现代、快速（高性能）的 Web 框架，用于构建 API，支持 Python 3.6。它基于标准 Python 类型提示，易于学习且功能强大。以下是一个完整的 FastAPI 入门教程，涵盖从环境搭建到创建并运行一个简单的…...

编程新知 2025/10/16 7:51:26

C++ 基础特性深度解析

目录引言一、命名空间（namespace） C 中的命名空间与 C 语言的对比二、缺省参数 C 中的缺省参数与 C 语言的对比三、引用（reference） C 中的引用与 C 语言的对比四、inline（内联函数…...

编程新知 2026/1/15 4:25:16

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

宇树机器人多姿态起立控制强化学习框架论文解析论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一） 论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

编程新知 2025/8/27 0:58:09

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别直接训练提示词嵌入向量的核心区别您提到的代码： prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

编程新知 2025/7/4 0:50:01