当前位置：首页 > news >正文

利用Python和Sprak求曲线与X轴上方的面积

news 2026/2/10 17:08:53

有n组标本(1, 2, 3, 4), 每组由m个( , , ...)元素( , )组成(m值不定), . 各组样本的分布曲线如下图所示. 通过程序近似实现各曲线与oc, cd直线围成的⾯积.

在这里插入图片描述

思路

可以将图像分成若干个梯形，每个梯形的底边长为(Xn+1 - Xn-1)，面积为矩形的一半，其面积 = (底边长 X 高)/2，即S = (Xn+1 - Xn-1) * （Yn+1 + Yn+2），对于整个图形，面积为所有梯形面积之和。
[图片]
求曲线与其下方x轴的面积，本质上是一个求积分的过程。可以对所有点进行积分，可以调用np.tapz(x, y)来求

代码

"""Calculate the area between the coordinates and the X-axis
"""import typing
from pandas import read_parquetdef calc_area(file_name: str) -> typing.Any:"""⾯积计算.Args:file_name: parquet⽂件路径, eg: data.parquetReturns:计算后的结果"""res = []# Load data from .parquetinitial_data = read_parquet(file_name)# Get number of groupsgroup_numbers = initial_data["gid"].drop_duplicates().unique()# Loop through the results for each groupfor i in group_numbers:data = initial_data[initial_data["gid"] == i]data = data.reset_index(drop=True)# Extract the list of x\yx_coordinates = data["x"]y_coordinates = data["y"]# Calculate area between (x[i], y[i]) and (x[i+1], y[i+1])rect_areas = [(x_coordinates[i + 1] - x_coordinates[i])* (y_coordinates[i + 1] + y_coordinates[i])/ 2for i in range(len(x_coordinates) - 1)]# Sum the total arearesult = sum(rect_areas)res.append(result)# Also we can use np for convenience# import numpy as np# result_np = np.trapz(y_coordinates, x_coordinates)return rescalc_area("./data.parquet")

或者使用pyspark

"""Calculate the area between the coordinates and the X-axis
"""import typing
from pyspark.sql import Window
from pyspark.sql.functions import lead, lit
from pyspark.sql import SparkSessiondef calc_area(file_name: str) -> typing.Any:"""⾯积计算.Args:file_name: parquet⽂件路径, eg: data.parquetReturns:计算后的结果"""res = []# Create a session with sparkspark = SparkSession.builder.appName("Area Calculation").getOrCreate()# Load data from .parquetinitial_data = spark.read.parquet(file_name, header=True)# Get number of groupsdf_unique = initial_data.dropDuplicates(subset=["gid"]).select("gid")group_numbers = df_unique.collect()# Loop through the results for each groupfor row in group_numbers:# Select a set of datadata = initial_data.filter(initial_data["gid"] == row[0])# Adds a column of delta_x to the data frame representing difference# from the x value of an adjacent data pointwindow = Window.orderBy(data["x"])data = data.withColumn("delta_x", lead("x").over(window) - data["x"])# Calculated trapezoidal areadata = data.withColumn("trap",(data["delta_x"]* (data["y"] + lit(0.5) * (lead("y").over(window) - data["y"]))),)result = data.agg({"trap": "sum"}).collect()[0][0]res.append(result)return rescalc_area("./data.parquet")

提高计算的效率

可以使用更高效的算法，如自适应辛普森方法或者其他更快的积分方法
可以在数据上进行并行化处理，对pd DataFrame\spark DataFrame进行分区并使用分布式计算
在使用spark的时候可以为window操作制定分区来提高性能
以下为与本例无关的笼统的提高效率的方法:

并行计算：使用多核CPU或分布式计算系统，将任务分解成多个子任务并行处理。
数据压缩：压缩大数据以减少存储空间和带宽，加快读写速度。
数据分块：对大数据进行分块处理，可以减小内存需求并加快处理速度。
缓存优化：优化缓存策略，减少磁盘访问和读取，提高计算效率。
算法优化：使用高效率的算法，比如基于树的算法和矩阵算法，可以提高计算效率。

利用Python和Sprak求曲线与X轴上方的面积

有n组标本(1, 2, 3, 4), 每组由m个( , , ...)元素( , )组成(m值不定), . 各组样本的分布曲线如下图所示. 通过程序近似实现各曲线与oc, cd直线围成的⾯积. 思路可以将图像分成若干个梯形，每个梯形的底边长为(Xn1 - Xn-1)，面积为矩形的一半&#xff0c…...

编程日记 2023/2/24 23:41:40

利用机器学习(mediapipe)，进行人手的21个3D手关节坐标检测

感知手的形状和动作的能力可能是在各种技术领域和平台上改善用户体验的重要组成部分。例如，它可以构成手语理解和手势控制的基础，并且还可以在增强现实中将数字内容和信息覆盖在物理世界之上。虽然自然而然地出现在人们手中，但是强大的实时手感知力无疑是一项具有挑战性的计…...

编程日记 2023/2/24 23:40:20

【添砖java】谁说编程第一步是hello world

编程第一步明明是下载编译器和配置环境（小声逼逼）。 Windows下的java环境安装： java的安装包分为两类，一类是JRE（Java Runtime Environmental），是一个独立的java运行环境；一类是JDK…...

编程日记 2023/2/24 23:38:01

el-table大数据量渲染卡顿问题

1、场景描述在项目开发中，遇到在表格中一次性加载完的需求，且加载数量不少，有几百几千条，并且每条都可能有自己的下拉框，输入框来做编辑功能，此时普通的el-table肯定会导致浏览器卡死，那么怎么…...

编程日记 2023/2/24 23:36:49

MyBatis-Plus 实现分页的几种写法

简介MyBatis-Plus (opens new window)（简称 MP）是一个 MyBatis (opens new window)的增强工具，在 MyBatis 的基础上只做增强不做改变，为简化开发、提高效率而生。快速开始添加依赖全新的 MyBatis-Plus 3.0 版本基于 JDK8&#xff…...

编程日记 2023/2/24 23:35:40

记一次Binder内存不足导致的应用被杀

每个进程的可用Binder内存大小是 1M-8KB 也就是900多KB 事情的起因的QA压测过程发生进程号变更，怀疑APP被杀掉过，于是开始看日志（实际后来模拟的时候可以发现app确实被杀掉了） APP的压测平台会上报进程号变更时间点，发…...

编程日记 2023/2/24 23:34:31

目录 1.1、zabbix4.0架构图 1.2、zabbix的进程 1、 zabbix server 2、zabbix agent 3、 zabbix proxy 4、 java gateway 5、zabbix get 1.3、zabbix的几种工作方式 1、通过zabbix agent 2、通过zabbix proxy 3、通过 zabbix java gateway 4、其他 1.3、zabbix 数据走…...

编程日记 2023/2/24 23:33:15

MySQL中的一些非常实用的函数、语法

前言我最近几年用MYSQL数据库挺多的，发现了一些非常有用的小玩意，今天拿出来分享到大家，希望对你会有所帮助。1.group_concat在我们平常的工作中，使用group by进行分组的场景，是非常多的。比如想统计出用户表中&#x…...

编程日记 2023/2/24 23:31:51

RT-Thread移植到STM32F407

文章目录第一步：获取RT-Thread源码第二步：项目结构介绍第三步：拷贝示例代码到裸机工程第四步：删除无用文件第五步：修改工程目录结构第六步：添加工程文件路径第七步：编译第八步：修改配…...

编程日记 2023/2/24 23:30:29

VR全景到底有多全能？为何屡受关注？

告别两年的“冰封”时期，现在疫情放开已经有一段时间了，各个行业的市场和经济已经逐步回暖，但是疫情对广大群众造成的心理阴影还是迟迟未有退散。就拿去电影院看电影来说，以前看电影是看心情，现在看电影则是看环境&…...

编程日记 2023/2/24 23:29:10

剑指 Offer 30. 包含min函数的栈

摘要剑指 Offer 30. 包含min函数的栈一、栈解析 package Stock;import java.util.Stack;/*** Classname JZ30min函数栈* Description TODO* Date 2023/2/24 18:59* Created by xjl*/ public class JZ30min函数栈 {/*** description 最小栈的含义是每次从栈中获取的数据都是…...

编程日记 2023/2/24 23:28:02

stm32f407探索者开发板（二十二）——通用定时器基本原理讲解

文章目录一、三种定时器的区别二、通用定时器特点2.1 功能特点描述2.2 计数器模式三、通用定时器工作过程四、附一、三种定时器的区别 STM32F40x系列总共最多有14个定时器三种（4）STM32定时器区别二、通用定时器特点 2.1 功能特点描述 STM3 F4的通…...

编程日记 2023/2/24 23:26:53

cmake 入门三常用变量和指令

cmake常用变量一、cmake 变量引用的方式： 前面我们已经提到了，使用${}进行变量的引用。在IF 等语句中，是直接使用变量名而不通过${}取值二，cmake 自定义变量的方式： 主要有隐式定义和显式定义两种，一…...

编程日记 2023/2/24 23:25:45

Linux基础命令-find搜索文件位置

文章目录 find 命令介绍语法格式命令基本参数参考实例 1）在root/data目录下搜索*.txt的文件名 2）搜索一天以内最后修改时间的文件；并将文件删除 3）搜索777权限的文件 4）搜索一天之前变动的文件复制到test…...

编程日记 2023/2/24 23:24:35

获取浏览器硬件资源的媒体数据（拍照、录音、录频、屏幕共享）

目录一、window.navigator 对象包含有关访问者浏览器的信息取二、MediaDevices1.使用麦克风2.使用摄像头（和音频一样）3.拍照4.录屏三、MediaRecorder(录制,可录制音频视屏)一、window.navigator 对象包含有关访问者浏览器的信息取 <!DOCTYPE html>…...

编程日记 2023/2/24 23:23:27

Java入门教程||Java 日期时间||Java 正则表达式

Java 日期时间java.util包提供了Date类来封装当前的日期和时间。Date类提供两个构造函数来实例化Date对象。第一个构造函数使用当前日期和时间来初始化对象。Date( )第二个构造函数接收一个参数，该参数是从1970年1月1日起的毫秒数。Date(long millisec)Date对象创建…...

编程日记 2023/2/24 23:22:19

详解八大排序算法

文章目录前言排序算法插入排序直接插入排序:希尔排序(缩小增量排序)选择排序直接选择排序堆排序交换排序冒泡排序快速排序hoare版本挖坑法前后指针版本快速排序的非递归快速排序总结归并排序归并排序的非递归实现：计数排序排序算法复杂度及稳定性分析总结前言本篇…...

编程日记 2023/2/24 23:21:12

python库streamlit学习笔记

什么是streamlit？ Streamlit是一个免费的开源框架，用于快速构建和共享漂亮的机器学习和数据科学Web应用程序。它是一个基于Python的库，专为机器学习工程师设计。数据科学家或机器学习工程师不是网络开发人员，他们对花几周时间学习…...

编程日记 2023/2/24 23:20:08

C/C++开发，无可避免的内存管理（篇一）-约束好跳脱的内存

一、养成内存管理好习惯 1.1 养成动态对象创建、调用及释放好习惯开发者手动接管内存分配时，必须处理这两个任务。分配原始内存时，必须在该内存中构造对象；在释放该内存之前，必须保证适当地撤销这些对象。如果你的项目是c项目&am…...

编程日记 2023/2/24 23:19:00

在React项目中引入字体文件并使用

一、背景设计稿里某些文字所用的字体，系统默认不支持。比如设计需要的这个字体：EmerlandRegular，即使在css里将文字字体设置为他们，实际效果也显示不出来。二、现象及原因 1、样式 2、期待效果 3、实际效果实际上是因为这个…...

编程日记 2023/2/24 23:17:55

生成xcframework

打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式，可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。使用 Xcode 命令行工具打包通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

编程新知 2025/10/5 2:30:38

Python爬虫实战：研究feedparser库相关技术

1. 引言 1.1 研究背景与意义在当今信息爆炸的时代，互联网上存在着海量的信息资源。RSS（Really Simple Syndication）作为一种标准化的信息聚合技术，被广泛用于网站内容的发布和订阅。通过 RSS，用户可以方便地获取网站更新的内容，而无需频繁访问各个网站。然而，互联网…...

编程新知 2025/8/18 9:54:31

算法笔记2

1.字符串拼接最好用StringBuilder，不用String 2.创建List<>类型的数组并创建内存 List arr[] new ArrayList[26]; Arrays.setAll(arr, i -> new ArrayList<>()); 3.去掉首尾空格...

编程新知 2026/1/27 12:17:05

python报错No module named ‘tensorflow.keras‘

是由于不同版本的tensorflow下的keras所在的路径不同，结合所安装的tensorflow的目录结构修改from语句即可。原语句： from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后： from tensorflow.python.keras.lay…...

编程新知 2025/9/24 7:39:50

GruntJS-前端自动化任务运行器从入门到实战

Grunt 完全指南：从入门到实战一、Grunt 是什么？ Grunt是一个基于 Node.js 的前端自动化任务运行器，主要用于自动化执行项目开发中重复性高的任务，例如文件压缩、代码编译、语法检查、单元测试、文件合并等。通过配置简洁的任务…...

编程新知 2026/1/25 11:52:39

Ubuntu Cursor升级成v1.0

0. 当前版本低使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开，快捷键也不好用，当看到 Cursor 升级后，还是蛮高兴的 1. 下载 Cursor 下载地址：https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ，…...

编程新知 2026/2/4 16:04:11

十九、【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建

【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建前言准备工作第一部分：回顾 Django 内置的 `User` 模型第二部分：设计并创建 `Role` 和 `UserProfile` 模型第三部分：创建 Serializers第四部分：创建 ViewSets第五部分：注册 API 路由第六部分：后端初步测…...

编程新知 2026/1/9 3:08:54

如何在Windows本机安装Python并确保与Python.NET兼容

✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。 🍎个人主页：Java Fans的博客 🍊个人信条：不迁怒，不贰过。小知识，大智慧。 💞当前专栏…...

编程新知 2026/2/8 0:47:08

Python 高级应用10：在python 大型项目中 FastAPI 和 Django 的相互配合

无论是python，或者java 的大型项目中，都会涉及到自身平台微服务之间的相互调用，以及和第三发平台的接口对接，那在python 中是怎么实现的呢？ 在 Python Web 开发中，FastAPI 和 Django 是两个重要但定位不…...

编程新知 2025/10/26 4:25:02

欢乐熊大话蓝牙知识17:多连接 BLE 怎么设计服务不会乱？分层思维来救场！

多连接 BLE 怎么设计服务不会乱？分层思维来救场！ 作者按： 你是不是也遇到过 BLE 多连接时，调试现场像网吧“掉线风暴”？ 温度传感器连上了，心率带丢了；一边 OTA 更新，一边通知卡壳。…...

编程新知 2026/2/7 11:26:09

利用Python和Sprak求曲线与X轴上方的面积

思路

代码

提高计算的效率

相关文章：

利用Python和Sprak求曲线与X轴上方的面积

利用机器学习(mediapipe)，进行人手的21个3D手关节坐标检测

【添砖java】谁说编程第一步是hello world

el-table大数据量渲染卡顿问题

MyBatis-Plus 实现分页的几种写法

记一次Binder内存不足导致的应用被杀

Zabbix4.0架构理解-zabbix的工作方式

MySQL中的一些非常实用的函数、语法

RT-Thread移植到STM32F407

VR全景到底有多全能？为何屡受关注？

剑指 Offer 30. 包含min函数的栈

stm32f407探索者开发板（二十二）——通用定时器基本原理讲解

cmake 入门三常用变量和指令

Linux基础命令-find搜索文件位置

获取浏览器硬件资源的媒体数据（拍照、录音、录频、屏幕共享）

Java入门教程||Java 日期时间||Java 正则表达式

详解八大排序算法

python库streamlit学习笔记

C/C++开发，无可避免的内存管理（篇一）-约束好跳脱的内存

在React项目中引入字体文件并使用

生成xcframework

Python爬虫实战：研究feedparser库相关技术

算法笔记2

python报错No module named ‘tensorflow.keras‘

GruntJS-前端自动化任务运行器从入门到实战

Ubuntu Cursor升级成v1.0

十九、【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建

如何在Windows本机安装Python并确保与Python.NET兼容

Python 高级应用10：在python 大型项目中 FastAPI 和 Django 的相互配合

欢乐熊大话蓝牙知识17:多连接 BLE 怎么设计服务不会乱？分层思维来救场！