当前位置: 首页 > news >正文

收藏! 38个Python数据科研库

通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库:

数据-用于数据管理,处理和其他处理的库

数学-虽然许多库都执行数学任务,但这个小型库却专门这样做

机器学习-自我解释;不包括主要用于构建神经网络或用于自动化机器学习过程的库

自动化机器学习-主要用于自动执行与机器学习相关的过程的库

数据可视化-与建模,预处理等相反,主要提供与数据可视化相关的功能的库。

解释与探索-主要用于探索和解释模型或数据的库

数据

1. Apache Spark

https://github.com/apache/spark

star:27600,贡献:28197,贡献者:1638

Apache Spark-用于大规模数据处理的统一分析引擎

2.Pandas

https://github.com/pandas-dev/pandas

star:26800,贡献:24300,贡献者:2126

Pandas是一个Python软件包,提供了快速,灵活和可表达的数据结构,旨在使使用“关系”或“标记”数据既简单又直观。它旨在成为在Python中进行实用,真实世界数据分析的基本高级构建块。

3.Dask

https://github.com/dask/dask

star:7300,贡献:6149,贡献者:393

任务调度的并行计算

数学

4. Scipy

https://github.com/scipy/scipy

star:7500,贡献:24247,贡献者:914

SciPy发音为“ Sigh Pie”是用于数学,科学和工程的开源软件。它包括用于统计,优化,积分,线性代数,傅立叶变换,信号和图像处理,ODE求解器等的模块。

5. Numpy

GitHub - numpy/numpy: The fundamental package for scientific computing with Python.

star:1500,贡献:24266,提供者:1010

使用Python进行科学计算的基本软件包。

机器学习

6. Scikit-Learn

https://github.com/scikit-learn/scikit-learn

star:42500,贡献:26162,贡献者:1881

Scikit-learn是一个基于SciPy的Python机器学习模块,并以3条款BSD许可分发。

7. XGBoost

GitHub - dmlc/xgboost: Scalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Dask, Flink and DataFlow

star:19900,贡献:5015,贡献者:461

适用于Python,R,Java,Scala,C ++等的可扩展,便携式和分布式梯度增强GBDT,GBRT或GBM库。在单机,Hadoop,Spark,Flink和DataFlow上运行

8. LightGBM

https://github.com/microsoft/LightGBM

star:11600,贡献:2066,贡献者:172

基于决策树算法的快速,分布式,高性能梯度提升GBT,GBDT,GBRT,GBM或MART框架,用于排名,分类和许多其他机器学习任务。

9.Catboost

https://github.com/catboost/catboost

star:5400,贡献:12936,贡献者:188

快速,可扩展,高性能的“决策树上的梯度提升”库,用于对Python,R,Java,C ++进行排名,分类,回归和其他机器学习任务。支持在CPU和GPU上进行计算。

10. Dlib

https://github.com/davisking/dlib

star:9500,贡献:7868,贡献者:146

Dlib是一个现代的C ++工具箱,其中包含机器学习算法和工具,这些工具和工具可以用C ++创建复杂的软件来解决实际问题。可以通过dlib API与Python一起使用

11.Annoy

https://github.com/spotify/annoy

star:7700,贡献:778,贡献者:53

C ++ / Python中的近似最近邻居已针对内存使用情况以及加载/保存到磁盘进行了优化

12.H20ai

https://github.com/h2oai/h2o-3

star:500,贡献贡献:27894,贡献者:137

适用于更智能应用的开源快速可扩展机器学习平台:深度学习,梯度提升和XGBoost,随机森林,广义线性建模逻辑回归,弹性网,K均值,PCA,堆叠集成,自动机器学习AutoML等。

13. StatsModels

https://github.com/statsmodels/statsmodels star:5600,承诺:13446,贡献者:247

Statsmodels:Python中的统计建模和计量经济学

14. mlpack

https://github.com/mlpack/mlpack

star:3400,贡献:24575,贡献者:190

mlpack是一个直观,快速且灵活的C ++机器学习库,具有与其他语言的绑定

15.Pattern

https://github.com/clips/pattern

star:7600,贡献:1434,贡献者:20

用于Python的Web挖掘模块,具有用于抓取,自然语言处理,机器学习,网络分析和可视化的工具。

16.Prophet

https://github.com/facebook/prophet

star:11500,贡献:595,贡献者:106

用于为具有多个季节性且线性或非线性增长的时间序列数据生成高质量预测的工具。

自动化机器学习

17. TPOT

https://github.com/EpistasisLab/tpot

star:7500,贡献:2282,贡献者:66

一个Python自动化机器学习工具,可使用遗传编程来优化机器学习pipeline。

18. auto-sklearnhttps://github.com/automl/auto-sklearn

star:4100,贡献:2343,贡献者:52

auto-sklearn是一种自动化的机器学习工具包,是scikit-learn估计器的直接替代品。

19. Hyperopt-sklearn

https://github.com/hyperopt/hyperopt-sklearn

star:1100,贡献:188,贡献者:18

Hyperopt-sklearn是scikit-learn中机器学习算法中基于Hyperopt的模型选择。

20. SMAC-3

https://github.com/automl/SMAC3

star:529,贡献:1882,贡献者:29

基于顺序模型的算法配置

21. scikit-optimizehttps://github.com/scikit-optimize/scikit-optimize

star:1900,贡献:1540,贡献者:59

Scikit-Optimize或skopt是一个简单高效的库,可最大限度地减少非常昂贵且嘈杂的黑盒功能。它实现了几种基于顺序模型优化的方法。

22. Nevergrad

https://github.com/facebookresearch/nevergrad

star:2700,贡献:663,贡献者:38

用于执行无梯度优化的Python工具箱

23.Optuna

https://github.com/optuna/optuna

star:3500,贡献:7749,贡献者:97

Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。

数据可视化

24. Apache Superset

https://github.com/apache/incubator-superset

star:30300,贡献:5833,贡献者:492

Apache Superset是一个数据可视化和数据探索平台

25. Matplotlib

https://github.com/matplotlib/matplotlib

star:12300,贡献:36716,贡献者:1002

Matplotlib是一个综合库,用于在Python中创建静态,动画和交互式可视化。

26.Plotly

https://github.com/plotly/plotly.py

star:7900,贡献:4604,贡献者:137

Plotly.py是适用于Python的交互式,基于开源和基于浏览器的图形库

27. Seaborn

https://github.com/mwaskom/seaborn

star:7700,贡献:2702,贡献者:126

Seaborn是基于matplotlib的Python可视化库。它提供了用于绘制吸引人的统计图形的高级界面。

28.folium

GitHub - python-visualization/folium: Python Data. Leaflet.js Maps.

star:4900,贡献:1443,贡献者:109

Folium建立在Python生态系统的数据处理能力和Leaflet.js库的映射能力之上。用Python处理数据,然后通过folium在可视化的Leaflet贴图中显示。

29. Bqplot

https://github.com/bqplot/bqplot

star:2900,贡献:3178,贡献者:45

Bqplot是Jupyter的二维可视化系统,基于图形语法的构造。

30. VisPy

https://github.com/vispy/vispy

star:2500,贡献:6352,贡献者:117

VisPy是一个高性能的交互式2D / 3D数据可视化库。VisPy通过OpenGL库利用现代图形处理单元GPU的计算能力来显示非常大的数据集。

31. PyQtgraph

https://github.com/pyqtgraph/pyqtgraph

star:2200,贡献:2200,贡献者:142

用于科学/工程应用的快速数据可视化和GUI工具

32.Bokeh

https://github.com/bokeh/bokeh

star:1400,贡献:18726,贡献者:467

Bokeh是用于现代Web浏览器的交互式可视化库。它提供通用图形的优雅,简洁的构造,并在大型或流数据集上提供高性能的交互性。

33.Altair

https://github.com/altair-viz/altair

star:600,贡献:3031,贡献者:106

Altair是用于Python的声明性统计可视化库。使用Altair,您可以花费更多时间来理解数据及其含义。

解释与探索

34. eli5https://github.com/TeamHG-Memex/eli5

star:2200,贡献贡献:1198,贡献者:15

一个用于调试/检查机器学习分类器并解释其预测的库

35. LIMEh

ttps://github.com/marcotcr/lime star:800,承诺:501,贡献者:41

Lime:解释任何机器学习分类器的预测

36. SHAP

https://github.com/slundberg/shap

star:10400,贡献:1376,贡献者:96

一种博弈论方法,用于解释任何机器学习模型的输出。

37. YellowBrick

https://github.com/DistrictDataLabs/yellowbrick

star:300,贡献:825,贡献者:92

可视化分析和诊断工具,有助于机器学习模型的选择。

38.pandas-profiling

https://github.com/pandas-profiling/pandas-profiling

star:6200名,贡献:704名,贡献者:47名

原文链接:

生态、遥感、水文水资源、大气科学多领域详细操作教程​

相关文章:

收藏! 38个Python数据科研库

通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库: 数据-用于数据管理,处理和其他处理的库 数学-虽然许多库都执行数学任务,但这个小型库却专门这样做 机…...

SpringBoot过滤器获取Bean-请求重复可读-获取请求体数据-用户IP归属地获取

文章目录一.获取Bean二. Request重复可读三. 过滤器获取Body请求体数据四.用户ip获取一.获取Bean 网上一些论调说Filter无法注入Bean的原因是加载顺序: listener—>filter—>servlet导致的.我不赞同. 原因:默认机制下,在SpringBoot应用启动时,IOC…...

有哪些特别小众而有趣的编程语言呢?

相对较小众的编程语言,还要有趣?发表一些个人看法,如果不对大家口味,大家轻喷,留情留情。 Rust:Rust是一种系统编程语言,致力于提供高性能、可靠性和安全性。Rust具有内存安全和线程安全的特性&…...

vue中使用高德

首先我们要申请高德地图的key,当前升级过后高德地图使用也需要加上安全秘钥 注册账号 访问高德地图开发平台根据实际情况填写就可以🍜(实名认证的时候选择个人就可以,如果是企业级的项目,可能会涉及人员变动&#xf…...

React class组件和hooks setState异步更新数据详解

一、 class组件setState详解 1.class组件setState异步更新数据详解 class Father extends React.Component{state {num:0}addHandler () > { this.setState({num: 100})console.log(state中的值,this.state.num)}render() { return (<div><button onClick{this…...

ToBeWritten之嵌入式操作系统

也许每个人出生的时候都以为这世界都是为他一个人而存在的&#xff0c;当他发现自己错的时候&#xff0c;他便开始长大 少走了弯路&#xff0c;也就错过了风景&#xff0c;无论如何&#xff0c;感谢经历 转移发布平台通知&#xff1a;将不再在CSDN博客发布新文章&#xff0c;敬…...

git 实际开发中使用-解决问题

前言 git代码版本管理工具&#xff0c;打破常规的物理传输&#xff0c;更新&#xff0c;合并&#xff0c;回滚提高了开发效率和可追溯性。 网上的资料会把所有的命令都很全也很多&#xff0c;导致对刚刚了解的同学不友好&#xff0c;很难实际使用。 每个人都有自己使用git的习…...

新星计划·2023-第1期 - Python赛道报名入口 -〖你就是下一个新星〗

↓↓↓报名方式&#xff1a;&#xff08;下滑到本页面底部&#xff09;重要提醒&#xff1a;这里是 新星计划2023-第1期 - Python赛道报名入口&#xff0c;一经报名&#xff0c;不可更换。报名入口点击此处跳转 一、新星计划 新星计划是一个以发掘潜力新人、培养优质博主为目…...

Android LowMemoryKiller概述

Agenda Low memory killer 概述 内核空间LMK ULMK‐vmpressure ULMK‐PSI Low memory killer 概述 lowmemorykiller的作用就是当内存比较紧张的时候去及时杀掉一些对用户来说不那么重要的进程&#xff0c;回收内存&#xff0c;保证手机的正常运行。安卓平台lowmemorykiller机…...

特殊操作流——案例:游戏次数

需求&#xff1a;请求程序实现猜数字小游戏只能试玩三次&#xff0c;如果还想玩&#xff0c;提示&#xff1a;游戏已经结束&#xff0c;想玩请充值&#xff08;www.itcast.cn&#xff09; 思路&#xff1a; 写一个游戏类&#xff0c;里面有一个猜数字的小游戏 写一个测试类&am…...

git clone connect to gitlab sign in token弹窗让我输入用户名和密码

系列文章目录 文章目录系列文章目录前言前言 当我使用git bash输入命令&#xff1a;git clone https://gitlab.freedesktop.org/raqm/raqm.git libraqm 弹窗 ASUSLAPTOP-0R30I78P MINGW64 /e/krita-dev $ git clone https://gitlab.freedesktop.org/raqm/raqm.git libraqm C…...

【Blender】如何在Blender中添加HDRI环境贴图

​ 什么是HDRI环境贴图 环境贴图或HDRI贴图是在Blender中照亮3D场景并实现逼真效果的最有效和最快捷的方法之一。 HDRIs本质上是现实世界照明的快照&#xff0c;其中包含高动态范围成像&#xff08;HDRI&#xff09;的准确照明细节。HDRI是一个包含亮度信息&#xff08;从暗…...

前端监控指的是什么?

前端监控分为三个方面&#xff1a; 异常监控&#xff08;监控前端页面的报错&#xff09;性能监控&#xff08;监控页面的性能&#xff09;用户行为监控&#xff08;监控用户的行为&#xff0c;计算PV、UV、在线时间等、数据监控即我们常说的埋点 例子1 在后端突然上线了某个需…...

.net core 面试题 2023

文章目录1. 什么是 ASP.net core2. .net 术语3. 托管资源 和 非托管资源4. GC 和 垃圾回收5. .net中所有类的基类6. 如何实现对象的深拷贝7. 依赖注入&#xff0c;为什么使用依赖注入8. IOC容器的注入方法9. ASP.net core 中 服务生命周期10. scoped的 service 可以注入到 sing…...

和ChatGPT关于Swing music的一场对话(上篇)

什么是 Swing Music &#xff1f; Swing Music 是一款漂亮的自托管音乐播放器&#xff0c;适用于您的本地音频文件。就像一个更酷的 Spotify …但带上你自己的音乐。 第一次在 reddit 上看到 Swing Music&#xff0c;就被其 UI 吸引了 但源码站点的releases 中只有 windows 和 …...

java版工程项目管理系统源码 Spring Cloud+Spring Boot+Mybatis+Vue+ElementUI+前后端分离 功能清单

ava版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下&#xff1a; 首页 工作台&#xff1a;待办工作、消息通知、预警信息&#xff0c;点击可进入相应的列表 项目进度图表&#xff1a;选择&#xff08;总体或单个&#xff09;项目显示1…...

debian 10 扩展分区容量

debian 10 扩展分区容量1、扩展分区原因2、添加一块磁盘3、命令记录3.1、新增加的磁盘是/dev/sdb3.2、使用磁盘/dev/sdb 创建物理卷3.3、 把物理卷/dev/sdb加入到卷组debian-vg中3.4、查看物理卷、逻辑卷3.5、扩展逻辑卷/tmp3.6、逻辑卷组debian-vg 空余空间被用掉10g 还剩90g可…...

【无功优化】基于改进遗传算法的电力系统无功优化研究【IEEE30节点】(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…...

LeetCode 218. 天际线问题

城市的 天际线 是从远处观看该城市中所有建筑物形成的轮廓的外部轮廓。给你所有建筑物的位置和高度&#xff0c;请返回 由这些建筑物形成的 天际线 。 每个建筑物的几何信息由数组 buildings 表示&#xff0c;其中三元组 buildings[i] [lefti, righti, heighti] 表示&#xf…...

Logstash:使用自定义正则表达式模式

有时 Logstash Grok 没有我们需要的模式。 幸运的是我们有正则表达式库&#xff1a;Oniguruma。在很多时候&#xff0c;如果 Logstash 所提供的正则表达不能满足我们的需求&#xff0c;我们选用定制自己的表达式。 定义 Logstash 是一种服务器端数据处理管道&#xff0c;可同时…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…...

Ubuntu系统下交叉编译openssl

一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机&#xff1a;Ubuntu 20.04.6 LTSHost&#xff1a;ARM32位交叉编译器&#xff1a;arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO&#xff1a;支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题&#xff1a;MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者&#xff1a;Yanyuan Chen, Dexuan Xu, Yu Hu…...

将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?

Otsu 是一种自动阈值化方法&#xff0c;用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理&#xff0c;能够自动确定一个阈值&#xff0c;将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

2021-03-15 iview一些问题

1.iview 在使用tree组件时&#xff0c;发现没有set类的方法&#xff0c;只有get&#xff0c;那么要改变tree值&#xff0c;只能遍历treeData&#xff0c;递归修改treeData的checked&#xff0c;发现无法更改&#xff0c;原因在于check模式下&#xff0c;子元素的勾选状态跟父节…...

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法&#xff0c;当前调用一个医疗行业的AI识别算法后返回…...

Linux离线(zip方式)安装docker

目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1&#xff1a;修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本&#xff1a;CentOS 7 64位 内核版本&#xff1a;3.10.0 相关命令&#xff1a; uname -rcat /etc/os-rele…...

C++.OpenGL (14/64)多光源(Multiple Lights)

多光源(Multiple Lights) 多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的“no matching...“系列算法协商失败问题

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的"no matching..."系列算法协商失败问题 摘要&#xff1a; 近期&#xff0c;在使用较新版本的OpenSSH客户端连接老旧SSH服务器时&#xff0c;会遇到 "no matching key exchange method found"​, "n…...

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为 原始类型&#xff08;Primitive&#xff09; 和 对象类型&#xff08;Object&#xff09; 两大类&#xff0c;共 8 种&#xff08;ES11&#xff09;&#xff1a; 一、原始类型&#xff08;7种&#xff09; 1. undefined 定…...