收藏! 38个Python数据科研库
通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库:
数据-用于数据管理,处理和其他处理的库
数学-虽然许多库都执行数学任务,但这个小型库却专门这样做
机器学习-自我解释;不包括主要用于构建神经网络或用于自动化机器学习过程的库
自动化机器学习-主要用于自动执行与机器学习相关的过程的库
数据可视化-与建模,预处理等相反,主要提供与数据可视化相关的功能的库。
解释与探索-主要用于探索和解释模型或数据的库
数据
1. Apache Spark
https://github.com/apache/spark
star:27600,贡献:28197,贡献者:1638
Apache Spark-用于大规模数据处理的统一分析引擎
2.Pandas
https://github.com/pandas-dev/pandas
star:26800,贡献:24300,贡献者:2126
Pandas是一个Python软件包,提供了快速,灵活和可表达的数据结构,旨在使使用“关系”或“标记”数据既简单又直观。它旨在成为在Python中进行实用,真实世界数据分析的基本高级构建块。
3.Dask
https://github.com/dask/dask
star:7300,贡献:6149,贡献者:393
任务调度的并行计算
数学
4. Scipy
https://github.com/scipy/scipy
star:7500,贡献:24247,贡献者:914
SciPy发音为“ Sigh Pie”是用于数学,科学和工程的开源软件。它包括用于统计,优化,积分,线性代数,傅立叶变换,信号和图像处理,ODE求解器等的模块。
5. Numpy
GitHub - numpy/numpy: The fundamental package for scientific computing with Python.
star:1500,贡献:24266,提供者:1010
使用Python进行科学计算的基本软件包。
机器学习
6. Scikit-Learn
https://github.com/scikit-learn/scikit-learn
star:42500,贡献:26162,贡献者:1881
Scikit-learn是一个基于SciPy的Python机器学习模块,并以3条款BSD许可分发。
7. XGBoost
GitHub - dmlc/xgboost: Scalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Dask, Flink and DataFlow
star:19900,贡献:5015,贡献者:461
适用于Python,R,Java,Scala,C ++等的可扩展,便携式和分布式梯度增强GBDT,GBRT或GBM库。在单机,Hadoop,Spark,Flink和DataFlow上运行
8. LightGBM
https://github.com/microsoft/LightGBM
star:11600,贡献:2066,贡献者:172
基于决策树算法的快速,分布式,高性能梯度提升GBT,GBDT,GBRT,GBM或MART框架,用于排名,分类和许多其他机器学习任务。
9.Catboost
https://github.com/catboost/catboost
star:5400,贡献:12936,贡献者:188
快速,可扩展,高性能的“决策树上的梯度提升”库,用于对Python,R,Java,C ++进行排名,分类,回归和其他机器学习任务。支持在CPU和GPU上进行计算。
10. Dlib
https://github.com/davisking/dlib
star:9500,贡献:7868,贡献者:146
Dlib是一个现代的C ++工具箱,其中包含机器学习算法和工具,这些工具和工具可以用C ++创建复杂的软件来解决实际问题。可以通过dlib API与Python一起使用
11.Annoy
https://github.com/spotify/annoy
star:7700,贡献:778,贡献者:53
C ++ / Python中的近似最近邻居已针对内存使用情况以及加载/保存到磁盘进行了优化
12.H20ai
https://github.com/h2oai/h2o-3
star:500,贡献贡献:27894,贡献者:137
适用于更智能应用的开源快速可扩展机器学习平台:深度学习,梯度提升和XGBoost,随机森林,广义线性建模逻辑回归,弹性网,K均值,PCA,堆叠集成,自动机器学习AutoML等。
13. StatsModels
https://github.com/statsmodels/statsmodels star:5600,承诺:13446,贡献者:247
Statsmodels:Python中的统计建模和计量经济学
14. mlpack
https://github.com/mlpack/mlpack
star:3400,贡献:24575,贡献者:190
mlpack是一个直观,快速且灵活的C ++机器学习库,具有与其他语言的绑定
15.Pattern
https://github.com/clips/pattern
star:7600,贡献:1434,贡献者:20
用于Python的Web挖掘模块,具有用于抓取,自然语言处理,机器学习,网络分析和可视化的工具。
16.Prophet
https://github.com/facebook/prophet
star:11500,贡献:595,贡献者:106
用于为具有多个季节性且线性或非线性增长的时间序列数据生成高质量预测的工具。
自动化机器学习
17. TPOT
https://github.com/EpistasisLab/tpot
star:7500,贡献:2282,贡献者:66
一个Python自动化机器学习工具,可使用遗传编程来优化机器学习pipeline。
18. auto-sklearnhttps://github.com/automl/auto-sklearn
star:4100,贡献:2343,贡献者:52
auto-sklearn是一种自动化的机器学习工具包,是scikit-learn估计器的直接替代品。
19. Hyperopt-sklearn
https://github.com/hyperopt/hyperopt-sklearn
star:1100,贡献:188,贡献者:18
Hyperopt-sklearn是scikit-learn中机器学习算法中基于Hyperopt的模型选择。
20. SMAC-3
https://github.com/automl/SMAC3
star:529,贡献:1882,贡献者:29
基于顺序模型的算法配置
21. scikit-optimizehttps://github.com/scikit-optimize/scikit-optimize
star:1900,贡献:1540,贡献者:59
Scikit-Optimize或skopt是一个简单高效的库,可最大限度地减少非常昂贵且嘈杂的黑盒功能。它实现了几种基于顺序模型优化的方法。
22. Nevergrad
https://github.com/facebookresearch/nevergrad
star:2700,贡献:663,贡献者:38
用于执行无梯度优化的Python工具箱
23.Optuna
https://github.com/optuna/optuna
star:3500,贡献:7749,贡献者:97
Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。
数据可视化
24. Apache Superset
https://github.com/apache/incubator-superset
star:30300,贡献:5833,贡献者:492
Apache Superset是一个数据可视化和数据探索平台
25. Matplotlib
https://github.com/matplotlib/matplotlib
star:12300,贡献:36716,贡献者:1002
Matplotlib是一个综合库,用于在Python中创建静态,动画和交互式可视化。
26.Plotly
https://github.com/plotly/plotly.py
star:7900,贡献:4604,贡献者:137
Plotly.py是适用于Python的交互式,基于开源和基于浏览器的图形库
27. Seaborn
https://github.com/mwaskom/seaborn
star:7700,贡献:2702,贡献者:126
Seaborn是基于matplotlib的Python可视化库。它提供了用于绘制吸引人的统计图形的高级界面。
28.folium
GitHub - python-visualization/folium: Python Data. Leaflet.js Maps.
star:4900,贡献:1443,贡献者:109
Folium建立在Python生态系统的数据处理能力和Leaflet.js库的映射能力之上。用Python处理数据,然后通过folium在可视化的Leaflet贴图中显示。
29. Bqplot
https://github.com/bqplot/bqplot
star:2900,贡献:3178,贡献者:45
Bqplot是Jupyter的二维可视化系统,基于图形语法的构造。
30. VisPy
https://github.com/vispy/vispy
star:2500,贡献:6352,贡献者:117
VisPy是一个高性能的交互式2D / 3D数据可视化库。VisPy通过OpenGL库利用现代图形处理单元GPU的计算能力来显示非常大的数据集。
31. PyQtgraph
https://github.com/pyqtgraph/pyqtgraph
star:2200,贡献:2200,贡献者:142
用于科学/工程应用的快速数据可视化和GUI工具
32.Bokeh
https://github.com/bokeh/bokeh
star:1400,贡献:18726,贡献者:467
Bokeh是用于现代Web浏览器的交互式可视化库。它提供通用图形的优雅,简洁的构造,并在大型或流数据集上提供高性能的交互性。
33.Altair
https://github.com/altair-viz/altair
star:600,贡献:3031,贡献者:106
Altair是用于Python的声明性统计可视化库。使用Altair,您可以花费更多时间来理解数据及其含义。
解释与探索
34. eli5https://github.com/TeamHG-Memex/eli5
star:2200,贡献贡献:1198,贡献者:15
一个用于调试/检查机器学习分类器并解释其预测的库
35. LIMEh
ttps://github.com/marcotcr/lime star:800,承诺:501,贡献者:41
Lime:解释任何机器学习分类器的预测
36. SHAP
https://github.com/slundberg/shap
star:10400,贡献:1376,贡献者:96
一种博弈论方法,用于解释任何机器学习模型的输出。
37. YellowBrick
https://github.com/DistrictDataLabs/yellowbrick
star:300,贡献:825,贡献者:92
可视化分析和诊断工具,有助于机器学习模型的选择。
38.pandas-profiling
https://github.com/pandas-profiling/pandas-profiling
star:6200名,贡献:704名,贡献者:47名
原文链接:
生态、遥感、水文水资源、大气科学多领域详细操作教程
相关文章:
收藏! 38个Python数据科研库
通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库: 数据-用于数据管理,处理和其他处理的库 数学-虽然许多库都执行数学任务,但这个小型库却专门这样做 机…...
SpringBoot过滤器获取Bean-请求重复可读-获取请求体数据-用户IP归属地获取
文章目录一.获取Bean二. Request重复可读三. 过滤器获取Body请求体数据四.用户ip获取一.获取Bean 网上一些论调说Filter无法注入Bean的原因是加载顺序: listener—>filter—>servlet导致的.我不赞同. 原因:默认机制下,在SpringBoot应用启动时,IOC…...
有哪些特别小众而有趣的编程语言呢?
相对较小众的编程语言,还要有趣?发表一些个人看法,如果不对大家口味,大家轻喷,留情留情。 Rust:Rust是一种系统编程语言,致力于提供高性能、可靠性和安全性。Rust具有内存安全和线程安全的特性&…...
vue中使用高德
首先我们要申请高德地图的key,当前升级过后高德地图使用也需要加上安全秘钥 注册账号 访问高德地图开发平台根据实际情况填写就可以🍜(实名认证的时候选择个人就可以,如果是企业级的项目,可能会涉及人员变动…...
React class组件和hooks setState异步更新数据详解
一、 class组件setState详解 1.class组件setState异步更新数据详解 class Father extends React.Component{state {num:0}addHandler () > { this.setState({num: 100})console.log(state中的值,this.state.num)}render() { return (<div><button onClick{this…...
ToBeWritten之嵌入式操作系统
也许每个人出生的时候都以为这世界都是为他一个人而存在的,当他发现自己错的时候,他便开始长大 少走了弯路,也就错过了风景,无论如何,感谢经历 转移发布平台通知:将不再在CSDN博客发布新文章,敬…...
git 实际开发中使用-解决问题
前言 git代码版本管理工具,打破常规的物理传输,更新,合并,回滚提高了开发效率和可追溯性。 网上的资料会把所有的命令都很全也很多,导致对刚刚了解的同学不友好,很难实际使用。 每个人都有自己使用git的习…...
新星计划·2023-第1期 - Python赛道报名入口 -〖你就是下一个新星〗
↓↓↓报名方式:(下滑到本页面底部)重要提醒:这里是 新星计划2023-第1期 - Python赛道报名入口,一经报名,不可更换。报名入口点击此处跳转 一、新星计划 新星计划是一个以发掘潜力新人、培养优质博主为目…...
Android LowMemoryKiller概述
Agenda Low memory killer 概述 内核空间LMK ULMK‐vmpressure ULMK‐PSI Low memory killer 概述 lowmemorykiller的作用就是当内存比较紧张的时候去及时杀掉一些对用户来说不那么重要的进程,回收内存,保证手机的正常运行。安卓平台lowmemorykiller机…...
特殊操作流——案例:游戏次数
需求:请求程序实现猜数字小游戏只能试玩三次,如果还想玩,提示:游戏已经结束,想玩请充值(www.itcast.cn) 思路: 写一个游戏类,里面有一个猜数字的小游戏 写一个测试类&am…...
git clone connect to gitlab sign in token弹窗让我输入用户名和密码
系列文章目录 文章目录系列文章目录前言前言 当我使用git bash输入命令:git clone https://gitlab.freedesktop.org/raqm/raqm.git libraqm 弹窗 ASUSLAPTOP-0R30I78P MINGW64 /e/krita-dev $ git clone https://gitlab.freedesktop.org/raqm/raqm.git libraqm C…...
【Blender】如何在Blender中添加HDRI环境贴图
什么是HDRI环境贴图 环境贴图或HDRI贴图是在Blender中照亮3D场景并实现逼真效果的最有效和最快捷的方法之一。 HDRIs本质上是现实世界照明的快照,其中包含高动态范围成像(HDRI)的准确照明细节。HDRI是一个包含亮度信息(从暗…...
前端监控指的是什么?
前端监控分为三个方面: 异常监控(监控前端页面的报错)性能监控(监控页面的性能)用户行为监控(监控用户的行为,计算PV、UV、在线时间等、数据监控即我们常说的埋点 例子1 在后端突然上线了某个需…...
.net core 面试题 2023
文章目录1. 什么是 ASP.net core2. .net 术语3. 托管资源 和 非托管资源4. GC 和 垃圾回收5. .net中所有类的基类6. 如何实现对象的深拷贝7. 依赖注入,为什么使用依赖注入8. IOC容器的注入方法9. ASP.net core 中 服务生命周期10. scoped的 service 可以注入到 sing…...
和ChatGPT关于Swing music的一场对话(上篇)
什么是 Swing Music ? Swing Music 是一款漂亮的自托管音乐播放器,适用于您的本地音频文件。就像一个更酷的 Spotify …但带上你自己的音乐。 第一次在 reddit 上看到 Swing Music,就被其 UI 吸引了 但源码站点的releases 中只有 windows 和 …...
java版工程项目管理系统源码 Spring Cloud+Spring Boot+Mybatis+Vue+ElementUI+前后端分离 功能清单
ava版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目显示1…...
debian 10 扩展分区容量
debian 10 扩展分区容量1、扩展分区原因2、添加一块磁盘3、命令记录3.1、新增加的磁盘是/dev/sdb3.2、使用磁盘/dev/sdb 创建物理卷3.3、 把物理卷/dev/sdb加入到卷组debian-vg中3.4、查看物理卷、逻辑卷3.5、扩展逻辑卷/tmp3.6、逻辑卷组debian-vg 空余空间被用掉10g 还剩90g可…...
【无功优化】基于改进遗传算法的电力系统无功优化研究【IEEE30节点】(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
LeetCode 218. 天际线问题
城市的 天际线 是从远处观看该城市中所有建筑物形成的轮廓的外部轮廓。给你所有建筑物的位置和高度,请返回 由这些建筑物形成的 天际线 。 每个建筑物的几何信息由数组 buildings 表示,其中三元组 buildings[i] [lefti, righti, heighti] 表示…...
Logstash:使用自定义正则表达式模式
有时 Logstash Grok 没有我们需要的模式。 幸运的是我们有正则表达式库:Oniguruma。在很多时候,如果 Logstash 所提供的正则表达不能满足我们的需求,我们选用定制自己的表达式。 定义 Logstash 是一种服务器端数据处理管道,可同时…...
Java 8 Stream API 入门到实践详解
一、告别 for 循环! 传统痛点: Java 8 之前,集合操作离不开冗长的 for 循环和匿名类。例如,过滤列表中的偶数: List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...
关于nvm与node.js
1 安装nvm 安装过程中手动修改 nvm的安装路径, 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解,但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后,通常在该文件中会出现以下配置&…...
前端开发面试题总结-JavaScript篇(一)
文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...
JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案
JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停 1. 安全点(Safepoint)阻塞 现象:JVM暂停但无GC日志,日志显示No GCs detected。原因:JVM等待所有线程进入安全点(如…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...
论文笔记——相干体技术在裂缝预测中的应用研究
目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术:基于互相关的相干体技术(Correlation)第二代相干体技术:基于相似的相干体技术(Semblance)基于多道相似的相干体…...
网站指纹识别
网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言、数据厍 为什么要了解这些?举个例子:发现了一个文件读取漏洞,我们需要读/etc/passwd,如…...
【无标题】路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论
路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论 一、传统路径模型的根本缺陷 在经典正方形路径问题中(图1): mermaid graph LR A((A)) --- B((B)) B --- C((C)) C --- D((D)) D --- A A -.- C[无直接路径] B -…...
接口自动化测试:HttpRunner基础
相关文档 HttpRunner V3.x中文文档 HttpRunner 用户指南 使用HttpRunner 3.x实现接口自动化测试 HttpRunner介绍 HttpRunner 是一个开源的 API 测试工具,支持 HTTP(S)/HTTP2/WebSocket/RPC 等网络协议,涵盖接口测试、性能测试、数字体验监测等测试类型…...
nnUNet V2修改网络——暴力替换网络为UNet++
更换前,要用nnUNet V2跑通所用数据集,证明nnUNet V2、数据集、运行环境等没有问题 阅读nnU-Net V2 的 U-Net结构,初步了解要修改的网络,知己知彼,修改起来才能游刃有余。 U-Net存在两个局限,一是网络的最佳深度因应用场景而异,这取决于任务的难度和可用于训练的标注数…...
