收藏! 38个Python数据科研库
通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库:
数据-用于数据管理,处理和其他处理的库
数学-虽然许多库都执行数学任务,但这个小型库却专门这样做
机器学习-自我解释;不包括主要用于构建神经网络或用于自动化机器学习过程的库
自动化机器学习-主要用于自动执行与机器学习相关的过程的库
数据可视化-与建模,预处理等相反,主要提供与数据可视化相关的功能的库。
解释与探索-主要用于探索和解释模型或数据的库
数据
1. Apache Spark
https://github.com/apache/spark
star:27600,贡献:28197,贡献者:1638
Apache Spark-用于大规模数据处理的统一分析引擎
2.Pandas
https://github.com/pandas-dev/pandas
star:26800,贡献:24300,贡献者:2126
Pandas是一个Python软件包,提供了快速,灵活和可表达的数据结构,旨在使使用“关系”或“标记”数据既简单又直观。它旨在成为在Python中进行实用,真实世界数据分析的基本高级构建块。
3.Dask
https://github.com/dask/dask
star:7300,贡献:6149,贡献者:393
任务调度的并行计算
数学
4. Scipy
https://github.com/scipy/scipy
star:7500,贡献:24247,贡献者:914
SciPy发音为“ Sigh Pie”是用于数学,科学和工程的开源软件。它包括用于统计,优化,积分,线性代数,傅立叶变换,信号和图像处理,ODE求解器等的模块。
5. Numpy
GitHub - numpy/numpy: The fundamental package for scientific computing with Python.
star:1500,贡献:24266,提供者:1010
使用Python进行科学计算的基本软件包。
机器学习
6. Scikit-Learn
https://github.com/scikit-learn/scikit-learn
star:42500,贡献:26162,贡献者:1881
Scikit-learn是一个基于SciPy的Python机器学习模块,并以3条款BSD许可分发。
7. XGBoost
GitHub - dmlc/xgboost: Scalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Dask, Flink and DataFlow
star:19900,贡献:5015,贡献者:461
适用于Python,R,Java,Scala,C ++等的可扩展,便携式和分布式梯度增强GBDT,GBRT或GBM库。在单机,Hadoop,Spark,Flink和DataFlow上运行
8. LightGBM
https://github.com/microsoft/LightGBM
star:11600,贡献:2066,贡献者:172
基于决策树算法的快速,分布式,高性能梯度提升GBT,GBDT,GBRT,GBM或MART框架,用于排名,分类和许多其他机器学习任务。
9.Catboost
https://github.com/catboost/catboost
star:5400,贡献:12936,贡献者:188
快速,可扩展,高性能的“决策树上的梯度提升”库,用于对Python,R,Java,C ++进行排名,分类,回归和其他机器学习任务。支持在CPU和GPU上进行计算。
10. Dlib
https://github.com/davisking/dlib
star:9500,贡献:7868,贡献者:146
Dlib是一个现代的C ++工具箱,其中包含机器学习算法和工具,这些工具和工具可以用C ++创建复杂的软件来解决实际问题。可以通过dlib API与Python一起使用
11.Annoy
https://github.com/spotify/annoy
star:7700,贡献:778,贡献者:53
C ++ / Python中的近似最近邻居已针对内存使用情况以及加载/保存到磁盘进行了优化
12.H20ai
https://github.com/h2oai/h2o-3
star:500,贡献贡献:27894,贡献者:137
适用于更智能应用的开源快速可扩展机器学习平台:深度学习,梯度提升和XGBoost,随机森林,广义线性建模逻辑回归,弹性网,K均值,PCA,堆叠集成,自动机器学习AutoML等。
13. StatsModels
https://github.com/statsmodels/statsmodels star:5600,承诺:13446,贡献者:247
Statsmodels:Python中的统计建模和计量经济学
14. mlpack
https://github.com/mlpack/mlpack
star:3400,贡献:24575,贡献者:190
mlpack是一个直观,快速且灵活的C ++机器学习库,具有与其他语言的绑定
15.Pattern
https://github.com/clips/pattern
star:7600,贡献:1434,贡献者:20
用于Python的Web挖掘模块,具有用于抓取,自然语言处理,机器学习,网络分析和可视化的工具。
16.Prophet
https://github.com/facebook/prophet
star:11500,贡献:595,贡献者:106
用于为具有多个季节性且线性或非线性增长的时间序列数据生成高质量预测的工具。
自动化机器学习
17. TPOT
https://github.com/EpistasisLab/tpot
star:7500,贡献:2282,贡献者:66
一个Python自动化机器学习工具,可使用遗传编程来优化机器学习pipeline。
18. auto-sklearnhttps://github.com/automl/auto-sklearn
star:4100,贡献:2343,贡献者:52
auto-sklearn是一种自动化的机器学习工具包,是scikit-learn估计器的直接替代品。
19. Hyperopt-sklearn
https://github.com/hyperopt/hyperopt-sklearn
star:1100,贡献:188,贡献者:18
Hyperopt-sklearn是scikit-learn中机器学习算法中基于Hyperopt的模型选择。
20. SMAC-3
https://github.com/automl/SMAC3
star:529,贡献:1882,贡献者:29
基于顺序模型的算法配置
21. scikit-optimizehttps://github.com/scikit-optimize/scikit-optimize
star:1900,贡献:1540,贡献者:59
Scikit-Optimize或skopt是一个简单高效的库,可最大限度地减少非常昂贵且嘈杂的黑盒功能。它实现了几种基于顺序模型优化的方法。
22. Nevergrad
https://github.com/facebookresearch/nevergrad
star:2700,贡献:663,贡献者:38
用于执行无梯度优化的Python工具箱
23.Optuna
https://github.com/optuna/optuna
star:3500,贡献:7749,贡献者:97
Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。
数据可视化
24. Apache Superset
https://github.com/apache/incubator-superset
star:30300,贡献:5833,贡献者:492
Apache Superset是一个数据可视化和数据探索平台
25. Matplotlib
https://github.com/matplotlib/matplotlib
star:12300,贡献:36716,贡献者:1002
Matplotlib是一个综合库,用于在Python中创建静态,动画和交互式可视化。
26.Plotly
https://github.com/plotly/plotly.py
star:7900,贡献:4604,贡献者:137
Plotly.py是适用于Python的交互式,基于开源和基于浏览器的图形库
27. Seaborn
https://github.com/mwaskom/seaborn
star:7700,贡献:2702,贡献者:126
Seaborn是基于matplotlib的Python可视化库。它提供了用于绘制吸引人的统计图形的高级界面。
28.folium
GitHub - python-visualization/folium: Python Data. Leaflet.js Maps.
star:4900,贡献:1443,贡献者:109
Folium建立在Python生态系统的数据处理能力和Leaflet.js库的映射能力之上。用Python处理数据,然后通过folium在可视化的Leaflet贴图中显示。
29. Bqplot
https://github.com/bqplot/bqplot
star:2900,贡献:3178,贡献者:45
Bqplot是Jupyter的二维可视化系统,基于图形语法的构造。
30. VisPy
https://github.com/vispy/vispy
star:2500,贡献:6352,贡献者:117
VisPy是一个高性能的交互式2D / 3D数据可视化库。VisPy通过OpenGL库利用现代图形处理单元GPU的计算能力来显示非常大的数据集。
31. PyQtgraph
https://github.com/pyqtgraph/pyqtgraph
star:2200,贡献:2200,贡献者:142
用于科学/工程应用的快速数据可视化和GUI工具
32.Bokeh
https://github.com/bokeh/bokeh
star:1400,贡献:18726,贡献者:467
Bokeh是用于现代Web浏览器的交互式可视化库。它提供通用图形的优雅,简洁的构造,并在大型或流数据集上提供高性能的交互性。
33.Altair
https://github.com/altair-viz/altair
star:600,贡献:3031,贡献者:106
Altair是用于Python的声明性统计可视化库。使用Altair,您可以花费更多时间来理解数据及其含义。
解释与探索
34. eli5https://github.com/TeamHG-Memex/eli5
star:2200,贡献贡献:1198,贡献者:15
一个用于调试/检查机器学习分类器并解释其预测的库
35. LIMEh
ttps://github.com/marcotcr/lime star:800,承诺:501,贡献者:41
Lime:解释任何机器学习分类器的预测
36. SHAP
https://github.com/slundberg/shap
star:10400,贡献:1376,贡献者:96
一种博弈论方法,用于解释任何机器学习模型的输出。
37. YellowBrick
https://github.com/DistrictDataLabs/yellowbrick
star:300,贡献:825,贡献者:92
可视化分析和诊断工具,有助于机器学习模型的选择。
38.pandas-profiling
https://github.com/pandas-profiling/pandas-profiling
star:6200名,贡献:704名,贡献者:47名
原文链接:
生态、遥感、水文水资源、大气科学多领域详细操作教程
相关文章:

收藏! 38个Python数据科研库
通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库: 数据-用于数据管理,处理和其他处理的库 数学-虽然许多库都执行数学任务,但这个小型库却专门这样做 机…...

SpringBoot过滤器获取Bean-请求重复可读-获取请求体数据-用户IP归属地获取
文章目录一.获取Bean二. Request重复可读三. 过滤器获取Body请求体数据四.用户ip获取一.获取Bean 网上一些论调说Filter无法注入Bean的原因是加载顺序: listener—>filter—>servlet导致的.我不赞同. 原因:默认机制下,在SpringBoot应用启动时,IOC…...

有哪些特别小众而有趣的编程语言呢?
相对较小众的编程语言,还要有趣?发表一些个人看法,如果不对大家口味,大家轻喷,留情留情。 Rust:Rust是一种系统编程语言,致力于提供高性能、可靠性和安全性。Rust具有内存安全和线程安全的特性&…...

vue中使用高德
首先我们要申请高德地图的key,当前升级过后高德地图使用也需要加上安全秘钥 注册账号 访问高德地图开发平台根据实际情况填写就可以🍜(实名认证的时候选择个人就可以,如果是企业级的项目,可能会涉及人员变动…...

React class组件和hooks setState异步更新数据详解
一、 class组件setState详解 1.class组件setState异步更新数据详解 class Father extends React.Component{state {num:0}addHandler () > { this.setState({num: 100})console.log(state中的值,this.state.num)}render() { return (<div><button onClick{this…...

ToBeWritten之嵌入式操作系统
也许每个人出生的时候都以为这世界都是为他一个人而存在的,当他发现自己错的时候,他便开始长大 少走了弯路,也就错过了风景,无论如何,感谢经历 转移发布平台通知:将不再在CSDN博客发布新文章,敬…...

git 实际开发中使用-解决问题
前言 git代码版本管理工具,打破常规的物理传输,更新,合并,回滚提高了开发效率和可追溯性。 网上的资料会把所有的命令都很全也很多,导致对刚刚了解的同学不友好,很难实际使用。 每个人都有自己使用git的习…...

新星计划·2023-第1期 - Python赛道报名入口 -〖你就是下一个新星〗
↓↓↓报名方式:(下滑到本页面底部)重要提醒:这里是 新星计划2023-第1期 - Python赛道报名入口,一经报名,不可更换。报名入口点击此处跳转 一、新星计划 新星计划是一个以发掘潜力新人、培养优质博主为目…...

Android LowMemoryKiller概述
Agenda Low memory killer 概述 内核空间LMK ULMK‐vmpressure ULMK‐PSI Low memory killer 概述 lowmemorykiller的作用就是当内存比较紧张的时候去及时杀掉一些对用户来说不那么重要的进程,回收内存,保证手机的正常运行。安卓平台lowmemorykiller机…...

特殊操作流——案例:游戏次数
需求:请求程序实现猜数字小游戏只能试玩三次,如果还想玩,提示:游戏已经结束,想玩请充值(www.itcast.cn) 思路: 写一个游戏类,里面有一个猜数字的小游戏 写一个测试类&am…...

git clone connect to gitlab sign in token弹窗让我输入用户名和密码
系列文章目录 文章目录系列文章目录前言前言 当我使用git bash输入命令:git clone https://gitlab.freedesktop.org/raqm/raqm.git libraqm 弹窗 ASUSLAPTOP-0R30I78P MINGW64 /e/krita-dev $ git clone https://gitlab.freedesktop.org/raqm/raqm.git libraqm C…...

【Blender】如何在Blender中添加HDRI环境贴图
什么是HDRI环境贴图 环境贴图或HDRI贴图是在Blender中照亮3D场景并实现逼真效果的最有效和最快捷的方法之一。 HDRIs本质上是现实世界照明的快照,其中包含高动态范围成像(HDRI)的准确照明细节。HDRI是一个包含亮度信息(从暗…...

前端监控指的是什么?
前端监控分为三个方面: 异常监控(监控前端页面的报错)性能监控(监控页面的性能)用户行为监控(监控用户的行为,计算PV、UV、在线时间等、数据监控即我们常说的埋点 例子1 在后端突然上线了某个需…...

.net core 面试题 2023
文章目录1. 什么是 ASP.net core2. .net 术语3. 托管资源 和 非托管资源4. GC 和 垃圾回收5. .net中所有类的基类6. 如何实现对象的深拷贝7. 依赖注入,为什么使用依赖注入8. IOC容器的注入方法9. ASP.net core 中 服务生命周期10. scoped的 service 可以注入到 sing…...

和ChatGPT关于Swing music的一场对话(上篇)
什么是 Swing Music ? Swing Music 是一款漂亮的自托管音乐播放器,适用于您的本地音频文件。就像一个更酷的 Spotify …但带上你自己的音乐。 第一次在 reddit 上看到 Swing Music,就被其 UI 吸引了 但源码站点的releases 中只有 windows 和 …...

java版工程项目管理系统源码 Spring Cloud+Spring Boot+Mybatis+Vue+ElementUI+前后端分离 功能清单
ava版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目显示1…...

debian 10 扩展分区容量
debian 10 扩展分区容量1、扩展分区原因2、添加一块磁盘3、命令记录3.1、新增加的磁盘是/dev/sdb3.2、使用磁盘/dev/sdb 创建物理卷3.3、 把物理卷/dev/sdb加入到卷组debian-vg中3.4、查看物理卷、逻辑卷3.5、扩展逻辑卷/tmp3.6、逻辑卷组debian-vg 空余空间被用掉10g 还剩90g可…...

【无功优化】基于改进遗传算法的电力系统无功优化研究【IEEE30节点】(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

LeetCode 218. 天际线问题
城市的 天际线 是从远处观看该城市中所有建筑物形成的轮廓的外部轮廓。给你所有建筑物的位置和高度,请返回 由这些建筑物形成的 天际线 。 每个建筑物的几何信息由数组 buildings 表示,其中三元组 buildings[i] [lefti, righti, heighti] 表示…...

Logstash:使用自定义正则表达式模式
有时 Logstash Grok 没有我们需要的模式。 幸运的是我们有正则表达式库:Oniguruma。在很多时候,如果 Logstash 所提供的正则表达不能满足我们的需求,我们选用定制自己的表达式。 定义 Logstash 是一种服务器端数据处理管道,可同时…...

常见的一致性问题及解决
什么是一致性 一致性问题主要是因为分布式系统中的多个节点之间可能存在网络延迟、故障等原因导致的。具体而言,分布式系统中的数据一致性问题可以分为以下几种类型: 强一致性:指在任何时间点,所有节点中的数据都是一致的。这种…...

vue下载文件
注意请求时加入:responseType: bloburl:写全了,因为前后端端口号不同downloadImage(imgUrl) {let formData new FormData();formData.append(fileName, this.getFilename(imgUrl)); // 用于后端下载文件的路径axios.post(http://localhost:8…...

人人都是数据分析师-数据分析之数据图表可视化(下)
当前的BI报表、运营同学的汇报报告中数据图表大多为 表格、折线图、柱状图和饼图,但是实际上还有很多具有代表性的可视化图表,因此将对常见的可视化图表进行介绍,希望这些图表可视化方法能够更好的提供数据的可用性。 人人都是数据分析师-数…...

考勤、充电,绑身份,你的人员定位系统就缺它了!
我们做人脸识别智能发卡充电柜是要解决什么问题? (1)工地、港口等场景,人员流动大,管理难 在工地、港口等场景,人员组成通常比较复杂。有来自施工方、客户、各劳务队、各管理层的人员,以及来自…...

RocketMQ水平扩展及负载均衡详解
文章目录 Broker端水平扩展Broker负载均衡commit logProducer负载均衡Consumer负载均衡集群模式广播模式RocketMQ是一个分布式具有高度可扩展性的消息中间件。本文旨在探索在broker端,生产端,以及消费端是如何做到横向扩展以及负载均衡的。 Broker端水平扩展 Broker负载均衡…...

java接口笔记
关键字:interface 定义形式:interface 接口名 { 接口体 } 细节: 1.接口里的方法可以为抽象方法,静态方法,默认方法(default 关键字) 2.接口里的方法只能是public ,可以不用写&a…...

安利安利-向大家推荐一个超级牛的etcd管理工具-EtcdKeeperFyne
etcd介绍 关于etcd的介绍大家可以看下这篇文章 etcd 开源仓库地址:EtcdKeeperFyne EtcdKeeperFyne 今天主要是向大家推荐一款使用起来特别方便的Etcd管理工具 EtcdKeeperFyne,具体运行起来的界面如下: 推荐原因 使用简单安装简单&…...

数字经济系列讲座-数字化平台(商业购物平台)
数字经济系列讲座 文章目录 钱的流向退货成本research questionLiterature review现金流发生在平台内侧平台商业模式转型Modelmodel 假设四种情形标记符利润函数&效用函数&平台效益模型构建利润对比图结论future directions讲座题目 To Adopt or not? The Impacts of…...

python3中collections模块详解
collections模块简介 collections包含了一些特殊的容器,针对Python内置的容器,例如list、dict、set和tuple,提供了另一种选择; namedtuple,可以创建包含名称的tuple; deque,类似于list的容器&a…...

护网面试题2.0
1.CSS和CSRF区别 通俗点讲的话: XSS通过构造恶意语句获取对方cookie, CSRF通过构造恶意链接利用对方cookie,但看不到cookie XSS比CSRF更加容易发生,但CSRF比XSS攻击危害更大 2.XSS原理 XSS(Cross-Site Scripting&…...