当前位置: 首页 > news >正文

Python 爬虫项目实战三:GitHub 用户信息抓取与分析

一、项目背景

爬虫技术不仅限于获取网页内容,还可以用于获取和分析特定网站的用户信息。本文将演示如何使用Python编写爬虫程序,从GitHub网站抓取用户信息,并进行简单的数据分析。

二、环境准备

在开始之前,请确保你已经安装了Python解释器和以下必要的第三方库:

  • requests:用于发送HTTP请求和获取响应。
  • BeautifulSoup4:用于解析HTML和XML文档。
  • pandas:用于数据处理和分析。
  • matplotlib:用于数据可视化。

你可以使用pip安装这些库:

bash

pip install requests beautifulsoup4 pandas matplotlib

三、实现步骤

1. 发送请求获取页面内容

首先,我们需要发送HTTP请求获取GitHub用户页面的HTML内容。

python

import requestsdef fetch_github_users():url = 'https://github.com/users'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:return response.textelse:print("Failed to fetch page:", response.status_code)return None
2. 解析页面内容

使用BeautifulSoup解析HTML页面,定位用户信息所在的标签。

python

from bs4 import BeautifulSoupdef parse_html(html):soup = BeautifulSoup(html, 'html.parser')user_list = soup.find_all('div', class_='user-list-item')users = []for user in user_list:username = user.find('a', class_='user-list-name').text.strip()contributions = user.find('span', class_='user-list-contrib').text.strip().split()[0]followers = user.find('span', class_='user-list-followers').text.strip().split()[0]users.append({'username': username,'contributions': contributions,'followers': followers})return users
3. 数据处理与分析

将获取的用户信息存储到DataFrame中,并进行数据分析与可视化。

python

import pandas as pd
import matplotlib.pyplot as pltdef analyze_users(users):df = pd.DataFrame(users)df['contributions'] = df['contributions'].astype(int)df['followers'] = df['followers'].astype(int)# 数据统计print("平均贡献数:", df['contributions'].mean())print("最多粉丝的用户:", df.loc[df['followers'].idxmax()]['username'])# 可视化plt.figure(figsize=(10, 6))df.sort_values(by='followers', ascending=False, inplace=True)plt.barh(df['username'][:10], df['followers'][:10], color='lightgreen')plt.xlabel('Followers')plt.title('Top 10 GitHub Users with Most Followers')plt.gca().invert_yaxis()plt.show()# 主函数
if __name__ == '__main__':html = fetch_github_users()if html:users = parse_html(html)analyze_users(users)

结果展示

运行上述代码后,你将获得GitHub用户页面上的基本信息,包括用户名、贡献数和粉丝数,并且通过数据分析和可视化展示出粉丝最多的前10位用户。

四、总结

通过本文的实例,你学习了如何使用Python编写爬虫程序从GitHub网站上获取用户信息,并通过数据处理和可视化对数据进行分析。这种基于爬虫技术的数据采集和分析方法在实际应用中具有广泛的应用场景,例如社交网络分析、用户行为分析等。希望本文能够帮助你更好地理解和应用Python爬虫技术!

相关文章:

Python 爬虫项目实战三:GitHub 用户信息抓取与分析

一、项目背景 爬虫技术不仅限于获取网页内容,还可以用于获取和分析特定网站的用户信息。本文将演示如何使用Python编写爬虫程序,从GitHub网站抓取用户信息,并进行简单的数据分析。 二、环境准备 在开始之前,请确保你已经安装了…...

xtrabackup搭建MySQL 8.0 主从复制

xtrabackup搭建MySQL 8.0 主从复制 安装MySQL 8.0.37安装xtrabackupGTIDs初始化从库参考:GTID概述GTID相较与传统复制的优势GTID自身存在哪些限制GTID工作原理简单介绍如何开启GTID复制GTID与传统模式建立复制时候语句的不同点传统复制GTID复制 GTID同步状态简单解析…...

Java程序员接单分享

作为一名Java程序员,这阵子通过承接些小型项目,我顺利跨过了月薪破万的门槛。这些项目虽小,却如同磨刀石般,让我在实战中发现了自身技术栈的棱角与不足,尤其是意识到了在Java这一浩瀚技术海洋中的诸多未知领域。我深知…...

【HarmonyOS NEXT星河版开发学习】小型测试案例01-今日头条置顶练习

个人主页→VON 收录专栏→鸿蒙开发小型案例总结​​​​​ 基础语法部分会发布于github 和 gitee上面 ​ 前言 本系列可能是博客首发,鸿蒙开发星河版是一个全新的版本,由于参考视频较少鸿蒙开发不被重视导致csdn上面并没有全套的学习路线,…...

C语言----计算开机时间

计算开机时间 实例说明 编程实现计算开机时间&#xff0c;要求在每次开始计算开机时间时都能接着上次记录的结果向下记录。 实现过程&#xff1a; 1. 在TC中创建一个C文件。 2. 引用头文件&#xff0c;代码如下: #include <stdio.h> 3. 定义结构体time&#xff0c;用来…...

批发行业进销存-登录适配 android 横竖屏幕 源码CyberWinApp-SAAS 本地化及未来之窗行业应用跨平台架构

一、横竖屏切换的意义 以下是移动端横屏竖屏可切换在进销存中的一些重要应用&#xff1a; a、数据录入与查看 在录入商品信息、库存数量等大量数据时&#xff0c;横屏模式可以提供更宽阔的输入区域&#xff0c;减少输入错误。例如&#xff0c;在输入长串的商品编码或详细的商…...

js功能(1)

1、readonly 应用于元素&#xff1a;readonly 可以应用于 <input> 和 <textarea> 元素。 用户界面表现&#xff1a;当元素设置为 readonly 时&#xff0c;用户不能更改输入框中的值&#xff0c;但可以选中和复制文本&#xff0c;且表单包含该输入字段的值可以被提交…...

微信小程序乡村医疗系统,源码、部署+讲解

目录 摘 要 Abstract 1 绪论 1.1 研究背景及意义 1.2 研究现状 1.3 研究内容 2 相关技术介绍 2.1 Java 语言 2.2 MySQL 数据库 2.3 Spring Boot 框架 2.4 B/S 结构 2.5 微信小程序 3 系统分析 3.1 可行性分析 3.1.1 经济可行性 3.1.2 技术可行性…...

完美解决pip命令版本冲突导致对应版本模块包无法安装的问题

解决步骤 使用pip更新/降低指定模块包命令格式降低pip自身至指定版本的命令再次换源安装指定模块包 在对 FasterNet 这篇论文源码复现过程中&#xff0c;我们首先需要安装相关依赖文件&#xff08; path/to/your/requirements.txt&#xff09; -extra-index-url https://down…...

5.1-软件工程基础知识-软件工程概述

软件工程诞生原因 了解 早期的软件&#xff1a;主要是指采用个体工作方式实现的程序。第一次软件危机&#xff1a;20世纪60年代中期 典型表现有软件质量低下、项目无法如期完成、项目严重超支等因为软件而导致的重大事故时有发生。 软件工程的诞生&#xff1a;1968年在NATO会…...

极简聊天室-websocket版

再写一个极简聊天室的websocket版&#xff0c;在本例中&#xff0c;websocket仅用于服务器向客户端传输信息&#xff0c;客户端向服务器发送信息是传统的http post方式&#xff0c;用axios来实现的&#xff0c;当然websocket本身是支持双向通信&#xff0c;主要是为了方便跟前面…...

QT学生管理系统 开发文档

目录 第一章 UI界面设计与开发 登录界面 主界面 UI美化 第二章 数据库设计与开发 数据库设计 连接数据库 数据库功能设计 sql语句设计 查询所有学生数量 查询第几页学生数据 删除学生 修改学生信息 清空学生表 添加单个用户 删除单个用户 修改用户权限 查询所有用户…...

【五大海内外高校支持】2024年数字经济与计算机科学国际学术会议(DECS2024)

大会官网&#xff1a;www.icdecs.net 大会时间&#xff1a;2024年9月20-22日 大会地点&#xff1a;中国-厦门 截稿日期&#xff1a;详情见官网 支持单位 马来西亚理工大学 北京科技大学经济管理学院 南京信息工程大学 马来西亚敦胡先翁大学 大会嘉宾 大会主席 罗航…...

VS项目打包成lib库并使用

一、新建一个静态库项目 一般要把项目设为Release模式 二、添加文件 将所需要打包的头文件、源文件添加到该静态库项目中 三、生成项目 生成成功后即可在Release文件夹出现找到相应的.lib文件 四、使用静态库 将静态库文件复制到项目文件夹中&#xff0c;然后在项目属性设…...

社交巨头与去中心化:解析Facebook在区块链的角色

区块链技术的兴起为多个行业带来了变革&#xff0c;而社交平台也正在经历这一波技术浪潮。作为全球最大的社交网络之一&#xff0c;Facebook&#xff08;现名Meta Platforms&#xff09;在区块链领域的探索展示了其如何应对去中心化趋势的挑战&#xff0c;并利用这一技术推动自…...

MyBatis(学习记录)

一、ORM ORM是“对象关系映射”&#xff08;Object-Relational Mapping&#xff09;的缩写。这是一种编程技术&#xff0c;用于将对象模型与关系型数据库系统之间的数据进行转换。在面向对象的编程语言中&#xff0c;数据通常以对象的形式表示&#xff1b;而在关系型数据库中&a…...

QSpinbox

加载图片资源 在项目中&#xff0c;选择新建&#xff0c;QT->Qt Resource File -choose &#xff0c;命名为 image ,创建完成了&#xff0c;会在目录下生成一个image.qrc。我们资源文件&#xff0c;要放在image.qrc 的同级目录或子目录中。 常用的小功能 在左下方&#x…...

分布式服务架构[原理、设计与实践]学习笔记

地震是由不可抗力导致的&#xff0c;而事故与之不同&#xff0c;任何大的生产事故在发生之前都有迹可循&#xff0c;而且事故的发生并不是偶然的&#xff0c;我们应该善于从现象中总结规律&#xff0c;找到发现、止损和避免的方法 海恩法则 每一起严重事故的背后&#xff0c;必…...

PDF发票解析并将信息回填到前端(1)后端解析PDF

文章目录 参考文章技术栈需求解析发票类型 1. 最终项目结构1.1 说明 2. 相关代码2.1 导入相应的maven依赖2.2 实体类2.3 工具类2.4 三层架构controllerservicemapper 参考文章 参考文章 技术栈 SpringBootVue 需求 本文主要是实现提取发票中的部分内容&#xff0c;并实现自…...

C++练习之插入删除

#include <iostream> #include <ctime> #include <cstring> #include<cstdlib> using namespace std;typedef struct bookInfo {char name[10];float price;int num; }BOOKINFO;// p: 结构体数组首元素地址 // n: 有效图书数量 void Print(const BOOKI…...

揭秘!中国八大软件外包公司

&#x1f449; 这是一个或许对你有用的社群&#x1f431; 一对一交流/面试小册/简历优化/求职解惑&#xff0c;欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料&#xff1a; 《项目实战&#xff08;视频&#xff09;》&#xff1a;从书中学&#xff0c;往事上…...

如何突破八大网盘限速:终极直链解析下载方案

如何突破八大网盘限速&#xff1a;终极直链解析下载方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

2026年研究生必备!5款文献综述工具深度测评,AI辅助让综述写作效率提升10倍

&#x1f4a1; 面对导师催交的文献综述&#xff0c;你是否还在用Word手动复制粘贴文献信息&#xff1f;传统方法不仅耗时费力&#xff0c;还容易遗漏关键研究、逻辑混乱。本文深度测评5款主流文献综述工具&#xff0c;重点推荐AI辅助的靠岸学术Scholaread&#xff0c;帮助研究生…...

Leather Dress Collection 保姆级部署教程:Windows 系统下的完整指南

Leather Dress Collection 保姆级部署教程&#xff1a;Windows 系统下的完整指南 如果你是一名 Windows 用户&#xff0c;想体验最近很火的 Leather Dress Collection 这个 AI 模型&#xff0c;但看到一堆 Linux 命令就头疼&#xff0c;那这篇教程就是为你准备的。我知道&…...

SAP MRP独立需求与相关需求业务解析

在SAP MRP运行中&#xff0c;正确区分独立需求与相关需求是物料计划准确性的基石&#xff0c;两者对MRP计划结果的生成逻辑有根本性的影响。 一、核心概念区分与业务影响 独立需求与相关需求的本质区别在于其需求来源和计划逻辑&#xff0c;具体对比如下&#xff1a; 对比维…...

GLM-4v-9B应用案例:电商商品图识别、文档图表解析,真实场景体验

GLM-4v-9B应用案例&#xff1a;电商商品图识别、文档图表解析&#xff0c;真实场景体验 1. 多模态模型的核心能力 1.1 高分辨率图像理解 GLM-4v-9B原生支持11201120高分辨率输入&#xff0c;能够清晰识别图像中的小字、表格和复杂细节。在实际测试中&#xff0c;即使是电商商…...

文字情绪一目了然:像素心智情绪解码器快速上手指南

文字情绪一目了然&#xff1a;像素心智情绪解码器快速上手指南 1. 什么是像素心智情绪解码器 像素心智情绪解码器&#xff08;Pixel Mind Decoder&#xff09;是一款基于M2LOrder核心引擎构建的高端情绪识别工具。它将复杂的情绪识别过程转化为直观的视觉化体验&#xff0c;采…...

Stable Diffusion XL 1.0开源模型新实践:灵感画廊GitHub仓库结构导读

Stable Diffusion XL 1.0开源模型新实践&#xff1a;灵感画廊GitHub仓库结构导读 1. 项目概览&#xff1a;当AI艺术遇见诗意交互 灵感画廊&#xff08;Atelier of Light and Shadow&#xff09;是一个基于Stable Diffusion XL 1.0打造的沉浸式艺术创作工具。与常见的工业化AI…...

OpenClaw模型热切换:Qwen3-14b_int4_awq与ChatGLM3动态路由实验

OpenClaw模型热切换&#xff1a;Qwen3-14b_int4_awq与ChatGLM3动态路由实验 1. 为什么需要模型热切换 上周我在处理一个自动化任务时遇到了典型困境&#xff1a;让OpenClaw帮我生成Python爬虫代码时&#xff0c;ChatGLM3给出的方案总是过于保守&#xff1b;而让它写产品文案时…...

LumiPixel Canvas Quest光影魔法:不同光照条件下的人像生成效果

LumiPixel Canvas Quest光影魔法&#xff1a;不同光照条件下的人像生成效果 1. 光影的魅力&#xff1a;用光绘画的艺术 摄影圈有句老话&#xff1a;"摄影是用光的艺术"。这句话在AI生成领域同样适用。LumiPixel Canvas Quest通过精准的光照控制&#xff0c;让创作者…...