当前位置: 首页 > news >正文

【数据可视化-16】珍爱网上海注册者情况分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

【数据可视化-16】珍爱网上海注册者情况分析

  • 一、引言
  • 二、数据来源与预处理
    • 2.1 python库与数据导入
    • 2.2 数据清洗
  • 三、数据可视化
    • 3.1 性别比例分析
    • 3.2 年龄分布分析
    • 3.3 婚姻状况分析
    • 3.4 自我介绍词云图分析
  • 四、总结

一、引言

  随着春节的结束,相亲市场逐渐升温。为了更好地了解上海珍爱网的注册人员信息,进行了一次数据爬取,并使用 pyecharts 进行了可视化分析。以下是详细报告。

二、数据来源与预处理

  爬取了珍爱网上海地区的注册人员信息,包括性别、城市、年龄、薪资或学历、婚姻状况、身高和自我介绍等字段。数据保存在一个 CSV 文件中。

2.1 python库与数据导入

  首先,需要读取数据并进行预处理。以下是导入相应的库读取数据的代码:

import pandas as pd 
import numpy as np 
import jieba 
import time from pyecharts.charts import Bar,Line,Map,Page,Pie  
from pyecharts import options as opts 
from pyecharts.globals import SymbolType # 读取CSV文件
df = pd.read_csv('shanghai_zhenai_data.csv')

2.2 数据清洗

  对数据字段进行清洗,产生结构化的特征。

df1["age_cut"]=pd.cut(df1["年龄"],bins=[18,30,42,54,66,78])
df1["age_cut2"]=pd.qcut(df1["年龄"],5,labels=['青年', '壮年', '中年', '老年','晚年'])

三、数据可视化

3.1 性别比例分析

  首先,分析上海珍爱网注册人员的性别比例。以下是使用 pyecharts 创建性别柱状图的代码:

temp = df1['性别'].value_counts().reset_index()
temp.columns = ['性别','计数']
data_pair = [(row['性别'], row['计数']) for _, row in temp.iterrows()]
top_city = sorted(data_pair, key=lambda x: x[1], reverse=True)###  不同的柱子使用不同的颜色
data_pair = []
for k, v, c in zip([x[0] for x in top_city], [x[1] for x in top_city], ['red', 'blue']):data_pair.append(opts.BarItem(name=k,value=v,itemstyle_opts=opts.ItemStyleOpts(color=c)))bar = (Bar(init_opts=opts.InitOpts(theme='dark',width='1000px', height='800px')).add_xaxis([x[0] for x in top_city]).add_yaxis("", data_pair).set_series_opts(label_opts=opts.LabelOpts(is_show=True, position='insideRight',font_style='italic',color='pink'),).set_global_opts(title_opts=opts.TitleOpts(title="珍爱网上海相亲性别状况表现",subtitle="数据截止日期:2025年1月24日, 制图公众号--NLP随手记---",pos_top='2%',pos_left="center",title_textstyle_opts=opts.TextStyleOpts(color='#228be6',font_size=20)),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45)),  #legend_opts=opts.LegendOpts(is_show=True),)# .reversal_axis()   #是否旋转坐标轴)
bar.render_notebook()
# bar.render("珍爱网上海相亲性别表现.html")


  通过上图,可以知道上海该时间段,注册的相亲者中,男生比女生要多。

3.2 年龄分布分析

  接下来,我们分析上海珍爱网注册人员的年龄分布。以下是使用 pyecharts 创建年龄分布饼状图的代码:

df2 = df1.age_cut2.value_counts().reset_index()
data_pair = [[df2.loc[i]['index'],df2.loc[i]['age_cut2']] for i in range(len(df2))]pie = (Pie(init_opts=opts.InitOpts(width='1000px', height='800px')).add(series_name="",data_pair=data_pair,radius=["30%",'50%'],center=["38%", "50%"],label_opts=opts.LabelOpts(is_show=False, position="center"),).set_global_opts(title_opts=opts.TitleOpts(title='珍爱网上海相亲年龄状况表现',subtitle="数据截止日期:2025年1月24日, 制图公众号--NLP随手记---",pos_top='2%',pos_left="center",title_textstyle_opts=opts.TextStyleOpts(color='#228be6',font_size=20)),# visualmap_opts=opts.VisualMapOpts(#     is_show=False,#     max_=600,#     pos_top='70%',#     pos_left='20%',#     range_color=['blue', 'green', 'yellow', 'red']# ),legend_opts=opts.LegendOpts(is_show=True, pos_right="15%", pos_top="8%",orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%")).set_colors(['#EF9050', '#3B7BA9', '#6FB27C','#CC0033','#003399'])
)
pie.render_notebook()
pie.render("pie_set_color.html")


  通过上图,可以知道上海该时间段,注册的相亲者中,相亲的人的年龄状况还是比较均衡的,中年人占比稍稍多一下。

3.3 婚姻状况分析

  然后,分析上海珍爱网注册人员的婚姻状况。以下是使用 pyecharts 创建婚姻状况饼图的代码:

pie = (Pie(init_opts=opts.InitOpts(width='1000px', height='800px')).add(series_name="",data_pair=[list(z) for z in zip(["离异", "未婚", "丧偶"],[71, 40, 9],)],radius=["30%",'50%'],center=["38%", "50%"],label_opts=opts.LabelOpts(is_show=False, position="center"),).set_global_opts(title_opts=opts.TitleOpts(title='珍爱网上海婚姻状况表现',subtitle="数据截止日期:2025年1月24日, 制图公众号--NLP随手记---",pos_top='2%',pos_left="center",title_textstyle_opts=opts.TextStyleOpts(color='#228be6',font_size=20)),# visualmap_opts=opts.VisualMapOpts(#     is_show=False,#     max_=600,#     pos_top='70%',#     pos_left='20%',#     range_color=['blue', 'green', 'yellow', 'red']# ),legend_opts=opts.LegendOpts(is_show=True, pos_right="15%", pos_top="8%",orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%")).set_colors(['#EF9050', '#3B7BA9', '#6FB27C'])
)
pie.render_notebook()
pie.render("珍爱网上海婚姻状况表现.html")


  通过上图,可以知道上海该时间段,注册的相亲者中,离异是最主要的因素。

3.4 自我介绍词云图分析

  这里我们将使用stylecloud库来绘制词云图,看看自我介绍的词云图的分布情况,首先按照stylecloud库

!pip install stylecloud

  其次,编写自我介绍的清洗函数,具体函数如下;

def get_cut_words(content_series):# 读入停用词表stop_words = [] with open("stopwords.txt", 'r') as f:lines = f.readlines()for line in lines:stop_words.append(line.strip())# 添加关键词my_words = ['同频共振', '知冷暖', '毕业落户', '外冷内热', '造梦者','外冷内热','性格相投']    for i in my_words:jieba.add_word(i) #     自定义停用词my_stop_words = ['设施', '学校', '我校', '希望', '...','一个','增加''理论', '建议', '希望', '学生', '博客','豆瓣', '叶滑生','简书', '全国', '增加', '建设', '搞好','基于','CSDN','2019']   stop_words.extend(my_stop_words)               # 分词content=';'.join([ str(c) for c in content_series.tolist()])word_num = jieba.lcut(content)# 条件筛选word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2]return word_num_selected

最后绘制词云图;

import stylecloud
from pathlib import Path
from IPython.display import Image # 用于在jupyter lab中显示本地图片# 绘制词云图
stylecloud.gen_stylecloud(text=' '.join(get_cut_words(content_series=df1["自我介绍"]) ),collocations=False,font_path=(r'C:\\Windows\Fonts\SimHei.ttf'),#2-1字体的Path路径,icon_name='fas fa-heart',size = 578,output_name='上海珍爱网的自我介绍数据可视化.png'
)
Image(filename='上海珍爱网的自我介绍数据可视化.png')

  注意:在实际运行上述代码时,你需要确保已经安装了 jieba 分词库。

四、总结

  通过以上分析,我们可以得出以下结论:

  1. 上海珍爱网注册人员的性别情况,男生比女生稍多。
  2. 年龄分布主要集中比例较为均衡,中年人稍多一些。
  3. 婚姻状况以离异和未婚为主,说明相亲市场的主要需求群体。
  4. 自我介绍中出现了许多与性格、爱好、工作等相关的词汇,反映了注册人员的自我认知和期望。

  希望这份报告能为关注上海珍爱网相亲市场的人员提供一定的参考和帮助。祝大家早日找到心仪的另一半!

相关文章:

【数据可视化-16】珍爱网上海注册者情况分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…...

c/c++蓝桥杯经典编程题100道(21)背包问题

背包问题 ->返回c/c蓝桥杯经典编程题100道-目录 目录 背包问题 一、题型解释 二、例题问题描述 三、C语言实现 解法1:0-1背包(基础动态规划,难度★) 解法2:0-1背包(空间优化版,难度★…...

电赛DEEPSEEK

以下是针对竞赛题目的深度优化方案,重点解决频率接近时的滤波难题和相位测量精度问题: 以下是使用NI Multisim 14.3实现本项目的详细解决方案: 一、基础要求实现方案(模块化设计) 1. 双频信号发生电路 电路结构&…...

VSOMEIP ROUTING应用和CLIENT应用之间交互的消息

#define VSOMEIP_ASSIGN_CLIENT 0x00 // client应用请求分配client_id #define VSOMEIP_ASSIGN_CLIENT_ACK 0x01 // routing应用返回分配的client_id #define VSOMEIP_REGISTER_APPLICATION 0x02 // client应用注册someip应用 #…...

HTML之基本布局div|span

HTML基本布局使用 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"width<device-width>, initial-scale1.0"><title>布局</title> <…...

Linux下学【MySQL】常用函数助你成为数据库大师~(配sql+实操图+案例巩固 通俗易懂版~)

绪论​ 每日激励&#xff1a;“唯有努力&#xff0c;才能进步” 绪论​&#xff1a; 本章是MySQL中常见的函数&#xff0c;利用好函数能很大的帮助我们提高MySQL使用效率&#xff0c;也能很好处理一些情况&#xff0c;如字符串的拼接&#xff0c;字符串的获取&#xff0c;进制…...

【Rabbitmq篇】高级特性----TTL,死信队列,延迟队列

目录 一.TTL ???1.设置消息的TTL 2.设置队列的TTL 3.俩者区别? 二.死信队列 定义&#xff1a; 消息成为死信的原因&#xff1a; 1.消息被拒绝&#xff08;basic.reject 或 basic.nack&#xff09; 2.消息过期&#xff08;TTL&#xff09; 3.队列达到最大长度? …...

机器学习赋能的智能光子学器件系统研究与应用

机器学习赋能的智能光子学器件系统研究与应用 时间&#xff1a; 2025年03月29日-03月30日 2025年04月05日-04月06日 机器学习赋能的光子学器件与系统&#xff1a;从创新设计到前沿应用 课程针对光子学方面的从业科研人员及开发者&#xff0c;希望了解和实践在集成光学/空间…...

尚硅谷课程【笔记】——大数据之Linux【三】

课程视频链接&#xff1a;尚硅谷大数据Linux课程 七、定时任务调度 任务调度&#xff1a;指系统在某个时间执行的特定的命令或程序。 1&#xff09;系统工作&#xff1a;有些重要的工作必须周而复始地执行。 2&#xff09;个别用户工作&#xff1a;用户可能希望在某些特定的时…...

Visual Studio踩过的坑

统计Unity项目代码行数 编辑-查找和替换-在文件中查找 查找内容输入 b*[^:b#/].*$ 勾选“使用正则表达式” 文件类型留空 也有网友做了指定&#xff0c;供参考 !*\bin\*;!*\obj\*;!*\.*\*!*.meta;!*.prefab;!*.unity 打开Unity的项目 注意&#xff1a;只是看&#xff0…...

教程 | MySQL 基本指令指南(附MySQL软件包)

此前已经发布了安装教程安装教程&#xff0c;现在让我们来学习一下MySQL的基本指令。 一、数据库连接与退出 连接本地数据库 mysql -uroot -p # 输入后回车&#xff0c;按提示输入密码&#xff08;密码输入不可见&#xff09;若需隐藏密码显示&#xff0c;可使用&#xff1…...

企业数据集成案例:吉客云销售渠道到MySQL

测试-查询销售渠道信息-dange&#xff1a;吉客云数据集成到MySQL的技术案例分享 在企业的数据管理过程中&#xff0c;如何高效、可靠地实现不同系统之间的数据对接是一个关键问题。本次我们将分享一个具体的技术案例——通过轻易云数据集成平台&#xff0c;将吉客云中的销售渠…...

网络编程 day3

思维导图 以select函数模型为例 思维导图2 对应 epoll模型 应使用的函数 题目 使用epoll函数实现 两个客户端 通过服务器 实现聊天 思路 在原先代码基础上 实现 服务器 发向 客户端 使用客户端在服务器上的 套接字描述符 实现 客户端 接收 服务器…...

Excel 融合 deepseek

效果展示 代码实现 Function QhBaiDuYunAIReq(question, _Optional Authorization "Bearer ", _Optional Qhurl "https://qianfan.baidubce.com/v2/chat/completions")Dim XMLHTTP As ObjectDim url As Stringurl Qhurl 这里替换为你实际的URLDim postD…...

【论文笔记】Are Self-Attentions Effective for Time Series Forecasting? (NeurIPS 2024)

官方代码https://github.com/dongbeank/CATS Abstract 时间序列预测在多领域极为关键&#xff0c;Transformer 虽推进了该领域发展&#xff0c;但有效性尚存争议&#xff0c;有研究表明简单线性模型有时表现更优。本文聚焦于自注意力机制在时间序列预测中的作用&#xff0c;提…...

游戏手柄Type-c方案,支持一边充电一边传输数据

乐得瑞推出LDR6023SS&#xff0c;专门针对USB-C接口手机手柄方案&#xff0c;支持手机快充&#xff0c;支持任天堂游戏机&#xff0c;PS4等设备~同时支持手机充电跟数据传输 1、概述 LDR6023SS SSOP16 是乐得瑞科技针对 USB Type-C 标准中的 Bridge 设备而开发的双 USB-C DRP …...

2. 4 模块化JDK:JDK模块结构与核心模块

第3章&#xff1a;模块化JDK&#xff1a;JDK模块结构与核心模块 JDK 9 将自身拆分为一系列模块&#xff0c;彻底告别传统的“单一JAR&#xff08;如 rt.jar&#xff09;”模式。本章深入解析 JDK 的模块化架构、核心模块功能及开发者如何高效利用这些模块。 3.1 JDK 模块化设计…...

每日一题——缺失的第一个正整数

缺失的第一个正整数 题目描述进阶&#xff1a;数据范围&#xff1a; 示例示例 1示例 2示例 3 题解思路代码实现代码解释复杂度分析总结 题目描述 给定一个无重复元素的整数数组 nums&#xff0c;请你找出其中没有出现的最小的正整数。 进阶&#xff1a; 时间复杂度&#xff…...

CEF132 编译指南 MacOS 篇 - 基础开发工具安装实战 (二)

1. 引言 在 macOS 平台上编译 CEF132 之前&#xff0c;首要任务是搭建一个完善的开发环境。与 Windows 和 Linux 环境不同&#xff0c;macOS 的开发环境主要以 Xcode 为核心。本篇将作为 CEF132 编译指南系列的第二篇&#xff0c;详细指导读者如何在 macOS 系统上安装和配置 X…...

vi 是 Unix 和 Linux 系统中常用的文本编辑器

vi是 Unix 和 Linux 系统中常用的文本编辑器&#xff0c;它有几种不同的模式&#xff0c;其中最常用的是命令模式和插入模式。光标控制主要在命令模式下进行&#xff0c;以下是一些常用的vi命令来控制光标位置&#xff1a; • h,j,k,l&#xff1a;分别用于将光标向左、向下、向…...

Android安全漏洞案例分析:血淋淋的教训

Android安全漏洞案例分析&#xff1a;血淋淋的教训 Android安全漏洞案例分析&#xff1a;血淋淋的教训 案例一&#xff1a;Secret Token泄露导致账户劫持 漏洞危害&#xff1a;攻击者获取用户全部权限 某社交App在客户端硬编码了API密钥&#xff0c;攻击者通过反编译获取密钥…...

学习框架和推理引擎有什么区别

​​​​​​学习框架和推理引擎通常分别应用在 AI 大模型的训练和推理 &#xff08;运行&#xff09;阶段。模型的核心任务是从大量数据中学习规律&#xff0c;完成特定预测或者生成任务&#xff0c;前者即“模型训练”&#xff0c;后者即“模型运行”。在模型训练时&#xff…...

告别‘千人千脑’:用DMMR模型搞定EEG情感识别的跨被试难题(附PyTorch代码)

突破脑电情感识别的个体差异壁垒&#xff1a;DMMR模型实战指南与PyTorch实现 当你在实验室里看着屏幕上跳动的脑电波形时&#xff0c;是否曾为不同受试者数据间的巨大差异而头疼&#xff1f;这种被称为"脑电指纹"的个体特异性&#xff0c;一直是情感识别领域最棘手的…...

【AI】开源文字转语音(TTS)模型

目前开源界在文字转语音&#xff08;TTS&#xff09;领域非常活跃&#xff0c;特别是针对多角色对话、情感控制和声音克隆方面&#xff0c;涌现了几个非常强大的模型。 结合&#xff08;多角色、好用、开源&#xff09;&#xff0c;以下几款目前&#xff08;截至2026年4月&…...

卡尔曼滤波在无人机飞控和机器人SLAM里到底怎么用?一个实例讲透

卡尔曼滤波在无人机飞控中的实战&#xff1a;从IMU-GPS融合到状态估计 1. 无人机状态估计的工程挑战 当你在郊外试飞新组装的四旋翼无人机时&#xff0c;突然发现GPS信号出现波动&#xff0c;而IMU数据也开始漂移。这时飞控系统如何保持稳定的姿态控制&#xff1f;这个看似简单…...

07-打造个性化 AI 助手

OpenClaw 第七篇:记忆系统进阶——打造个性化 AI 助手 “Memory is the treasury and guardian of all things.” — Cicero 在人工智能领域,有一个永恒的挑战:如何让 AI 记住「我是谁」、「你是谁」,以及「我们之前聊过什么」。OpenClaw 作为新一代 AI 自动化平台,构建了…...

06-AI 编程助手实战

OpenClaw + ACP:AI 编程助手实战 “让 AI 帮你写代码、调 Bug、做重构——这就是 ACP 的魔力。” 在软件开发领域,如何让 AI 真正成为程序员的得力助手,而非仅仅是「代码补全工具」?OpenClaw 给出的答案是 ACP(Agent Coding Protocol)。通过这一协议,OpenClaw 能够与业界…...

C++手动实现共享智能指针my_shared_ptr|引用计数+删除器+完整可运行代码

1.共享智能指针的概念 共享型智能指针就是做出一个像JAVA中垃圾回收器,并且可以运用到所有资源,heap内存和系统资源都可以使用的系统。 shared_ptr实现了共享所有权(shared ownership)方式来管理资源对象,这意味没有一个特定的shared_ptr拥有资源对象。相反,这些指向同一…...

保姆级教程:用yangipcclient RN SDK 8.0快速给你的App加上实时对讲功能

保姆级实战&#xff1a;React Native应用集成实时对讲功能的完整指南 想象一下&#xff0c;你正在开发一款智能家居控制应用&#xff0c;用户反馈最强烈的需求是能够直接与家中的设备进行语音对讲。或者你负责的教育类App&#xff0c;小组讨论时缺少高效的实时语音沟通工具。传…...

Pixel Fashion Atelier部署案例:中小企业低成本GPU算力优化生成方案

Pixel Fashion Atelier部署案例&#xff1a;中小企业低成本GPU算力优化生成方案 1. 项目概述与核心价值 Pixel Fashion Atelier是一款专为时尚设计领域打造的AI图像生成工作站&#xff0c;基于Stable Diffusion和Anything-v5模型构建。与传统AI工具不同&#xff0c;它采用独特…...