某快餐店用户市场数据挖掘与可视化
1、必要库的载入
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
2、加载并清洗数据
# 2.1 加载数据
df = pd.read_csv('/home/mw/input/survey6263/mcdonalds.csv')# 2.2 数据清洗
# 2.2.1 检查缺失值
print('缺失值情况:')
print(df.isnull().sum())
# 2.2.2 处理异常值(年龄范围在18 - 100岁为合理范围)
df = df[(df['Age'] >= 18) & (df['Age'] <= 100)]# 查看数据集行数和列数
rows, columns = df.shapeif rows < 100 and columns < 20:# 短表数据(行数少于100且列数少于20)查看全量数据信息print('数据全部内容信息:')print(df.to_csv(sep='\t', na_rep='nan'))
else:# 长表数据查看数据前几行信息print('数据前几行内容信息:')print(df.head().to_csv(sep='\t', na_rep='nan'))

3、可视化设置
# 3.1 设置图片清晰度
plt.rcParams['figure.dpi'] = 300
# 3.2 设置中文字体
plt.rcParams['font.sans-serif'] = ['WenQuanYi Zen Hei']
# 3.3 解决负号显示问题
plt.rcParams['axes.unicode_minus'] = False
4、顾客基础特征分析
4.1 顾客年龄分布和性别分布
import matplotlib.pyplot as plt
import seaborn as sns# 年龄分布
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(df['Age'], bins=20, kde=False)
plt.title('Age distribution')# 性别分布
plt.subplot(1, 2, 2)
gender_counts = df['Gender'].value_counts()
sns.barplot(x=gender_counts.index, y=gender_counts.values)
plt.title('Gender distribution')plt.tight_layout()
plt.show()print('顾客年龄分布:')
print(df['Age'].describe())
print('\n顾客性别分布:')
print(df['Gender'].value_counts())


4.1.1 年龄分布
4.2 顾客光顾频率与年龄、性别的关系
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x='VisitFrequency', y='Age', data=df)
plt.title('Frequency VS Age')
plt.xticks(rotation=45)plt.subplot(1, 2, 2)
sns.countplot(x='VisitFrequency', hue='Gender', data=df)
plt.title('Frequency VS Gender')
plt.xticks(rotation=45)plt.tight_layout()
plt.show()print('光顾频率与年龄的关系:')
print(df.groupby('VisitFrequency')['Age'].describe())
print('\n光顾频率与性别的关系:')
print(pd.crosstab(df['VisitFrequency'], df['Gender']))


4.2.1 光顾频率与年龄的关系
4.3 顾客对某快餐店各方面评价的分布
# 提取评价列
evaluation_columns = ['yummy', 'convenient', 'spicy', 'fattening', 'greasy', 'fast', 'cheap', 'tasty', 'expensive', 'healthy', 'disgusting']# 创建画布
plt.figure(figsize=(15, 10))# 绘制每个评价的分布柱状图
for i, column in enumerate(evaluation_columns):plt.subplot(3, 4, i + 1)value_counts = df[column].value_counts()sns.barplot(x=value_counts.index, y=value_counts.values)plt.title(f'{column} distribution')plt.tight_layout()
plt.show()# 查看每个评价的分布情况
for column in evaluation_columns:print(f'{column}评价分布:')print(df[column].value_counts())


4.4 顾客喜好与各评价之间的相关性
import re# 使用正则表达式提取 Like 列中的数字部分并转换为数值型
df['Like'] = df['Like'].apply(lambda x: int(re.findall(r'\d+', x)[0]))# 将评价列进行编码
for column in evaluation_columns:df[column] = df[column].map({'Yes': 1, 'No': 0})# 计算相关系数矩阵
correlation_matrix = df[evaluation_columns + ['Like']].corr()# 绘制热力图
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Customer preferences VS Reviews')
plt.show()print('顾客喜好与各评价之间的相关系数矩阵:')
print(correlation_matrix.round(2))


5、顾客口味偏好分析
import matplotlib.pyplot as plt# 统计口味相关特征的分布(选取 spicy, yummy, tasty, greasy 作为口味相关特征)
taste_features = ['spicy', 'yummy', 'tasty', 'greasy']
fig, axes = plt.subplots(2, 2, figsize=(12, 8))
axes = axes.ravel()for i, feature in enumerate(taste_features):value_counts = df[feature].value_counts()axes[i].pie(value_counts, labels=value_counts.index, autopct='%1.1f%%', startangle=90)axes[i].set_title(f'{feature} distribution')plt.tight_layout()
plt.show()# 查看具体比例
for feature in taste_features:print(df[feature].value_counts(normalize=True))

6、价格敏感性分析
# 统计认为便宜和昂贵的比例
cheap_counts = df['cheap'].value_counts(normalize=True)
expensive_counts = df['expensive'].value_counts(normalize=True)# 绘制柱状图
fig, axes = plt.subplots(1, 2, figsize=(10, 5))axes[0].bar(cheap_counts.index, cheap_counts)
axes[0].set_title('Thinking cheap')
axes[0].set_xlabel('cheap or not')
axes[0].set_ylabel('scale')axes[1].bar(expensive_counts.index, expensive_counts)
axes[1].set_title('Thinking expensive')
axes[1].set_xlabel('expensive or not')
axes[1].set_ylabel('scale')plt.tight_layout()
plt.show()print("认为便宜的比例:")
print(cheap_counts)
print("认为昂贵的比例:")
print(expensive_counts)

7、消费频率预测
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score# 对 object 类型数据进行编码
label_encoders = {}
for column in df.columns:if df[column].dtype == 'object':le = LabelEncoder()df[column] = le.fit_transform(df[column])label_encoders[column] = le# 准备特征和目标变量
X = df.drop(['VisitFrequency', 'Index'], axis=1)
y = df['VisitFrequency']# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report# 定义不同的模型
models = {'Logistic Regression': LogisticRegression(max_iter=1000),'Decision Tree': DecisionTreeClassifier(),'Random Forest': RandomForestClassifier(),'Support Vector Machine': SVC()
}# 训练和评估每个模型
for name, model in models.items():model.fit(X_train, y_train)y_pred = model.predict(X_test)accuracy = accuracy_score(y_test, y_pred)print(f'{name} 准确率: {accuracy:.4f}')print(f'{name} 分类报告:\n', classification_report(y_test, y_pred))print('-' * 50)

8、顾客画像分类
8.1 确定最佳簇数
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 尝试不同的簇数
silhouette_scores = []
for k in range(2, 11):kmeans = KMeans(n_clusters=k, random_state=42)kmeans.fit(X)labels = kmeans.labels_score = silhouette_score(X, labels)silhouette_scores.append((k, score))# 找到最高轮廓系数对应的簇数
best_k, _ = max(silhouette_scores, key=lambda x: x[1])
print(f'最佳簇数: {best_k}')

8.2 不同簇的特征分析
# 使用最佳簇数进行 KMeans 聚类
kmeans = KMeans(n_clusters=best_k, random_state=42)
df['Cluster'] = kmeans.fit_predict(X)# 分析不同簇的特征(以年龄和喜欢程度为例)
cluster_analysis = df.groupby('Cluster').agg({'Age': 'mean','Like': 'mean'
}).reset_index()print(cluster_analysis)

从年龄均值来看,簇 0 的顾客相对年轻,平均年龄约为 31 岁,而簇 1 的顾客平均年龄约为 56 岁,两者存在明显的年龄差异。在喜欢程度方面,两个簇的均值都比较高且较为接近,不过簇 1 的喜欢程度均值略高于簇 0,这可能暗示年龄较大的顾客对相关事物的喜欢程度稍高一些,但差异并不是非常显著。
8.3 不同簇的年龄和喜欢程度分布可视化
# 绘制不同簇的年龄和喜欢程度分布
plt.scatter(df['Age'], df['Like'], c=df['Cluster'])
plt.xlabel('Age')
plt.xticks(rotation=45)
plt.ylabel('Liking degree')
plt.title('Age VS liking of different clusters')
plt.show()

# 若需要完整数据集以及代码请点击以下链接
# https://mbd.pub/o/bread/mbd-aJaUlJpt
相关文章:
某快餐店用户市场数据挖掘与可视化
1、必要库的载入 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns2、加载并清洗数据 # 2.1 加载数据 df pd.read_csv(/home/mw/input/survey6263/mcdonalds.csv)# 2.2 数据清洗 # 2.2.1 检查缺失值 print(缺失值情况:) print(df.isn…...
[C++面试] 标准容器面试点
一、入门 1、vector和list的区别 [C面试] vector 面试点总结 vector 是动态数组,它将元素存储在连续的内存空间中。支持随机访问,即可以通过下标快速访问任意位置的元素,时间复杂度为 O(1),准确点是均摊O(1)。但在中间或开头插…...
单片机学完开发板,如何继续提升自己的技能?
很多人学完开发板后都会卡在一个尴尬的阶段:觉得自己会的东西不少,但又不知道下一步该干啥。会点C语言,能烧录程序,能点亮LED,玩转按键,搞定串口等等,能用开发板做点小玩意儿,但面对…...
luogu「EZEC-10」打分 --- Python3 解法
题目链接: 「EZEC-10」打分 import sysdef max_score(n, m, scores):scores.remove(min(scores)) # 最小值的选取,不影响中间部分的处理scores.sort()max_ scores[-1]sum_ sum(scores[:-1]) # 中间部分len_ len(scores)needed (len_ - 1) * max_ …...
MySQL事务介绍
一、一个典型的事务场景 步骤操作描述SQL 语句1开启事务,确保转账操作的原子性START TRANSACTION;2从用户 A 的账户中扣除 100 元UPDATE account SET balance balance - 100 WHERE user A;3向用户 B 的账户中添加 100 元UPDATE account SET balance balance 1…...
明基PD2700U显示器无法调节图像模式
现象:明基PD2700U显示器无法调节图像模式,如下图: 目前未找到根本原因,推测可能是下面的原因: 1、安装了远程桌面软件:向日葵、虚拟显示器 2、显卡插入了接口,但是没接显示器 解决办法…...
基于FPGA轨道交通6U机箱CPCI脉冲板板卡
板卡简介: 本板为脉冲板,脉冲板主要执行CPU下达的指令,通过实现各种控制算法来调节PWM,然后输出光纤PWM信号来驱动变频器功率模块以达到控制电机的目的。 性能规格: 电源:DC5V;15V FPGA&…...
SpringBoot-已添加并下载的依赖,reload和mvn clean 后还是提示找不到jar包问题
背景: 添加spring-jdbc依赖时,原来是指定版本的,担心版本冲突,就改成依赖托管,悲剧的是反复reload和mvn clean,import到类的该包一直标红,提示jar包找不到。。。 解决方案: Idea左上…...
如何通过 Airbyte 将数据摄取到 Elasticsearch
作者:来自 Elastic Andre Luiz Airbyte 是一个数据集成工具,可自动化并可扩展地将信息从各种来源传输到不同的目的地。它使你能够从 API、数据库和其他系统提取数据,并将其加载到 Elasticsearch 等平台,以实现高级搜索和高效分析。…...
配置 VSCode 的 C# 开发环境
1. 安装必要的依赖 1.1 VSCode 扩展 安装 C# 相关插件(如 C#、C# Extensions 等)。 1.2 .NET SDK 下载地址:.NET SDK 下载页面 1.3 安装检测 在命令行输入以下命令,如果正确返回了版本号,则表示 .NET SDK 安装成…...
如何用DeepSeek进行项目管理?AI重构项目全生命周期的实践指南
一、项目管理的核心工作范畴 现代项目管理包含六大核心模块,构成完整管理闭环: 1. 需求管理(20%工作量) 案例:某电商平台"双11"大促项目需整合23个部门的142项需求 关键动作:需求收集→优先级…...
Git 回退操作详解:带示例的“小白”指南
前言 在日常开发中,我们难免会遇到: 改错代码:推送之前才发现某些行根本就不该动提交错误:commit 信息打错、提交到错误分支想回到之前版本:测试时发现之前版本是好的,需要回去查看 这就需要用到 Git 的…...
vue3 引入element-plus组件后,发现输入的时候没有提示,而且鼠标移到el-button显示unknown的简单解决方法
1、element-plus官方地址 一个 Vue 3 UI 框架 | Element Plus 2、安装 安装 | Element Plus 3、安装插件unplugin-vue-components、unplugin-auto-import并配制 快速开始 | Element Plus 4、输入关键词没有提示及ElButton:unknown的处理 1)装个扩展插件…...
如何让焦虑为城市供能 | 杂谈
凌晨两点,我盯着满桌冷掉的碳烤磷虾烩面——这顿价值500星币的宵夜。当冒充食客的就餐员像幽灵般消失后,躁动的神经末梢突然刺破迷雾:那些令人窒息的负能量,是否能在量子层面转化为清洁动能? 这个疯狂假设打开了四维能…...
【Linux】浅谈环境变量和进程地址空间
一、环境变量 基本概念 环境变量(Environment Variables)是操作系统提供的一种机制,用于存储和传递配置信息、系统参数、用户偏好设置等。 环境变量的作用 配置程序行为: 程序可以通过环境变量获取配置信息,例如日…...
如何使用 DeepEval 优化 Elasticsearch 中的 RAG 检索
作者:来自 Elastic Kritin Vongthongsri 学习如何使用 DeepEval 优化 RAG 流水线中的 Elasticsearch 检索器。 LLMs 容易产生幻觉、缺乏特定领域的专业知识,并受限于上下文窗口。检索增强生成(Retrieval-Augmented Generation - RAGÿ…...
行为模式---状态模式
概念 状态模式是一种行为模式,用于在内部状态改变的时候改变其行为。它的核心思想就是允许一个对象在其内部状态改变的时候改变它的行为。状态模式通过将对象的状态封装成独立的类,并将其行为委托给当前的状态对象,从而使得对象行为随着状态…...
嵌入式裸机设计--MCU常用裸机架构有哪些?
为什么是裸机设计 792125321入群学习更高效! 在MCU(微控制器单元)裸机开发中,我们常见的架构设计主要围绕如何高效管理资源和任务调度。认识这些开发方式,对我们开发一个小型项目来说及有好处! 下面介绍…...
【LInux进程六】命令行参数和环境变量
【LInux进程六】命令行参数和环境变量 1.main函数的两个参数2.利用main函数实现一个简单的计算器3.环境变量之一:PATH4.修改PATH5.在命令行解释器bash中查看所有环境变量6.用自己写的程序查看环境变量7.main函数的第三个参数8.本地的环境变量和环境变量9.环境变量具…...
深度解析前端面试八股文:核心知识点与高效应对策略
深度解析前端面试八股文:核心知识点与高效应对策略 1. 引言 前端面试是每位开发者迈向职业进阶的重要环节,涉及 HTML、CSS、JavaScript、性能优化、浏览器原理、网络、安全、框架(Vue/React) 等核心知识点。本文不仅会覆盖 前端…...
激光slam学习笔记10---ubuntu2004部署运行fastlivo2踩坑记录
背景:mars实验室又发福利啦!跑跑效果,验了那句,mars出品,必属精品!本人pc环境ubuntu20.04,基本流程按照readme走就行,sophus和vikit安装有些注意地方。本文做了一些部署踩坑记录&…...
织梦DedeCMS优化文章模版里的“顶一下”与“踩一下”样式
测试的版本5.7.1UTF-8 一、插入<head>Js代码 将下面代码插入到文章模版里的<head>标签里 <script language"javascript" type"text/javascript" src"{dede:global.cfg_cmsurl/}/include/dedeajax2.js"></script> <…...
IDEA+Docker插件一键部署SpringBoot项目到远程服务器
文章目录 1. 服务端1.1 安装Docker1.2 Docker放开远程连接1.3 重启Docker1.4 开放端口1.4.1 云端1.4.2 服务器内部防火墙指令 2.IntelliJ IDEA2.1 安装IDEA2.2 安装Docker插件2.3 SSH Configurations2.4 Docker选择对应的SSH2.5 Dockerfile2.5.1 Dockerfile2.5.2 Dockerfile Ed…...
【SoC基础】单片机之RCC模块
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...
机器学习之梯度消失和梯度爆炸
文章目录 梯度消失1. 原理2. 影响3. 易出现情况4. 解决方法5. 编程实战案例 梯度爆炸1. 原理2. 影响3. 易出现情况4. 解决方法5. 编程实战案例 常用权重初始化方法及其影响1. 随机初始化2. Xavier初始化(Glorot初始化)3. Kaiming初始化(He初始…...
C++基础 [五] - String的模拟实现
目录 前言 string类的模拟实现 成员函数的实现 构造函数 拷贝构造函数 赋值运算符重载 析构函数 元素访问的实现 operator[ ] Iterator - 迭代器 容量大小的实现 size capacity reserve 编辑resize 内容修改的实现 push_back append operator(char ch) …...
LLVM学习-- 构建和安装
一 LLVM版本 二 适用预构建的二进制文件安装LLVM 三 适用包管理器安装LLVM 四 从源码构建用于Linux的LLVM 五 从源码构建用于Windows和Visual Studio的LLVM 六 从源码构建用于MacOS 和XCode的LLVM 1.1 LLVM项目从10年前第一次发布到版本3.4,其SVN存储库包含了超过20…...
python中使用单例模式在整个程序中只创建一个数据库连接,节省资源
示例代码: from loguru import logger from pymongo import MongoClient from pymongo.errors import ConnectionFailurefrom llm_engineering.settings import settingsclass MongoDatabaseConnector:_instance: MongoClient | None Nonedef __new__(cls, *args,…...
AIAgent有哪些不错的开源平台
AIAgent领域有许多优秀的开源平台和框架,以下是一些值得推荐的开源平台: AutoGPT AutoGPT 是一个基于 OpenAI 的 GPT-4 和 GPT-3.5 大型语言模型的开源框架,能够根据用户给定的目标自动生成所需提示,并利用多种工具 API 执行多步骤…...
Python刷题:流程控制(上)
今天刷的是PythonTip的Python 入门挑战中的题,整体难度不高,适合小白练手以及巩固知识点。下面会进行详细讲解。 每日一句 每一个拼命努力的人,都像是独自穿越黑暗森林的行者, 没有并肩的身影,唯有孤独如影随形&…...
