当前位置：首页 > news >正文

08- 汽车产品聚类分析综合项目 (机器学习聚类算法) (项目八)

news 2026/5/12 7:31:26

找出性价比较高的车
LabelEncoder: python:sklearn标签编码(LabelEncoder) sklearn.preprocessing.LabelEncoder的使用：在训练模型之前，通常都要对数据进行一定得处理。将类别编号是一种常用的处理方法，比如把类别“电脑”，“手机”编号为0和1，可使用LabelEncoder函数。
- 作用: 将n个类别编码为0~n-1之间的整数(包括0和n-1)
找出聚类种类最佳参数

sse =[]
ss = []
for k in range(2,11):kmeans = KMeans(n_clusters= k)kmeans.fit(train_x)sse.append(kmeans.inertia_)ss.append(silhouette_score(train_x,kmeans.predict(train_x)))

kmean 聚类算法模型

kmeans = KMeans(n_clusters=8)
kmeans.fit(train_x)
predict_y = kmeans.predict(train_x)   # 预测

汽车产品聚类分析综合项目实战

现在人们购车成为稀松平常，你的第一辆车是什么品牌，你打算什么时候更换车辆？汽车品牌多如牛毛，使用数据分析相关知识点，使用机器学习中的聚类算法，进行建模，从而对根据汽车相关属性对汽车进行类别划分，帮你选好车！熟悉算法建模业务流程，掌握机器学习建模的思想和基本操作。

数据加载
数值编码化
归一化操作
Kmeans算法参数筛选
分层聚类使用
DBSCAN算法使用
对比不同算法效果

1 导入模块

# 使用 KMeans 进行聚类，导入库
from sklearn.cluster import KMeans  # 聚类算法
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
# 预处理
from sklearn import preprocessing   # 归一化
from sklearn.preprocessing import LabelEncoder  # 标签编码
import pandas as pd
# 矩阵运算
import numpy as np

2 数据加载

data = pd.read_csv('./car_price.csv')
data.shape     # (205, 26)

3 去除无效数据

train_X = data.drop(['car_ID','CarName'],axis = 1)
train_X.shape    # 205, 24

4 特征工程（将属性转换为数值）

# 将非数值特征转换为数值
le = LabelEncoder()
colums = ['fueltype','aspiration','doornumber','carbody','drivewheel','enginelocation','enginetype','cylindernumber','fuelsystem']
for column in colums:# 训练并将标签转换为归一化的代码train_X[column] = le.fit_transform(train_X[column])
train_X

5 归一化

# 规范化到[0,1] 空间
min_max_scaler = preprocessing.MinMaxScaler()
# MinMaxscaler( )将每个要素缩放到给定范围，怡合数据，然后进行转换
train_x = min_max_scaler.fit_transform(train_X)
train_x

6 聚类参数选择

6.1 显示所有系统字体

# 查找自己电脑的字体，从中选择
# 本电脑上，选择的STKaiti
from matplotlib.font_manager import FontManager
fm = FontManager()
[font.name for font in fm.ttflist]

6.2 字体设置

plt.rcParams['font.family'] = 'STKaiti'
plt.rcParams['font.size'] = 20

6.3 SSE(簇惯性)

sse =[]
ss = []
for k in range(2,11):kmeans = KMeans(n_clusters= k)kmeans.fit(train_x)sse.append(kmeans.inertia_)ss.append(silhouette_score(train_x,kmeans.predict(train_x)))plt.figure(figsize=(16,6))
x = range(2,11)
plt.subplot(1,2,1)
plt.plot(x,sse,'o-')
plt.xlabel('K')
plt.ylabel('SSE簇惯性')plt.subplot(1,2,2)
plt.plot(x,ss,'r*-')
plt.xlabel('K')
plt.ylabel('轮廓系数')
plt.savefig('./1-聚类簇数.png',dpi = 200)

6.4 聚类运算

kmeans = KMeans(n_clusters=8)
kmeans.fit(train_x)# 预测
predict_y = kmeans.predict(train_x)
predict_y

7 结果分析

7.1 结果合并

result = pd.concat((data,pd.DataFrame(predict_y)),axis =1)result.rename({0:u'聚类结果'},axis = 1,inplace = True)
result

# 分组运算
g1 = result.groupby(by = ['聚类结果','carbody'])[['price']].mean()
g1

g2 = g1.unstack()   # 数据重塑
g2

g2.sort_values(by= ('price','sedan'))

7.2 低端轿车聚类结果

# 查看，类别是1的标准三厢车（具体根据分组运算结果确定）
cond = result.apply(lambda x : x['聚类结果'] == 4 and 'sedan' in x['carbody'] ,axis = 1)
columns = ['CarName','wheelbase','price','horsepower','carbody','fueltype','聚类结果']
# 价格降序排名
result[cond][columns].sort_values('price',ascending= False)

7.3 高端轿车聚类结果

# 根据条件（售价）筛选高端轿车（三厢车）
cond = result.apply(lambda x : x['聚类结果'] == 7 and 'sedan' in x['carbody'], axis =1)
columns = ['CarName','wheelbase','price','horsepower','carbody','fueltype','聚类结果']
# 价格降序排名
result[cond][columns].sort_values('price',ascending= False)

7.4 中端 SUV聚类结果

cond = result.apply(lambda x : x['聚类结果'] == 2 and 'wagon' in x['carbody'], axis =1)
columns = ['CarName','wheelbase','price','horsepower','carbody','fueltype','聚类结果']
# 价格降序排名
result[cond][columns].sort_values('price',ascending= False)

08- 汽车产品聚类分析综合项目 (机器学习聚类算法) (项目八)

找出性价比较高的车 LabelEncoder: python:sklearn标签编码(LabelEncoder) sklearn.preprocessing.LabelEncoder的使用：在训练模型之前，通常都要对数据进行一定得处理。将类别编号是一种常用的处理方法，比如把类别“电脑”，“手机…...

编程日记 2023/2/17 22:21:52

揭开苹果供应链，如何将其命运与中国深度捆绑

前言诺基亚在2007年时拥有9亿用户，在手机市场上占据主导地位，福布斯在当时以“谁能赶上手机之王？”为标题刊登了一篇关于该公司的报道，与此同时，苹果公司推出了iPhone系列产品。16年后，苹果公司以充足的…...

编程日记 2023/2/17 22:20:45

一.例子 Order.javapublic class Order {private Long id;private String serial; }orderMapper.xml<?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE mapper PUBLIC "-//mybatis.org/DTD Mapper 3.0" "http://mybatis.org/dtd…...

编程日记 2023/2/17 22:19:37

数据结构---时间复杂度

专栏：数据结构个人主页：HaiFan. 专栏简介：开学数据结构，接下来会慢慢坑新数据结构的内容！！！！ 时间复杂度前言1.算法效率1.1如何衡量一个算法的好坏1.2算法的复杂度2.时间复杂度2.1大…...

编程日记 2023/2/17 22:18:31

如何保证集合是线程安全的 ConcurrentHashMap如何实现高效地线程安全？

第10讲 | 如何保证集合是线程安全的? ConcurrentHashMap如何实现高效地线程安全？ 我在之前两讲介绍了 Java 集合框架的典型容器类，它们绝大部分都不是线程安全的，仅有的线程安全实现，比如 Vector、Stack，在性能方面也…...

编程日记 2023/2/17 22:17:26

C++对象模型和this指针

成员变量和成员函数分开存储：基本概念：在C中，类内的成员变量和成员函数分开存储只有非静态成员变量才属于类的对象上每个空对象都会有一个独一无二的内存地址，所以，空对象占用内存空间的大小为1代码实现：#i…...

编程日记 2023/2/17 22:16:19

kubernetes教程 --Pod调度

Pod调度在默认情况下，一个Pod在哪个Node节点上运行，是由Scheduler组件采用相应的算法计算出来的，这个过程是不受人工控制的。但是在实际使用中，这并不满足的需求，因为很多情况下，我们想控制某些Pod到达某…...

编程日记 2023/2/17 22:15:13

功率放大器科普知识（晶体管功率放大器的注意事项）

虽然功率放大器是电子实验室的常用仪器，但是很多人对于它却没有清晰的认识，下面就让安泰电子来为大家介绍功率放大器的科普内容以及使用注意事项，希望大家可以对功率放大器有清晰的认识。功率放大器可以把输入信号的功率放大，以满…...

编程日记 2023/2/17 22:14:06

CentOS 7转化系统为阿里龙蜥Anolis OS 7

转载：原社区CentOS 7迁移Anolis OS 7迁移手册一、注意事项 Anolis OS 7生态上和依赖管理上保持跟CentOS7.x兼容，一键式迁移脚本centos2anolis.py，实现CentOS7.x到Anolis OS 7的平滑迁移。使用迁移脚本前需要注意如下事项： 迁…...

编程日记 2023/2/17 22:12:58

【快速复习】一文看懂 Mysql 核心存储隔离级别锁 MVCC 机制

一文看懂 Mysql 核心存储 & 隔离级别 & 锁 & MVCC 机制 Mysql InnoDB 引擎下核心存储数据&索引存储 IBD 文件 mysql 实际存储采用 B 树结构。 B 树是一种多路搜索树，其搜索性能高于 B 树所有叶节点在同一深度，保证搜索效率仅叶节…...

编程日记 2023/2/17 22:11:52

面试题----集合

概述从上图可以看出，在Java 中除了以 Map 结尾的类之外， 其他类都实现了 Collection 接⼝。并且，以 Map 结尾的类都实现了 Map 接⼝List,Set,Map List (对付顺序的好帮⼿)： 存储的元素是有序的、可重复的。 Set (注重独⼀⽆⼆…...

编程日记 2023/2/17 22:10:48

XSS注入基础入门篇

XSS注入基础入门篇1.XSS基础概念2. XSS的分类以及示例2.1 反射型XSS2.1.1 示例1：dvwa low 级别的反射型XSS2.1.2 攻击流程2.2 DOM型XSS2.2.1 示例2：DOM型XSS注入1.环境部署2.基础版本3.进阶绕过2.3 存储型XSS2.3.1 示例1：dvwa low示例2.3.2 攻…...

编程日记 2023/2/17 22:09:41

刷题 - 数据结构（二）链表

1. 链表 1.1 题目：合并两个有序链表链表的建立与插入：关键在于留出头部，创建迭代指针。 ListNode* head new ListNode; // 通过new 创建了一个数据类型为ListNode的数据并把该数据的地址赋值给ListNodeListNode* p 0; // 再创建一个数据…...

编程日记 2023/2/17 22:08:34

用于隔离PWM的光耦合器选择和使用

光耦合器（或光隔离器）是一种将电路电隔离的器件，不仅在隔离方面非常出色，而且允许您连接到具有不同接地层或在不同电压电平下工作的电路。光耦合器具有“故障安全”功能，因为如果受到高于最大额定值的电压，…...

编程日记 2023/2/17 22:07:25

面试完阿里，字节，腾讯的测试岗，复盘以及面试总结

前段时间由于某些原因辞职了，最近一直在面试。面试这段时间，经历过不同业务类型的公司（电商、酒店出行、金融、新能源、银行），也遇到了很多不同类型的面试官。参加完三家大厂的面试聊聊我对面试的一些看法&#xff0…...

编程日记 2023/2/17 22:06:18

分享一个外贸客户案例

春节期间一个外贸人收到了客户的回复，但因为自己的处理方式造成了一个又一个问题，我们可以从中学到一些技巧和知识。“上次意大利的客人询价后，一直没回复（中间有打过电话，对方说口语不行，我写过邮件跟进过…...

编程日记 2023/2/17 22:05:12

【Kubernetes】第二篇 - 购买阿里云 ECS 实例

一，前言上一篇，简单介绍了 CI/CD 的概念以及 ECS 服务规划，搭建整套服务需要三台服务器，配置如下： ECS 配置启动服务说明2核4GJenkins Nexus Dockerci-server2核4GDocker Kubernetesk8s-master1核1GDocker Kube…...

编程日记 2023/2/17 22:04:06

数影周报：据传国内45亿条快递数据泄露,聆心智能完成Pre-A轮融资

本周看点：据传国内45亿条快递数据泄露；消息称微软解雇150 名云服务销售；消息称TikTok计划在欧洲再开两个数据中心；衣服长时间放购物车被淘宝客服嘲讽；聆心智能完成Pre-A轮融资......数据安全那些事据传国内45亿条快递数…...

编程日记 2023/2/17 22:03:01

Leetcode力扣秋招刷题路-0073

从0开始的秋招刷题路，记录下所刷每道题的题解，帮助自己回顾总结 73. 矩阵置零给定一个 m x n 的矩阵，如果一个元素为 0 ，则将其所在行和列的所有元素都设为 0 。请使用原地算法。示例 1： 输入：mat…...

编程日记 2023/2/17 22:01:54

遥感数字图像处理

遥感数字图像处理来源：慕课北京师范大学朱文泉老师的课程遥感应用：遥感制图、信息提取短期内了解知识结构–>有选择的剖析经典算法原理–>系统化知识结构、并尝试实践应用跳出算法（尤其是数学公式） 关注原理及解决问…...

编程日记 2023/2/17 22:00:47

EdgeRemover：Windows系统终极Edge浏览器管理完全指南

EdgeRemover：Windows系统终极Edge浏览器管理完全指南【免费下载链接】EdgeRemover A PowerShell script that correctly uninstalls or reinstalls Microsoft Edge on Windows 10 & 11. 项目地址: https://gitcode.com/gh_mirrors/ed/EdgeRemover 你是否…...

编程新知 2026/5/12 4:55:41

AI设计风格Prompt实战指南：从32种风格词典到精准生成

1. 项目概述：一份给AI设计师的“风格词典”如果你和我一样，经常用 Claude、Cursor 或者 v0 这类 AI 工具来生成网页界面，那你肯定遇到过这个头疼的问题：脑子里想的是“赛博朋克”或者“瑞士风格”，但打出来的 prompt 却…...

编程新知 2026/5/12 4:16:52

Windows Cleaner：彻底告别C盘爆红的免费开源解决方案

Windows Cleaner：彻底告别C盘爆红的免费开源解决方案【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 面对Windows系统使用过程中C盘空间不断告急的困扰…...

编程新知 2026/5/12 3:43:39

从零到一：用MMDetection在Ubuntu 20.04上搭建Faster R-CNN模型（含完整配置与避坑指南）

从零到一：Ubuntu 20.04下MMDetection与Faster R-CNN实战全解析当目标检测技术遇上PyTorch生态，MMDetection框架正在成为工业界和学术界的新宠。本文将带您完成从裸机到完整训练Faster R-CNN模型的实战旅程，特别针对Ubuntu 20.04系统和NVIDIA…...

编程新知 2026/5/12 3:01:24

uni-number-box深度解析：从基础属性到高级双向绑定实战

1. uni-number-box基础入门：从零开始玩转数字输入框第一次接触uni-number-box时，我也觉得这不就是个简单的数字加减控件吗？直到在电商项目中真正用起来，才发现这个看似简单的组件藏着不少门道。uni-number-box是uni-app框架提供的…...

编程新知 2026/5/12 1:04:45

用Godot 4.0复刻街霸3D名场面：从Blender绑定到动画状态机的完整实战

用Godot 4.0复刻街霸3D名场面：从Blender绑定到动画状态机的完整实战街机厅里那些经典格斗游戏的3D重制总能勾起玩家的情怀，而今天我们将用Godot 4.0完整复刻《街霸》中隆的招牌必杀技——从Blender的骨骼绑定到Godot动画状态机的全流程实现。这不是简单…...

编程新知 2026/5/12 0:59:56

告别混乱：手把手教你用Python脚本整理ILSVRC2012验证集（附valprep.sh解析）

告别混乱：用Python脚本高效整理ILSVRC2012验证集当你第一次打开ILSVRC2012验证集文件夹时，50000张图片杂乱堆放的场景可能让人头皮发麻——没有分类子目录，只有一堆以"ILSVRC2012_val_00000001.JPEG"命名的文件。这种原始结构与训…...

编程新知 2026/5/11 23:26:03

别再花钱买服务器了！手把手教你用Sakura Frp免费搞定内网穿透（Windows保姆级教程）

零成本实现内网穿透：Windows平台实战指南在个人开发和小型项目测试阶段，许多开发者都面临一个共同难题——如何将本地服务暴露到公网供临时访问？传统解决方案往往需要租用云服务器，不仅成本高昂，配置过程也相当复杂。…...

编程新知 2026/5/11 23:06:33

Sora 2训练Pipeline为何突然兼容Gaussian Splatting？：逆向解析OpenAI最新隐式-显式混合表征专利（US20240177892A1）

更多请点击： https://intelliparadigm.com 第一章：Sora 2 Gaussian Splatting 技术融合背景 Sora 2 作为 OpenAI 推出的下一代视频生成模型，已深度集成高斯点绘（Gaussian Splatting）技术以提升动态场景的几何保真度…...

编程新知 2026/5/11 20:14:21

【机器学习】Stacking模型融合：从原理到实战的进阶指南

1. 为什么需要Stacking模型融合？ 当你用单一模型处理复杂数据时，经常会遇到这样的困境：线性回归对非线性关系束手无策，决策树容易过拟合，神经网络需要大量调参。我在去年参加Kaggle房价预测比赛时就深有体会——当时用…...

编程新知 2026/5/11 19:49:06