当前位置：首页 > news >正文

Python数据分析-电信客户流量预测与分析

news 2026/2/7 10:31:05

一、背景介绍

研究背景：在快速发展和高度竞争的电信行业中，客户流失已成为运营商面临的主要挑战之一。电信服务的普及和用户选择的多样性使得保持客户忠诚度变得越来越困难。在这种背景下，准确预测客户流失并采取相应措施，对于运营商保持市场竞争力至关重要。。。

二、研究意义

研究意义：提高客户留存率：通过预测和识别可能流失的客户，电信运营商可以采取针对性的措施来提高客户留存率，比如提供定制化服务或优惠。优化市场策略：深入分析用户行为和特征有助于运营商更好地理解市场需求，从而优化其产品和服务，提高市场竞争力。。。。

三、研究问题

在当前的市场环境下，电信运营商面临的一个主要问题是如何准确预测并有效减少客户流失（churn）。客户流失不仅直接影响运营商的收入，还可能引起品牌价值和市场份额的下降。。。。

四、实证分析

本文数据集的原始图如下：

数据和完整代码

报告代码数据

据集具体指标含义如下：

使用月数：某段时间用户使用服务月数；

流失用户：观测期内用户是否已经流失。1=是，0=否；

套餐金额：用户购买的月套餐金额，1为96元以下，2为96~225 元，3为225 元以上；

额外通话时长：实际通话时长减去套餐内通话时长的月均值（单位：min），这部分需要额外交费；

额外流量：实际流量减去套餐内流量的月均值（单位：ME)，这部分需要额外交费；

改变行为：是否曾经更改过套餐金额，1=是，0=否；

服务合约：是否与运营商签订过服务合约，1=是，0=否；

关联购买：用户在移动服务中是否同时办理其他业务（主要是固定电话和宽带业务），1=同时办理一项其他业务，2=同时办理两项其他业务，0=没有办理其他业务；

集团用户：办理的是否是集团业务，相比个人业务，集体办理的号码在集团内拨打有一定优惠。1=是，0=否。

首先导入基础的包：

随后读取数据，并展示数据前后5行：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号

查看数据集整体形状：

其中包括4975个用户，每个用户包括8个特征。

随后查看一下数据类型：

接下来进行描述性统计分析，使用describe()函数：

data.describe()

该函数会将数据集的总计数值、最大最小值、中位数、均值、分位数等等展示计算出来。每列的统计数据描述了该列数据的分布情况。例如，“ID”列显示的计数是4975，意味着数据集中有4975个观测值。。。。

接下来进行数据集的缺失值的可视化：

import missingno as msno
msno.matrix(data)

发现数据集很完整，并没有缺失值。

但是为了流程的完整性继续进行处理：

#若是有一行全为空值就删除
data.dropna(how='all',inplace=True)

#缺失到一定比例就删除
miss_ratio=0.3
for col in data.columns:if  data[col].isnull().sum()>data.shape[0]*miss_ratio:print(col)data.drop(col,axis=1,inplace=True)

。。。

填充缺失值：

缺失值有很多填充方式，可以用中位数，均值，众数。

也可以就采用那一行前面一个或者后面一个有效值去填充空的。

data.fillna(data.median(),inplace=True)   #mode,mean
data.fillna(method='ffill',inplace=True)   #pad,bfill/backfill

接下来进行特征工程，首先对训练集取出y。

#剩下的变量独热处理
data=pd.get_dummies(data)

我们还要画图查看每个X的分布，查看特征变量的箱线图分布。

dis_cols = 4                   #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows))for i in range(len(columns)):plt.subplot(dis_rows,dis_cols,i+1)sns.boxplot(data=data[columns[i]], orient="v",width=0.5)plt.xlabel(columns[i],fontsize = 20)
plt.tight_layout()
#plt.savefig('特征变量箱线图',formate='png',dpi=500)
plt.show()

然后还需要查看响应变量y的分布

plt.figure(figsize=(6,2),dpi=128)
plt.subplot(1,3,1)
y.plot.box(title='响应变量箱线图')
plt.subplot(1,3,2)
y.plot.hist(title='响应变量直方图')
plt.subplot(1,3,3)
y.plot.kde(title='响应变量核密度图')
#sns.kdeplot(y, color='Red', shade=True)
#plt.savefig('响应变量.png')
plt.tight_layout()
plt.show()

箱形图（左图）：显示了单个变量的五数概括（最小值、第一四分位数、中位数、第三四分位数和最大值）以及离群点。在这个箱形图中，可以看到一个明显的离群点。直方图（中图）：显示了数据的分布情况，这里几乎所有的数据都集中在一个单一的值上

然后对X异常值处理，先标准化：

scaler = StandardScaler()
X_s = scaler.fit_transform(data)

五、总结

在这个案例中，我们针对某电信运营商的用户手机号码的使用数据进行了分析和研究，旨在预测客户是否会在未来一段时间内流失。我们采用了三种机器学习模型，包括二项朴素贝叶斯模型、K最近邻（KNN）模型和自适应提升模型，并对它们的预测效果进行了比较。最终，我们发现自适应提升模型在预测客户流失方面表现最优。。。。。

Python数据分析-电信客户流量预测与分析

一、背景介绍

二、研究意义

三、研究问题

四、实证分析

五、总结

相关文章：

Python数据分析-电信客户流量预测与分析

动态人物抠图换背景 MediaPipe

Vue3 vite使用postcss-px-to-viewport（适配vant）

MCU复位时GPIO是什么状态？

领先GPT-4o：Anthropic 推出新一代模型 Claude 3.5 Sonnet｜TodayAI

使用AES，前端加密，后端解密，spring工具类了

通过Spring-Data-Redis操作Redis

自动驾驶ADAS

Python+Pytest+Allure+Yaml接口自动化测试框架详解

python turtle 001画两只小狗

『亚马逊云科技产品测评』程序员最值得拥有的第一台专属服务器 “亚马逊EC2实例“

python 趣味习题_递归函数（炸弹迷宫路径计算）

免费翻译API及使用指南——百度、腾讯

深度测试中的隐藏面消除技术

oracle merge的使用

《数字图像处理》实验报告四

算法04 模拟算法之一维数组相关内容详解【C++实现】

【技术解码】百数SRM：如何助力企业快速优化供应链管理？

想要用tween实现相机的移动，three.js渲染的canvas画布上相机位置一点没动，如何解决？？

SQL连接与筛选：解析left join on和where的区别及典型案例分析

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成

Kafka入门-生产者

JavaScript 数据类型详解

Kubernetes 网络模型深度解析：Pod IP 与 Service 的负载均衡机制，Service到底是什么？

【FTP】ftp文件传输会丢包吗？批量几百个文件传输，有一些文件没有传输完整，如何解决？

初探用uniapp写微信小程序遇到的问题及解决(vue3+ts)

虚拟机网络不通的问题（这里以win10的问题为主，模式NAT）

TI德州仪器TPS3103K33DBVR低功耗电压监控器IC电源管理芯片详细解析

板凳-------Mysql cookbook学习（十--2）

Python网页自动化测试，DrissonPage库入门说明文档