【全部更新完毕】2024全国大学生数据统计与分析竞赛B题思路代码文章教学数学建模-电信银行卡诈骗的数据分析
电信银行卡诈骗的数据分析
摘要
电信银行卡诈骗是当前社会中严重的犯罪问题,分析电信银行卡交易数据,找出高风险交易特征,建立预测模型,将有助于公安部门和金融机构更好地防范诈骗行为,保障用户的财产安全。
针对问题一,为了解电信银行卡交易数据中的诈骗情况,我们进行了详细的数据分析。首先,通过统计交易数据中发生诈骗和未发生诈骗的次数,绘制了比统计并绘制了线上和线下诈骗数量的柱状图,明确了两者的对比情况。这些分析结果不仅揭示了电信银行卡诈骗的基本例的扇形图,直观展示了诈骗的普遍程度。其次,筛选出发生诈骗的交易记录情况,还为进一步研究和制定防范措施提供了数据支持。
在问题二中,通过对电信银行卡交易数据的详细分析,我们比较了使用银行卡在设备上进行转账交易与使用银行卡pin号码进行转账交易两种情况下的诈骗率。结果显示,使用银行卡在设备上进行转账交易的诈骗率是否高于未使用情况下的诈骗率可以揭示这种交易方式的风险程度。此外,使用pin号码的情况下,若诈骗率低于未使用情况,则说明使用pin号码有助于减少被骗概率。
在问题三中,通过对电信银行卡交易数据的详细分析,我们发现“是否是线上的银行卡转账交易”和“银行卡转账交易是否发生在同一银行”与电信诈骗存在显著关联。相关性矩阵显示,这些指标与诈骗发生有较强的相关性,提示线上交易和同一银行交易在诈骗行为中具有重要影响。卡方检验结果进一步确认了这些关联,为防范电信诈骗提供了重要依据。
在问题四中,通过对电信银行卡交易数据的详细分析,我们选择了包括交易距离、金额比值、是否在同一银行、是否使用设备和pin号码进行交易、是否线上交易等特征,使用逻辑回归模型建立了电信诈骗预测模型。经过数据标准化和训练后,模型在测试集上的预测准确率较高达到96%。分析结果表明,线上交易是电信诈骗的重要影响因素。
关键词:相关性分析、电信诈骗、逻辑回归模型、卡方检验、相关性矩阵
目录
摘要
一、问题重述
1.1问题背景
1.2要解决的问题
二、问题分析
2.1任务一的分析
2.2任务二的分析
2.3任务三的分析
三、问题假设
四、模型原理
4.1ARIMA模型
4.2 xgboost模型
4.3 DBSCAN模型
4.4自行替换kmeans/简单指数平滑等的模型介绍
五、模型建立与求解
5.1问题一建模与求解
5.2问题二建模与求解
5.3问题三建模与求解
六、模型评价与推广
6.1模型的评价
6.1.1模型缺点
6.1.2模型缺点
6.2模型推广
七、参考文献
附录【自行删减】
5.1 问题一建模与求解
问题一主要包含两个任务,一是绘制“有无发生电信银行卡诈骗”比例的扇形图;二是绘制发生电信银行卡诈骗的案例中,“线上”和“线下”发生电信诈骗数量的柱状图.对于任务一,首先需要进行数据的统计分析,包含如下几个步骤:
1.读取数据:从提供的CSV文件中读取电信银行卡交易数据,包含诈骗与否的标识。
2.计算比例:通过统计每种情况(发生诈骗和未发生诈骗)的次数,计算其比例。
3.绘制图表:使用扇形图(饼图)展示比例分布,直观呈现数据集中诈骗和非诈骗交易的比例。
首先使用pandas 库读取数据文件,确保数据格式正确且无缺失值。获取到的部分数据如上所示,由于后面的问题都需要使用到该数据文件,之后内容中的读取部分不在重复说明。
根据读取到的数据,我们对Fraud 列进行 value_counts() 统计,得到发生诈骗和未发生诈骗的次数。随后进一步计算比例:通过统计的次数,计算每种情况的比例,分别表示为“未发生诈骗”和“发生诈骗”。在得到了比例之后,可以进一步绘制扇形图:使用 matplotlib 库的 pie 函数,绘制扇形图,标注每部分的百分比及标签。结果展示如下。



本文所建立模型具有以下优点 :
1.模型的整体表现较为优秀,准确率高达96%,意味着在大多数情况下能够正确判断交易是否为诈骗。具体到类别性能,模型在非诈骗类交易的识别上表现尤为突出,精确率为0.96,召回率为0.99,F1-score为0.98,显示了模型在辨识正常交易方面的高效性和可靠性。
6.1.2模型缺点
本文所建立模型仍有以下不足:
1.需要大量的数据支持,并且对数据的质量有较高要求。噪声和数据缺失可能会影响周期的准确识别。
2.尽管诈骗类的精确率相对较高(0.89),但召回率只有0.60,导致F1-score为0.72。这表明虽然模型能够准确识别出部分诈骗交易,但还有相当比例的诈骗交易未能被检测出来,存在较多的假负类错误(实际为诈骗但预测为非诈骗)。
6.1模型推广
数据增强和特征工程:通过增加训练数据的多样性或引入更多相关特征来增强模型的学习能力和泛化能力。特别是对诈骗类交易的数据进行增强,以改善模型在该类别上的表现。
1.高级模型探索:考虑使用更复杂的机器学习算法如随机森林、梯度提升机(GBM)或深度学习模型,这些模型可能在处理复杂模式和大数据集时表现更好。
2.模型集成方法:通过集成多个模型来提高预测准确性和稳定性,尤其是在处理不平衡数据时,集成学习能有效提高少数类的识别率。
3.持续监控和模型更新:定期评估模型的表现,并根据最新的交易数据和诈骗手段更新模型,确保模型的实时性和准确性。指数平滑模型可以广泛应用于零售、制造业和供应链管理中的需求预测。它特别适合于需求数据具有明显趋势或季节性模式的场合。为了提高模型的适应性和鲁棒性,建议结合异常值检测和修正方法,并定期更新模型参数以适应需求模式的变化。
通过这些策略,不仅可以提升模型在现有数据集上的表现,还能增强其对新型诈骗手段的适应能力和响应速度,从而在实际应用中更有效地帮助银行和监管机构预防和打击电信银行卡诈骗行为。
### 2024全国大学生数据统计与分析
### https://docs.qq.com/doc/DVW5uSVBxbU5aQnla相关文章:
【全部更新完毕】2024全国大学生数据统计与分析竞赛B题思路代码文章教学数学建模-电信银行卡诈骗的数据分析
电信银行卡诈骗的数据分析 摘要 电信银行卡诈骗是当前社会中严重的犯罪问题,分析电信银行卡交易数据,找出高风险交易特征,建立预测模型,将有助于公安部门和金融机构更好地防范诈骗行为,保障用户的财产安全。 针对问…...
【应用浅谈】Odoo的库存计价与产品成本(三)
序言:时间是我们最宝贵的财富,珍惜手上的每个时分 Odoo的库存(Stock)模块拥有众多功能,其中库存计价是一项非常重要的功能,原生的成本方法分三种:【标准成本】,【平均成本】,【先进先出】&#…...
数据结构之ArrayList与顺序表(下)
找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:数据结构(Java版) 目录 ArrayList的具体使用 118. 杨辉三角 扑克洗牌算法 接上篇:数据结构之ArrayLis…...
openi启智社区 aarch64 npu环境安装飞桨paddlepaddle和PaddleNLP(失败)
以前在启智社区都是编译安装飞桨,这回看到飞桨提供了npu安装包,兴冲冲的以为安装很简单。 之所以安装飞桨,是因为想在启智社区的启智大脑调试环境使用最新的PaddleNLP,结果报错:No module named paddle.nn.layer.laye…...
【漏洞复现】多客圈子论坛系统 httpGet 任意文件读取漏洞
0x01 产品简介 多客圈子论坛系统是一种面向特定人群或特定话题的社交网络,它提供了用户之间交流、分享、讨论的平台。在这个系统中,用户可以创建、加入不同的圈子,圈子可以是基于兴趣、地域、职业等不同主题的。用户可以在圈子中发帖、评论、…...
46-1 护网溯源 - 钓鱼邮件溯源
一、客户提供钓鱼邮件样本 二、行为分析 三、样本分析 对钓鱼邮件中的木马程序1111.exe文件进行了分析,提交了360安全大脑沙箱云和微步在线云沙箱。 360安全大脑沙箱云显示,该1111.exe文件存在危险,因此在解压时需要谨慎操作,以免触发木马程序。 建议使用360压缩软件进行…...
鸿蒙低代码开发一个高频问题
在版本是DevEco Studio 3.1.1 Release,SDK是3.1.0(API9)。 创建和设计的visual文件经常会遇到无法渲染的情况,或者自定义组件在Custom列表中突然不见了的情况。 有以下报错信息的: JSON schema validation error: data/visualModel/value/…...
关于使用南墙waf防护halo网站主页请求404报错的解决方案
文章目录 环境说明问题展示原因探究解决方法 环境说明 在1panel应用商店,部署南墙waf(docker版)halo(2.16.1社区版)注意部署过程中注意uuwaf必须勾选允许外部访问,halo可以不勾选[这里为了证明确实是南墙waf的原因,选择勾选] 问题展示 使…...
Elasticsearch 认证模拟题 - 13
一、题目 集群中有索引 task3,用 oa、OA、Oa、oA 查询结构是 4 条,使用 dingding 的查询结果是 1 条。通过 reindex 索引 task3 为 task3_new,能够使 task3_new 满足以下查询条件。 使用 oa、OA、Oa、oA、0A、dingding 查询都能够返回 6 条…...
Day25 首页待办事项及备忘录添加功能
本章节,完成首页待办事项及备忘录添加功能 一.修改待办事项和备忘录逻辑处理类,即AddMemoViewModel和AddTodoViewModel 在 AddMemoViewModel逻辑处理类中,为了支持与其关联的View视图文件的数据绑定,需要定义一个与视图文件相匹配的实体类 Model。这个Model将包含 View中…...
SpringBoot——全局异常处理
目录 异常 项目总结 新建一个SpringBoot项目 pom.xml Result(通用的响应结果类) MyBusinessException自定义异常类 GlobalExceptionHandler全局异常处理类 ExceptionController控制器 SpringbootExceptionApplication启动类 参考文章:…...
SpringBoot+Vue教师工作量管理系统(前后端分离)
技术栈 JavaSpringBootMavenMySQLMyBatisVueShiroElement-UI 角色对应功能 教师管理员 功能截图...
华为OD技术面试-最长回文串-2024手撕代码真题
题目:最长回文串 给定一个包含大写字母和小写字母的字符串 s ,返回 通过这些字母构造成的 最长的 回文串 的长度。 在构造过程中,请注意 区分大小写 。比如 "Aa" 不能当做一个回文字符串。 示例 1: 输入:s = "abccccdd" 输出:7 解释: 我们可以构造的最…...
Python实现连连看8
4 游戏开始 连连看游戏实际上主要完成的是对玩家鼠标点击事件的处理,也就是对鼠标点击事件的响应。 4.1 添加鼠标点击事件响应 在“1.3.4 在窗口上铺设画布”中提到的将画布pack()到窗口代码之前,写入如下代码,其功能是为鼠标点击事件添加响应。 canvas.bind(<Button…...
[Cloud Networking] Layer Protocol (continue)
文章目录 1. STP / RSTP / MSTP Protocol1.1 STP的作用1.2 STP 生成树算法的三个步骤1.3 STP缺点 2. ARP Protocol3. DHCP Protocol3.1 DHCP 三种分配方式3.2 DHCP 攻击 4. IPSEC / MACSEC 1. STP / RSTP / MSTP Protocol 1.1 STP的作用 消除二层环路:通过阻断冗余…...
人工智能在交通与物流领域的普及及应用
文章目录 🐋引言 🐋自动驾驶 🦈自动驾驶汽车 🐡应用现状 🐡技术实现 🐡实现过程及代码 🐋智能交通管理 🦈应用现状 🦈技术实现 🦈实现过程及代码 &…...
JVM学习-详解类加载器(二)
双亲委派机制 双亲委派优势 避免类的重复加载,确保一个类的全局唯一性 Java类随着它的类加载器一起具备了一种带有优先级的层次关系,通过这种层次关系可以避免类的重复加载,当父类已经加载了该类,就没有必要子ClassLoader再加载…...
数字校园的优势有哪些
数字化时代下,数字校园已成为教育领域一股显著趋势。数字校园旨在借助信息技术工具对传统校园进行改造,提供全新的教学、管理和服务方式。那么,数字校园究竟具备何种优势?现从三个方面为您详细介绍。 首先,数字校园为教…...
DexCap——斯坦福李飞飞团队泡茶机器人:更好数据收集系统的原理解析、源码剖析
前言 2023年7月,我司组建大模型项目开发团队,从最开始的论文审稿,演变成目前的两大赋能方向 大模型应用方面,以微调和RAG为代表 除了论文审稿微调之外,目前我司内部正在逐一开发论文翻译、论文对话、论文idea提炼、论…...
【Mtk Camera开发学习】01 MTK 平台Camera BringUp
本专栏内容针对 “知识星球”成员免费,欢迎关注公众号:小驰行动派,加入知识星球。 #MTK Camera开发学习系列 #小驰私房菜 这篇文章主要介绍MTK 平台,Camera BringUp会涉及到修改的模块。 MTK不同的平台系列,具体修改…...
从零到一:手把手教你搭建专属DNF私服服务器
1. 准备工作:搭建DNF私服需要哪些东西 第一次接触DNF私服搭建的朋友可能会觉得这是个技术活,其实只要跟着步骤来,完全可以在2小时内搞定。我自己搭建过不下10个版本的DNF私服,从60怀旧版到最新的110级版本都玩过。先说说需要准备的…...
深入解析cosyvoice接口:从技术原理到高效集成实践
在智能语音交互领域,cosyvoice接口正扮演着越来越重要的角色。它让智能客服能够进行更自然流畅的多轮对话,为在线教育平台提供了实时语音评测与反馈的能力,同时也让各类智能硬件实现了精准的远场语音唤醒和指令识别。这些场景都离不开一个稳定…...
32位 Windows App Service 最大能使用多少内存?
不同托管模式下可用内存如何计算?本文将针对这些问题进行详细解答。问题解答一、32 位程序最大能使用多少内存?理论上限约为 4GB32 位程序的内存地址由 32 个二进制位组成,因此理论上可以有 2 4,294,967,296 种不同的内存地址。每个内存地址…...
WVP-GB28181-Pro:构建统一视频监控平台的技术指南
WVP-GB28181-Pro:构建统一视频监控平台的技术指南 【免费下载链接】wvp-GB28181-pro 项目地址: https://gitcode.com/GitHub_Trending/wv/wvp-GB28181-pro 在安防监控领域,企业和机构常常面临多品牌设备协议不兼容、系统扩展困难、运维成本高昂等…...
大鼠抗小鼠CD193抗体如何揭示CCL24-CCR3轴在心肌纤维化中的作用?
一、心脏巨噬细胞如何参与心肌纤维化进程?心肌纤维化是多种心脏疾病进展至心力衰竭的关键病理环节,其特征是心脏成纤维细胞过度活化并分泌大量细胞外基质蛋白,导致心肌僵硬与功能障碍。心脏组织中存在大量常驻巨噬细胞,它们在维持…...
TI-92 Plus计算器超频改造与硬件分析
1. TI-92 Plus图形计算器硬件分析与超频改造1.1 设备概述与历史背景TI-92 Plus是德州仪器(Texas Instruments)于1999年推出的图形计算器产品,采用摩托罗拉68K系列MC68SEC000处理器作为核心运算单元。该设备采用QWERTY全键盘设计,配备大尺寸LCD显示屏&…...
FreeRTOS任务管理与调度机制详解
FreeRTOS任务管理深度解析1. 实时操作系统任务基础1.1 任务基本概念在实时操作系统(RTOS)中,任务是最基本的执行单元。每个实时应用可以作为一个独立的任务运行,具有以下特性:独立运行环境:每个任务拥有自己的运行上下文ÿ…...
ArcGIS JS API调用天地图WMTS服务实战:从GetCapabilities解析到完整代码实现
ArcGIS JS API调用天地图WMTS服务全流程解析 在WebGIS开发中,将第三方地图服务无缝集成到ArcGIS生态系统中是常见需求。天地图作为国内权威的地理信息服务,其WMTS(Web Map Tile Service)接口的调用尤为关键。本文将深入剖析从服务…...
小白也能玩转AI视频:AnimateDiff文生视频快速部署指南
小白也能玩转AI视频:AnimateDiff文生视频快速部署指南 1. 什么是AnimateDiff文生视频 AnimateDiff是一个让你用文字直接生成动态视频的AI工具。想象一下,你只需要输入一段描述,比如"一个女孩在海边散步,风吹动她的长发&quo…...
神州网信政府版Win10远程桌面避坑指南:解决剪切板重定向和用户权限问题
神州网信政府版Win10远程桌面深度配置:从权限管理到跨设备协作优化 在企业级IT环境中,远程桌面连接(RDP)是技术人员日常运维和跨部门协作的重要工具。神州网信政府版Windows 10作为专为政企环境定制的操作系统,在默认安全策略上有着更为严格的…...
