当前位置: 首页 > news >正文

pandas 文本数据处理

文本数据处理

获取字符串长度:

​ 需要用到函数:str.len()

  • 例:
# 求字符串长度
# 引用 pandas
import pandas as pd
# 定义数据
data = {"姓名":["张三","李四","王五","赵六"],"描述":["喜欢编程,很有激情","擅长绘画,极具天赋啊","热爱运动,充满活力","喜欢读书,知识渊博"]
}
df = pd.DataFrame(data)# 显示长度
df['长度'] = df['描述'].str.len()
print(df)

结果:

   姓名          描述  长度
0  张三   喜欢编程,很有激情   9
1  李四  擅长绘画,极具天赋啊  10
2  王五   热爱运动,充满活力   9
3  赵六   喜欢读书,知识渊博   9

字符串分割与提取

  • 需要使用 内置函数 split()参数就是要以什么字符分割

    • 使用方法:

      要操作的数据.str.split(字符)
      
  • 例:

import pandas as pd
data = {"地址":["上海市浦东区xxx街道10号","北京市朝阳区xxx街道32号","沈阳是铁西区xxx街道40号"]
}df = pd.DataFrame(data)# 以区为分割 
df1 = df['地址'].str.split('区')
print(df1)
# 提取出每个城市的区名
df2 = df['地址'].str.split('区').str[0].str[-2:]
print(df2)

结果:

0    [上海市浦东, xxx街道10]
1    [北京市朝阳, xxx街道32]
2    [沈阳是铁西, xxx街道40]
Name: 地址, dtype: object
0    浦东
1    朝阳
2    铁西
Name: 地址, dtype: object

文本替换操作

  • 使用内置函数 replace()
str.replace()参数1:被替换的字符参数2:要替换成什么
  • 例:

    # 文本替换
    # 引用 pandas
    import pandas as pd
    # 定义数据
    data = {'地址':['长春市宽城区新园街道学建大陆1111号']
    }
    # 创建 DataFrame
    df = pd.DataFrame(data)# 文本替换
    df = df['地址'].str.replace('学建大陆1111号','xxxxxxxxx')
    print(df)
    

    结果:

    0    长春市宽城区新园街道xxxxxxxxx
    Name: 地址, dtype: object
    

    请添加图片描述

  • 案例:

    import pandas as pddata = {"电话":["13345677788",'13255667788','13999008899']
    }df = pd.DataFrame(data)# 显示电话前3位数 并显示到数据表中
    df['运营商'] = df['电话'].str[:3]
    print(df)
    

    结果:

                电话  运营商
    0  13345677788  133
    1  13255667788  132
    2  13999008899  139
    

相关文章:

pandas 文本数据处理

文本数据处理 获取字符串长度: ​ 需要用到函数:str.len() 例: # 求字符串长度 # 引用 pandas import pandas as pd # 定义数据 data {"姓名":["张三","李四","王五","赵六"],"…...

GCC RISCV 后端 -- GCC 后端框架的一些理解

GCC 已经提供了一整套的编译框架,从前端(Frontend / GENERIC-Tree)对编程语言的语法语义处理,到中端(Middle-End / GIMPLE-Tree)的目标机器无关(Target Indepndent)的优化处理&#…...

FastGPT 源码:如何实现 “问题优化“

文章目录 FastGPT 源码:如何实现 "问题优化"一、前言二、源码分析2.1 queryExtension.ts 提示词2.2 queryExtension.ts 核心逻辑2.3 queryExtension 引用位置 三、流程总结 FastGPT 源码:如何实现 “问题优化” 一、前言 问题优化的背景和目…...

CSS—flex布局、过渡transition属性、2D转换transform属性、3D转换transform属性

​ 1.flex布局 也叫弹性布局,是浏览器提倡的布局模型,非常适合结构化布局,提供了强大的空间分布和对齐能力,不会产生浮动布局中脱标现象,布局网页更简单,更灵活。 flex容器属性: 属性描述d…...

Spring Boot Gradle 项目中使用 @Slf4j 注解

Spring Boot Gradle 项目中,如果想使用 Slf4j 注解来启用日志记录,首先需要添加 Lombok 和 SLF4J 的依赖。可以通过以下步骤来添加它们: 1. 添加 Lombok 依赖 在 build.gradle 文件中添加以下 Lombok 依赖: dependencies {impl…...

FreeRTOS系列---程序正常,但任务无法创建

实验环境 stm32F103RCT6核心板 keil5 vscode stm32cubemx 使用stm32cubemx 问题现场 void my_task_init(void) {xTaskCreate(LED1_Task, "LED1_Task", configMINIMAL_STACK_SIZE, NULL, 1, NULL);xTaskCreate(LED2_Task, "LED2_Task", configMINIMA…...

linux应用:errno、perror、open、fopen

errno errno 是一个全局变量,定义在 头文件中。当系统调用(如 open、read、write 等)或库函数执行失败时,会将一个错误码赋值给 errno。不同的错误码代表不同的错误类型,通过检查 errno 的值,可以判断具体…...

物联网中的气象监测设备具备顶级功能

物联网中的气象监测设备具备顶级功能时,通常集成GPS、数据上报和预警系统,以确保精准监测和及时响应。以下是这些功能的详细说明: 1. GPS定位 精准定位:GPS模块提供设备的精确地理位置,确保数据与具体位置关联&#…...

15-YOLOV8OBB损失函数详解

一、YOLO OBB支持的OBB 在Ultralytics YOLO 模型中,OBB 由YOLO OBB 格式中的四个角点表示。这样可以更准确地检测到物体,因为边界框可以旋转以更好地适应物体。其坐标在 0 和 1 之间归一化: class_index x1 y1 x2 y2 x3 y3 x4 y4 YOLO 在内部处理损失和输出是xywhr 格式,x…...

WHAT - 前端异步事件流处理场景梳理

目录 一、典型场景二、解决方案与技术选型1. 基础异步控制2. 状态管理方案3. 复杂任务调度4. 任务取消机制5. 微任务队列优化 三、最佳实践建议四、工具链推荐 前端异步任务流处理是现代Web开发中常见的需求,尤其在复杂业务逻辑、高交互性应用中不可或缺。以下是常见…...

计算机网络软考

1.物理层 1.两个主机之间发送数据的过程 自上而下的封装数据,自下而上的解封装数据,实现数据的传输 2.数据、信号、码元 码元就是数字通信里用来表示信息的基本信号单元。比如在二进制中,用高电平代表 “1”、低电平代表 “0”&#xff0c…...

安防监控/视频集中存储EasyCVR视频汇聚平台如何配置AI智能分析平台的接入?

EasyCVR安防视频监控平台不仅支持AI边缘计算智能硬件设备的接入,还能快速集成AI智能分析平台,接收来自智能分析平台或设备的AI告警信息,如烟火检测、周界入侵检测、危险区域闯入检测、安全帽/反光衣佩戴检测等。 本文将详细介绍如何在EasyCVR…...

做小程序开发的安全防护全方案

小程序开发安全防护方案 为了确保小程序在开发过程中的安全性,以下是一个全面的防护方案: 1. 需求分析与规划 功能模块分析:明确小程序的功能模块,识别高风险区域如用户登录和支付功能。数据分类分级:将数据分为敏感…...

在Spring Boot项目中导出复杂对象到Excel文件

在Spring Boot项目中导出复杂对象到Excel文件&#xff0c;可以利用Hutool或EasyExcel等库来简化操作。这里我们将详细介绍如何使用Hutool和EasyExcel两种方式来实现这一功能。 使用Hutool导出复杂对象到Excel 首先确保你的pom.xml中添加了Hutool的依赖&#xff1a; <depe…...

从JDBC到数据库连接池:构建高性能Java应用的基石(中篇)

推荐关联阅读&#xff1a;JDBC核心技术解析&#xff1a;从基础连接到ORM演进之路&#xff08;上&#xff09; 一、JDBC的困境与连接池的救赎 1.1 传统JDBC的致命缺陷 在Java应用与数据库交互的原始模式中&#xff0c;开发者通过DriverManager.getConnection()获取数据库连接…...

JavaWeb后端基础(6)

主键返回 例子&#xff1a; /** * 新增员工数据 */ Options(useGeneratedKeys true, keyProperty "id") Insert("insert into emp(username, name, gender, phone, job, salary, image, entry_date, dept_id, create_time, update_time) " "value…...

nio多线程版本

多线程多路复用 多线程NIO&#xff0c;&#xff0c;就是多个线程&#xff0c;每个线程上都有一个Selector&#xff0c;&#xff0c;&#xff0c;比如说一个系统中一个线程用来接收请求&#xff0c;&#xff0c;剩余的线程用来读写数据&#xff0c;&#xff0c;每个线程独立干自…...

Electron、Tauri及其它跨平台方案终极对比

Electron、Tauri及跨平台方案终极对比&#xff08;2025版&#xff09; 一、核心框架深度解析 1.1 Electron&#xff1a;Web技术的桌面霸主 技术架构 基于Chromium&#xff08;浏览器内核&#xff09; Node.js&#xff08;后端运行时&#xff09;的双进程架构&#xff0c;支持…...

蓝桥杯试题:二分查找

一、问题描述 给定 n 个数形成的一个序列 a&#xff0c;现定义如果一个连续子序列包含序列 a 中所有不同元素&#xff0c;则该连续子序列便为蓝桥序列&#xff0c;现在问你&#xff0c;该蓝桥序列长度最短为多少&#xff1f; 例如 1 2 2 2 3 2 2 1&#xff0c;包含 3 个不同的…...

MongoDB Chunks核心概念与机制

1. 基础定义‌ ‌Chunk&#xff08;块&#xff09;‌&#xff1a;MongoDB分片集群中数据的逻辑存储单元&#xff0c;由一组连续的片键&#xff08;Shard Key&#xff09;范围数据组成&#xff0c;默认大小为‌64MB‌&#xff08;可调整范围为1-1024MB&#xff09;‌。‌数据分…...

OpenWrt补丁踩坑实录:从‘尾随空格’警告到make update失败的完整排错指南

OpenWrt补丁踩坑实录&#xff1a;从‘尾随空格’警告到make update失败的完整排错指南 当你第一次尝试为OpenWrt制作补丁时&#xff0c;可能会觉得这就像在玩一个充满陷阱的迷宫游戏。每次你以为按照教程走就能顺利通关&#xff0c;却总会在某个转角遇到意想不到的错误提示。本…...

Google I/O 2026 推出 Antigravity SDK:本地构建 AI Agent,灵活定制功能

Antigravity SDK 登场当开发者需要将 AI 能力嵌入自有应用时&#xff0c;常见做法是通过 API 调用远程 Agent 服务&#xff0c;但这种方式存在延迟高、定制性差、依赖网络等问题。据悉&#xff0c;Google 在 I/O 2026 大会上给出了另一种解法 ---- Antigravity SDK&#xff0c;…...

新手如何通过Taotoken控制台申请API Key并查看初始用量

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 新手如何通过Taotoken控制台申请API Key并查看初始用量 对于初次接触大模型API的开发者而言&#xff0c;第一步往往是如何获取一个…...

终极跨平台KVM解决方案:3分钟掌握Input Leap键盘鼠标共享

终极跨平台KVM解决方案&#xff1a;3分钟掌握Input Leap键盘鼠标共享 【免费下载链接】input-leap Open-source KVM software 项目地址: https://gitcode.com/gh_mirrors/in/input-leap 还在为多台电脑设备间频繁切换键盘鼠标而烦恼吗&#xff1f;Input Leap跨平台KVM软…...

Taotoken API Key管理功能实现团队权限与访问控制

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 Taotoken API Key管理功能实现团队权限与访问控制 在团队协作开发或项目管理中&#xff0c;如何安全、可控地分发大模型调用资源是…...

告别卡顿!用华为云ECS搭建eNSP Pro大型网络实验的保姆级避坑指南

华为云ECS部署eNSP Pro全流程性能优化实战 当你在本地PC上尝试运行包含20台NE路由器的复杂拓扑时&#xff0c;风扇狂转的噪音和逐渐卡死的界面是否让你抓狂&#xff1f;作为一位曾经被32GB内存工作站折磨过的网络工程师&#xff0c;我完全理解这种痛苦。直到发现华为云ECS这个&…...

DepHell与Docker集成:容器化Python应用开发的终极指南

DepHell与Docker集成&#xff1a;容器化Python应用开发的终极指南 【免费下载链接】dephell :package: :fire: Python project management. Manage packages: convert between formats, lock, install, resolve, isolate, test, build graph, show outdated, audit. Manage ven…...

YOLO-ONNX-Java分布式推理架构设计与实现

YOLO-ONNX-Java分布式推理架构设计与实现 引言&#xff1a;单机推理的性能瓶颈 在实际的AI视觉识别项目中&#xff0c;随着业务规模的扩大&#xff0c;单机推理往往面临以下挑战&#xff1a; 并发处理能力有限&#xff1a;单台服务器无法同时处理大量视频流GPU资源利用率低&…...

OpCore-Simplify:如何30分钟完成专业级黑苹果配置

OpCore-Simplify&#xff1a;如何30分钟完成专业级黑苹果配置 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的黑苹果配置而烦恼吗&#x…...

手把手教你用wget和迅雷搞定nuScenes数据集下载(附完整性校验命令)

高效获取nuScenes数据集的两种技术方案与完整性验证指南 在自动驾驶与计算机视觉研究领域&#xff0c;nuScenes数据集因其丰富的传感器数据和精细的标注体系已成为行业基准测试的重要资源。但对于大多数研究者而言&#xff0c;获取这个总容量超过550GB的数据集却面临着网络不稳…...