当前位置: 首页 > news >正文

Python 实现电话号码和Email地址提取程序

Python 实现电话号码和Email地址提取程序

背景

在日常工作或学习中,我们经常需要从网页或文档中提取信息,比如电话号码和E-mail地址。手动查找和提取这些信息可能会耗费大量时间,而自动化工具可以帮助我们快速完成这个任务。

本篇博客将带你一步步实现一个程序,从剪贴板中提取所有电话号码和E-mail地址,并将它们整理后再复制到剪贴板中。

任务目标

  1. 从剪贴板取得文本
  2. 找出文本中的所有电话号码和E-mail地址
  3. 将它们粘贴到剪贴板,以便快速使用。

实现步骤

1. 安装依赖库

我们需要 pyperclip 库来实现从剪贴板复制和粘贴文本。如果你还没有安装 pyperclip,可以通过以下命令进行安装:

pip install pyperclip
2. 编写程序

接下来,我们将逐步实现该程序:

  1. 使用 pyperclip 从剪贴板获取文本
  2. 编写两个正则表达式,一个匹配电话号码,另一个匹配 E-mail 地址。
  3. 使用正则表达式提取所有匹配项
  4. 将提取到的电话号码和 E-mail 地址整理后粘贴到剪贴板
  5. 显示消息,提示用户结果。
3. Python 代码实现
import pyperclip
import re# 1. 创建电话号码的正则表达式
phone_regex = re.compile(r'''((\d{3}|\(\d{3}\))?              # 区号 (可选)(\s|-|\.)?                      # 分隔符 (可选)(\d{3})                         # 前三个数字(\s|-|\.)                       # 分隔符(\d{4})                         # 后四个数字(\s*(ext|x|ext.)\s*(\d{2,5}))?  # 分机号 (可选)
)''', re.VERBOSE)# 2. 创建 E-mail 地址的正则表达式
email_regex = re.compile(r'''([a-zA-Z0-9._%+-]+               # 用户名@                               # @ 符号[a-zA-Z0-9.-]+                  # 域名(\.[a-zA-Z]{2,4})               # 顶级域名
)''', re.VERBOSE)# 3. 从剪贴板中获取文本
text = pyperclip.paste()# 4. 在文本中找到所有电话号码和 E-mail 地址
matches = []# 查找电话号码
for groups in phone_regex.findall(text):phone_num = '-'.join([groups[1], groups[3], groups[5]])if groups[8] != '':phone_num += f' ext{groups[8]}'matches.append(phone_num)# 查找 E-mail 地址
for groups in email_regex.findall(text):matches.append(groups[0])# 5. 如果找到了匹配项,就将它们复制到剪贴板
if matches:# 将结果整理成一个字符串,每行一个结果results = '\n'.join(matches)pyperclip.copy(results)print("已找到以下电话号码和E-mail地址,并复制到剪贴板:")print(results)
else:print("未找到任何电话号码或E-mail地址。")
4. 代码详细说明
  • 正则表达式:

    • 电话号码正则表达式:
      • (\d{3}|\(\d{3}\))?:匹配可选的3位区号,允许括号表示法,如 (123)
      • (\s|-|\.)?:匹配可选的分隔符,如空格、短横线或点号。
      • (\d{3})(\d{4}):匹配电话号码的前3位和后4位数字。
      • (ext|x|ext.)?:匹配可选的分机号,如 ext. 1234
    • E-mail 地址正则表达式:
      • [a-zA-Z0-9._%+-]+:匹配用户名部分,支持字母、数字、点、下划线、百分号等。
      • @:匹配 @ 符号。
      • [a-zA-Z0-9.-]+:匹配域名。
      • (\.[a-zA-Z]{2,4}):匹配顶级域名,如 .com.cn
  • pyperclip:

    • pyperclip.paste():从剪贴板中获取文本。
    • pyperclip.copy():将结果复制到剪贴板。
  • 匹配过程:

    • 通过 phone_regex.findall(text)email_regex.findall(text),找到文本中的所有电话号码和 E-mail 地址。
    • 将所有匹配项整理成字符串,逐行输出并复制到剪贴板。
5. 程序运行示例

假设剪贴板内容如下:

Contact us at (123) 456-7890 or 987-654-3210 ext. 123. 
You can also email support@example.com or info@company.com.

程序输出:

已找到以下电话号码和E-mail地址,并复制到剪贴板:
123-456-7890
987-654-3210 ext123
support@example.com
info@company.com
6. 未找到匹配时的提示

如果文本中没有电话号码或 E-mail 地址,程序将输出:

未找到任何电话号码或E-mail地址。

结论

通过 pyperclip 模块结合正则表达式,可以轻松实现从剪贴板中提取电话号码和 E-mail 地址的程序。这个小工具可以广泛应用于信息采集、数据整理等场景,极大提升工作效率。在实际使用中,你可以根据需要对正则表达式进行扩展,以适应更多格式的电话号码和 E-mail 地址。

相关文章:

Python 实现电话号码和Email地址提取程序

Python 实现电话号码和Email地址提取程序 背景 在日常工作或学习中,我们经常需要从网页或文档中提取信息,比如电话号码和E-mail地址。手动查找和提取这些信息可能会耗费大量时间,而自动化工具可以帮助我们快速完成这个任务。 本篇博客将带…...

JavaGuide(3)

一、项目背景与简介 JavaGuide由GitHub用户Snailclimb开发并维护,是一个全面而深入的Java学习资源库。它旨在为Java初学者和有经验的开发者提供一个系统的学习路径和丰富的资源,帮助他们系统地学习和巩固Java及相关技术知识。 二、项目内容与特点 Jav…...

微信小程序15天

UniApp(Vue3组合式API)和微信小程序15天学习计划 第1天:开发环境配置和基础知识 UniApp和微信小程序概述及对比安装并配置HBuilderX(UniApp)和微信开发者工具创建第一个UniApp Vue3项目和微信小程序项目了解两个平台的项目结构差异配置外部浏览器和各种小程序模拟…...

用Python制作数据可视化仪表盘:使用Dash与Plotly构建实时交互式仪表盘

解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 在数据驱动的世界中,可视化是理解和解释复杂数据的关键工具。通过数据可视化,用户能够快速洞察数据趋势,做出明智决策。而仪表盘作为一种高度集成的可视化工具,能够将多种数据图表汇总到一个界面上,便于实时…...

干部管理系统:全面提升干部管理效能

数字化浪潮下,干部管理系统作为管理利器,日益凸显其核心价值。该系统全面实现干部信息的数据化,涵盖从基础档案到教育、工作、培训及考核等全方位细节,信息详尽且条理清晰。这不仅极大提升了干部信息查询与更新的效率,…...

Java之方法

方法&#xff08;函数&#xff09; Java中的方法必须定义在类或接口中。 package day2;import java.util.Scanner;public class way {public static void main(String[] args) {int arr[] new int[5];Scanner sc new Scanner(System.in);for (int i 0; i < arr.length;…...

MyBatis 数据表与实体映射的隐藏陷阱

这两天在处理一个线上问题时&#xff0c;发现Mybatis数据表和实体映射的时候会埋一个坑。这个问题看似微小&#xff0c;但却可能在关键时刻给我们带来不小的困扰。接下来&#xff0c;让我们深入剖析这个问题&#xff0c;并探究其发生的根源。 一、问题描述 我们在使用 Mybati…...

leetcode-239. 滑动窗口最大值

题目描述 给你一个整数数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1&#xff1a; 输入&#xff1a;nums [1,3,-1,-3,5,3,6,…...

springboot项目中开启mybatis的sql日志

在 application.yml 文件中 添加 mybatis-plus 配置&#xff0c;再重启项目&#xff0c;这里用到了mybatis-plus的自带sql日志打印 # application-jdbc.yml mybatis-plus:configuration:log-impl: org.apache.ibatis.logging.stdout.StdOutImpl如果只是用的mybatis的话&#x…...

卷积的计算——nn.Conv2d(Torch.nn里的Convolution Layers模块里的Conv2d类)

**前置知识&#xff1a; 1、张量和通道 张量&#xff1a;多维数组&#xff0c;用来表示数据&#xff08;图像、视频等&#xff09; 通道&#xff1a;图像数据的一部分&#xff0c;表示不同的颜色或特征层 通道只是张量的其中一个维度 以一张RGB图像为例&#xff0c; 该图像…...

确保接口安全:六大方案有效解决幂等性问题

文章目录 六大方案解决接口幂等问题什么是接口幂等&#xff1f;天然幂等不做幂等会怎么样&#xff1f; 解决方案1&#xff09;insert前先select2&#xff09;使用唯一索引3&#xff09;去重表加悲观锁4&#xff09;加乐观锁之版本号机制5&#xff09;使用 Redisson 分布式锁6&a…...

代码随想录算法训练营第二十九天| 93. 复原 IP 地址,78. 子集, 90. 子集 II

93. 复原 IP 地址&#xff0c;78. 子集&#xff0c; 90. 子集 II 93. 复原 IP 地址78. 子集90. 子集 II 93. 复原 IP 地址 有效 IP 地址 正好由四个整数&#xff08;每个整数位于 0 0 0 到 255 255 255之间组成&#xff0c;且不能含有前导 0 0 0&#xff09;&#xff0c;整…...

【WebGis开发 - Cesium】三维可视化项目教程---初始化场景

系列文章目录 【WebGis开发 - Cesium】三维可视化项目教程—图层管理基础【WebGis开发 - Cesium】三维可视化项目教程—视点管理 目录 系列文章目录引言一、Cesium引入项目1.1 下载资源1.2 项目引入Cesium 二、初始化地球2.1 创建基础文件2.1.1 创建Cesium工具方法文件2.1.2 创…...

点云中ICP算法的详解

ICP&#xff08;Iterative Closest Point&#xff09;算法是一种用于刚性点云配准的经典算法。其核心思想是通过迭代地寻找两个点云之间的最近点对&#xff0c;并计算最优的刚性变换&#xff08;包括旋转和平移&#xff09;&#xff0c;使得源点云在目标点云的坐标系下对齐。IC…...

抽象类Abstart Class

抽象类其实就是一种不完全的设计图 必须用abstract修饰 模板方法&#xff1a;建议使用final修饰&#xff0c;不能被重写。...

Redis:通用命令 数据类型

Redis&#xff1a;通用命令 & 数据类型 通用命令SETGETKEYSEXISTSDELEXPIRETTLTYPEFLUSHALL 数据类型 Redis的客户端提供了很多命令用于操控Redis&#xff0c;在Redis中&#xff0c;key的类型都是字符串&#xff0c;而value有多种类型&#xff0c;每种类型都有自己的操作命…...

【Python高级编程】探索Python库:创建引人入胜的交互界面

1.制作交互界面常用到的库 在 Python 中&#xff0c;有多个库可以用于创建交互界面&#xff08;GUI&#xff09;。 以下是一些常用的 Python GUI 库&#xff1a; Tkinter: Python 的标准 GUI 库&#xff0c;通常随 Python 一起安装。简单易用&#xff0c;适合快速开发小型应用…...

OpenCV Canny()函数

OpenCV Canny()函数被用来检测图像物体的边缘。其算法原理如下&#xff1a; 高斯滤波&#xff1a;使用高斯滤波器平滑图像以减少噪声。高斯滤波器是一种线性滤波器&#xff0c;可以消除图像中的高频噪声&#xff0c;同时保留边缘信息。计算梯度强度和方向&#xff1a;使用Sobe…...

Java基础(3)

基本数据类型 Java 中的几种基本数据类型了解么&#xff1f; Java 中有 8 种基本数据类型&#xff0c;分别为&#xff1a; 6 种数字类型&#xff1a; 4 种整数型&#xff1a;byte、short、int、long2 种浮点型&#xff1a;float、double1 种字符类型&#xff1a;char1 种布尔…...

【C语言】VS调试技巧

文章目录 什么是bug什么是调试&#xff08;debug&#xff09;debug和releaseVS调试快捷键监视和内存观察编程常见错误归类 什么是bug bug本意是“昆虫”或“虫子”&#xff0c;现在一般是指在电脑系统或程序中&#xff0c;隐藏着的一些未被发现的缺陷或问题&#xff0c;简称程…...

后进先出(LIFO)详解

LIFO 是 Last In, First Out 的缩写&#xff0c;中文译为后进先出。这是一种数据结构的工作原则&#xff0c;类似于一摞盘子或一叠书本&#xff1a; 最后放进去的元素最先出来 -想象往筒状容器里放盘子&#xff1a; &#xff08;1&#xff09;你放进的最后一个盘子&#xff08…...

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中&#xff0c;iftop是网络管理的得力助手&#xff0c;能实时监控网络流量、连接情况等&#xff0c;帮助排查网络异常。接下来从多方面详细介绍它。 目录 【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数&#xff0c;对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留&#xff0c;CCA-Attention为LLM长文本建模带来突破性进展 琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制&#xff08;CCA-Attention&#xff09;&#xff0c;…...

【人工智能】神经网络的优化器optimizer(二):Adagrad自适应学习率优化器

一.自适应梯度算法Adagrad概述 Adagrad&#xff08;Adaptive Gradient Algorithm&#xff09;是一种自适应学习率的优化算法&#xff0c;由Duchi等人在2011年提出。其核心思想是针对不同参数自动调整学习率&#xff0c;适合处理稀疏数据和不同参数梯度差异较大的场景。Adagrad通…...

云启出海,智联未来|阿里云网络「企业出海」系列客户沙龙上海站圆满落地

借阿里云中企出海大会的东风&#xff0c;以**「云启出海&#xff0c;智联未来&#xff5c;打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办&#xff0c;现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口 目录 第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

html-<abbr> 缩写或首字母缩略词

定义与作用 <abbr> 标签用于表示缩写或首字母缩略词&#xff0c;它可以帮助用户更好地理解缩写的含义&#xff0c;尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时&#xff0c;会显示一个提示框。 示例&#x…...

安卓基础(aar)

重新设置java21的环境&#xff0c;临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的&#xff1a; MyApp/ ├── app/ …...

技术栈RabbitMq的介绍和使用

目录 1. 什么是消息队列&#xff1f;2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...