当前位置：首页 > news >正文

Java POI 百万规模数据的导入和导出

news 2026/4/18 7:34:02

1、百万数据导入
- 1.1 需求分析
- 1.2 思路分析
- 1.3 代码实现
- - 1.3.1 步骤分析
  - 1.3.2 自定义处理器
  - 1.3.3 自定义解析
  - 1.3.4 测试
2、百万数据导出
- 2.1、概述
- 2.2、解决方案分析
- 2.3、原理分析
- 2.4、百万数据的导出
- - 2.4.1、模拟数据
  - 2.4.2、思路分析
  - 2.4.3、代码实现
  - 2.4.4、测试结果

1、百万数据导入

1.1 需求分析

使用POI基于事件模式解析案例提供的Excel文件

1.2 思路分析

**用户模式：**加载并读取Excel时，是通过一次性的将所有数据加载到内存中再去解析每个单元格内容。当Excel数据量较大时，由于不同的运行环境可能会造成内存不足甚至OOM异常。

例如读取我们刚刚导出的百万数据：

package com.itheima.test;import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;//测试百万数据的导入
public class POIDemo5 {public static void main(String[] args) throws Exception {XSSFWorkbook workbook = new XSSFWorkbook("C:\\Users\\syl\\Desktop\\百万用户数据的导出.xlsx");XSSFSheet sheetAt = workbook.getSheetAt(0);String stringCellValue = sheetAt.getRow(0).getCell(0).getStringCellValue();System.out.println(stringCellValue);}
}

会直接报内存溢出的错误：
在这里插入图片描述

事件模式： 它逐行扫描文档，一边扫描一边解析。由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中，这对于大型文档的解析是个巨大优势。

1.3 代码实现

1.3.1 步骤分析

（1）设置POI的事件模式
根据Excel获取文件流
根据文件流创建OPCPackage 用来组合读取到的xml 组合出来的数据占用的空间更小
创建XSSFReader对象
（2）Sax解析
自定义Sheet处理器
创建Sax的XmlReader对象
设置Sheet的事件处理器
逐行读取

1.3.2 自定义处理器

package com.itheima.test;import com.itheima.pojo.User;
import org.apache.poi.xssf.eventusermodel.XSSFSheetXMLHandler;
import org.apache.poi.xssf.usermodel.XSSFComment;public class SheetHandler implements XSSFSheetXMLHandler.SheetContentsHandler {//    编号 用户名  手机号  入职日期 现住址private User user=null;@Overridepublic void startRow(int rowIndex) { //每一行的开始   rowIndex代表的是每一个sheet的行索引if(rowIndex==0){user = null;}else{user = new User();}}@Override  //处理每一行的所有单元格public void cell(String cellName, String cellValue, XSSFComment comment) {if(user!=null){String letter = cellName.substring(0, 1);  //每个单元名称的首字母 A  B  Cswitch (letter){case "A":{user.setId(Long.parseLong(cellValue));break;}case "B":{user.setUserName(cellValue);break;}}}}@Overridepublic void endRow(int rowIndex) { //每一行的结束if(rowIndex!=0){System.out.println(user);}}
}

1.3.3 自定义解析

package com.itheima.test;import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.openxml4j.opc.PackageAccess;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.eventusermodel.XSSFSheetXMLHandler;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.apache.poi.xssf.model.StylesTable;
import org.xml.sax.InputSource;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.XMLReaderFactory;import java.io.InputStream;/*** 自定义Excel解析器*/
public class ExcelParser {public void parse (String path) throws Exception {//1.根据Excel获取OPCPackage对象OPCPackage pkg = OPCPackage.open(path, PackageAccess.READ);try {//2.创建XSSFReader对象XSSFReader reader = new XSSFReader(pkg);//3.获取SharedStringsTable对象SharedStringsTable sst = reader.getSharedStringsTable();//4.获取StylesTable对象StylesTable styles = reader.getStylesTable();XMLReader parser = XMLReaderFactory.createXMLReader();// 处理公共属性：Sheet名，Sheet合并单元格parser.setContentHandler(new XSSFSheetXMLHandler(styles,sst, new SheetHandler(), false));XSSFReader.SheetIterator sheets = (XSSFReader.SheetIterator) reader.getSheetsData();while (sheets.hasNext()) {InputStream sheetstream = sheets.next();InputSource sheetSource = new InputSource(sheetstream);try {parser.parse(sheetSource);} finally {sheetstream.close();}}} finally {pkg.close();}}
}

1.3.4 测试

用户模式下读取测试Excel文件直接内存溢出，测试Excel文件映射到内存中还是占用了不少内存；事件模式下可以流畅的运行。

使用事件模型解析

public class POIDemo5 {public static void main(String[] args) throws Exception{new ExcelParser().parse("C:\\Users\\syl\\Desktop\\百万用户数据的导出.xlsx");}
}

2、百万数据导出

2.1、概述

我们都知道Excel可以分为早期的Excel2003版本（使用POI的HSSF对象操作）和Excel2007版本（使用POI的XSSF操作），两者对百万数据的支持如下：
Excel 2003：在POI中使用HSSF对象时，excel 2003最多只允许存储65536条数据，一般用来处理较少的数据量。这时对于百万级别数据，Excel肯定容纳不了。
Excel 2007：当POI升级到XSSF对象时，它可以直接支持excel2007以上版本，因为它采用ooxml格式。这时excel可以支持1048576条数据，单个sheet表就支持近百万条数据。但实际运行时还可能存在问题，原因是执行POI报表所产生的行对象，单元格对象，字体对象，他们都不会销毁，这就导致OOM的风险。

2.2、解决方案分析

对于百万数据量的Excel导入导出，只讨论基于Excel2007的解决方法。在ApachePoi 官方提供了对操作大数据量的导入导出的工具和解决办法，操作Excel2007使用XSSF对象，可以分为三种模式：

java代码解析xml

dom4j:一次性加载xml文件再解析

SAX:逐行加载，逐行解析

**用户模式：**用户模式有许多封装好的方法操作简单，但创建太多的对象，非常耗内存（之前使用的方法）

**事件模式：**基于SAX方式解析XML，SAX全称Simple API for XML，它是一个接口，也是一个软件包。它是一种XML解析的替代方法，不同于DOM解析XML文档时把所有内容一次性加载到内存中的方式，它逐行扫描文档，一边扫描，一边解析。

SXSSF对象：是用来生成海量excel数据文件，主要原理是借助临时存储空间生成excel

2.3、原理分析

在实例化SXSSFWorkBook这个对象时，可以指定在内存中所产生的POI导出相关对象的数量（默认100），一旦内存中的对象的个数达到这个指定值时，就将内存中的这些对象的内容写入到磁盘中（XML的文件格式），就可以将这些对象从内存中销毁，以后只要达到这个值，就会以类似的处理方式处理，直至Excel导出完成。

2.4、百万数据的导出

2.4.1、模拟数据

第一步、创建表

CREATE TABLE `tb_user2` (`id` bigint(20) NOT NULL  COMMENT '用户ID',`user_name` varchar(100) DEFAULT NULL COMMENT '姓名',`phone` varchar(15) DEFAULT NULL COMMENT '手机号',`province` varchar(50) DEFAULT NULL COMMENT '省份',`city` varchar(50) DEFAULT NULL COMMENT '城市',`salary` int(10) DEFAULT NULL,`hire_date` datetime DEFAULT NULL COMMENT '入职日期',`dept_id` bigint(20) DEFAULT NULL COMMENT '部门编号',`birthday` datetime DEFAULT NULL COMMENT '出生日期',`photo` varchar(200) DEFAULT NULL COMMENT '照片路径',`address` varchar(300) DEFAULT NULL COMMENT '现在住址' 
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

第二步、创建存储过程

DELIMITER $$    -- 重新定义“;”分号
DROP PROCEDURE IF EXISTS test_insert $$   -- 如果有test_insert这个存储过程就删除
CREATE PROCEDURE test_insert()			  -- 创建存储过程BEGINDECLARE n int DEFAULT 1;				    -- 定义变量n=1SET AUTOCOMMIT=0;						    -- 取消自动提交while n <= 5000000 do					INSERT INTO `tb_user2` VALUES ( n, CONCAT('测试', n), '13800000001', '北京市', '北京市', '11000', '2001-03-01 21:18:29', '1', '1981-03-02 00:00:00', '\\static\\user_photos\\1.jpg', '北京市西城区宣武大街1号院');SET n=n+1;END while;COMMIT;
END $$

第三步、开始执行

CALL test_insert();

插入500W数据大概需要200至300秒左右

2.4.2、思路分析

导出时使用的是SXSSFWorkBook这个类，一个工作表sheet最多只能放1048576行数据，当我们的业务数据已超过100万了，一个sheet就不够用了，必须拆分到多个工作表。

导出百万数据时有两个弊端：

1、不能使用模板

2、不能使用太多的样式

也就是说导出的数据太多时必须要放弃一些。

2.4.3、代码实现

UserController代码

@GetMapping(value = "/downLoadMillion",name = "导出用户百万数据的导出")
public void downLoadMillion(Long id,HttpServletRequest request,HttpServletResponse response) throws Exception{userService.downLoadMillion(request,response);
}

UserService代码

public void downLoadMillion(HttpServletRequest request, HttpServletResponse response) throws Exception {
//        创建一个空的工作薄Workbook workbook = new SXSSFWorkbook();int page = 1;int pageSize=200000;int rowIndex = 1; //每一个工作页的行数int num = 0; //总数据量Row row = null;Cell cell = null;Sheet sheet = null;while (true){  //不停地查询List<User> userList = this.findPage(page,pageSize);if(CollectionUtils.isEmpty(userList)){  //如果查询不到就不再查询了break;}if(num%1000000==0){  //每100W个就重新创建新的sheet和标题rowIndex = 1;//        在工作薄中创建一个工作表sheet = workbook.createSheet("第"+((num/1000000)+1)+"个工作表");
//        设置列宽sheet.setColumnWidth(0,8*256);sheet.setColumnWidth(1,12*256);sheet.setColumnWidth(2,15*256);sheet.setColumnWidth(3,15*256);sheet.setColumnWidth(4,30*256);//            处理标题String[] titles = new String[]{"编号","姓名","手机号","入职日期","现住址"};//        创建标题行Row titleRow = sheet.createRow(0);for (int i = 0; i < titles.length; i++) {cell = titleRow.createCell(i);cell.setCellValue(titles[i]);}}//        处理内容for (User user : userList) {row = sheet.createRow(rowIndex);cell = row.createCell(0);cell.setCellValue(user.getId());cell = row.createCell(1);cell.setCellValue(user.getUserName());cell = row.createCell(2);cell.setCellValue(user.getPhone());cell = row.createCell(3);cell.setCellValue(simpleDateFormat.format(user.getHireDate()));cell = row.createCell(4);cell.setCellValue(user.getAddress());rowIndex++;num++;}page++;// 继续查询下一页}
//            导出的文件名称String filename="百万数据.xlsx";
//            设置文件的打开方式和mime类型ServletOutputStream outputStream = response.getOutputStream();response.setHeader( "Content-Disposition", "attachment;filename="  + new String(filename.getBytes(),"ISO8859-1"));response.setContentType("application/vnd.openxmlformats-officedocument.spreadsheetml.sheet");workbook.write(outputStream);}

2.4.4、测试结果

导出的这个文档大概需要3-5分钟的时间，有105 MB，内容如下

在这里插入图片描述

Java POI 百万规模数据的导入和导出

目录 1、百万数据导入1.1 需求分析1.2 思路分析1.3 代码实现1.3.1 步骤分析1.3.2 自定义处理器1.3.3 自定义解析1.3.4 测试 2、百万数据导出2.1、概述2.2、解决方案分析2.3、原理分析2.4、百万数据的导出2.4.1、模拟数据2.4.2、思路分析2.4.3、代码实现2.4.4、测试结果 1、百万…...

编程日记 2023/8/4 5:42:21

如何快速用PHP取短信验证码

要用PHP获取短信验证码，通常需要连接到一个短信服务提供商的API，并通过该API发送请求来获取验证码。由于不同的短信服务提供商可能具有不同的API和授权方式，我将以一个简单的示例介绍如何使用Go语言来获取短信验证码。在这个示例中&#xff…...

编程日记 2023/8/4 5:41:20

CloudStack 的 AsyncJobManagerImpl

在 CloudStack 的 AsyncJobManagerImpl 类中，下列方法的作用如下： getConfigComponentName(): 返回配置组件的名称。 getConfigKeys(): 返回与异步任务管理器相关的配置键列表。 getAsyncJob(): 根据异步任务的 ID 获取相应的异步任务对象。 findInst…...

编程日记 2023/8/4 5:40:18

OAuth机制_web站点接入微软azure账号进行三方登录

文章目录 ⭐前言⭐微软三方登录流程💖 web站点获取微软账号流程💖 node封装微软登录接口💖 webapp 自定义code换token💖 调用 Microsoft Graph API💖 前端唤醒authlink进行登录回调逻辑 ⭐结束 ⭐前言大家好&#xf…...

编程日记 2023/8/4 5:39:17

Linux ALSA音频工具aplay、arecord、amixer的使用方法

ALSA 是Advanced Linux Sound Architecture的缩写，先进的Linux音频架构，为Linux操作系统提供音频和MIDI功能。 aplay命令 aplay是播放命令。 rootimx6ul7d:~# aplay -h Usage: aplay [OPTION]... [FILE]...-h, --help help--version …...

编程日记 2023/8/4 5:38:14

编写一个最简单的Linux服务端和客户端程序

2023年8月3日，周四下午这篇文章我从下午开始写了几个小时， 这篇文件基本总结了我今天学到的知识， 在写这篇文章的过程中灵感不断涌现、想明白了很多知识点，非常酣畅淋漓。什么叫做深度学习？这就是深度学习&#…...

编程日记 2023/8/4 5:37:12

openKylin顺利加入RISC-V 基金会，推动架构芯片与操作系统协同发展

日前开放麒麟openKylin宣布，正式加入RISC-V基金会，由此成为其产业联盟成员。公开资料显示，ISC-V是由加州大学伯克利分校研究团队在 2010年推出的一个开源指令集架构(ISA)。并且RISC-V拥有免费、高效、简洁和开放等特性qlbrsb。作为新生的…...

编程日记 2023/8/4 5:36:09

SSM(Vue3+ElementPlus+Axios+SSM前后端分离)【二】

文章目录 SSM--基础环境搭建【二】项目介绍项目功能/界面● SSM 整合项目界面项目全局配置web.xmlSpringMVC 配置 SSM–基础环境搭建【二】项目介绍项目功能/界面 ● SSM 整合项目界面项目全局配置web.xml 配置furns_ssm\src\main\webapp\WEB-INF\web.xml , 和项目全局…...

编程日记 2023/8/4 5:35:08

出现一次的数字(其他数字出现三次,两次)

位运算的知识点： 异或运算具有以下几个重要性质交换律：a ^ b b ^ a 结合律：a ^ (b ^ c) (a ^ b) ^ c 任何数与0异或等于它本身：a ^ 0 a 任何数与自身异或等于0：a ^ a 0 对于数组中所有元素进行异或运算&#xf…...

编程日记 2023/8/4 5:34:07

Rust- 智能指针

Smart pointers A smart pointer is a data structure that not only acts like a pointer but provides additional functionality. This “smartness” comes from the fact that smart pointers encapsulate additional logical or semantic rules, which are automaticall…...

编程日记 2023/8/4 5:33:04

什么是微服务

微服务的架构特征： 单一职责：微服务拆分粒度更小，每一个服务都对应唯一的业务能力，做到单一职责自治：团队独立、技术独立、数据独立，独立部署和交付面向服务：服务提供统一标准的接口&#xff0…...

编程日记 2023/8/4 5:32:02

无人机电力巡检方案在电网安全与维护中的应用

目前，无人机技术已经在各行各业都有广泛的应用，其中之一就是在电力巡检中的应用。无人机电力巡检方案以其高效、安全、精准的特点，为电网安全与维护带来了重大突破和进步。一、无人机电力巡检方案是高效巡检的利器传统的电力巡检方式需要人…...

编程日记 2023/8/4 5:31:00

网络工程师快速入门

需要掌握以下技术 1.网络基础知识 TCP/IP 、OSI 7层协议、IP地址、ARP地址解析协议、ICMP（英特网控制报文协议，ping）等入门面试常问问题。 2.路由路由匹配三原则、静态路由、OSPF路由协议。 2.交换如何放数据？ VLAN TRU…...

编程日记 2023/8/4 5:29:59

Linux系统vim查看文件中文乱码

Linux系统查看文件-cat中文正常显示 vim中文乱码 1、背景2、环境3、目的4、原因5、操作步骤5.1、修改vim编码配置 6、验证 1、背景服务器部署业务过程中查看文件内容，使用cat 命令查看中文正常显示，使用vim命令查看显示中文乱码 cat 查看 vim 查看 …...

编程日记 2023/8/4 5:28:58

BladeX框架开源-工作-笔记-Docker部署-Jenkins配置

BladeX框架开源-工作-笔记-Docker部署-Jenkins配置文章目录 BladeX框架开源-工作-笔记-Docker部署-Jenkins配置第一章-概要-BladeX框架简介与git地址第二章-BladeX框架前后端项目Docker部署与DockerFile配置文件2.1-开始部署阶段，默认服务器上面已有Nacos服务2.2-采…...

编程日记 2023/8/4 5:27:56

Modbus tcp转ETHERCAT网关modbus tcp/ip协议

捷米JM-ECT-TCP网关能够连接到Modbus tcp总线和ETHERCAT总线中，实现两种不同协议设备之间的通讯。这个网关能够大大提高工业生产的效率和生产效益，让生产变得更加智能化。捷米JM-ECT-TCP 是自主研发的一款 ETHERCAT 从站功能的通讯网关。该产品主要功能是…...

编程日记 2023/8/4 5:26:55

RK356x Android11更换默认的Launcher

1、开发环境 ubuntu版本：18.04 开发平台：RK356x Android版本：android11 2、目的 android11 系统自带了一个启动器Launcher3，在android源码路径下的packages/apps/Launcher3下，现需要将我们自己开发的Launcher放到a…...

编程日记 2023/8/4 5:25:53

Python 操作 MySQL 数据库

Python 操作 MySQL 数据库 Python 标准数据库接口为 Python DB-API，Python DB-API为开发人员提供了数据库应用编程接口。 Python 数据库接口支持非常多的数据库，你可以选择适合你项目的数据库： GadFlymSQLMySQLPostgreSQLMicrosoft SQL Se…...

编程日记 2023/8/4 5:24:52

脑电信号处理与特征提取——6.运用机器学习技术和脑电进行大脑解码（涂毅恒）

目录六、运用机器学习技术和脑电进行大脑解码 6.1 前言 6.2 基于脑电数据的机器学习基础分析 6.3 基于脑电数据的机器学习进阶分析 6.4 代码解读六、运用机器学习技术和脑电进行大脑解码 6.1 前言 6.2 基于脑电数据的机器学习基础分析 6.3 基于脑电数据的机器学习进阶分…...

编程日记 2023/8/4 5:23:51

腾讯云COS+PicGO+截图工具+Obsidian+Typora+蚁小二：打造丝滑稳定的Markdown写作和分发环境

背景很久很久以前，我写过一篇《有道云笔记EverythingTyporaGitHub图床PicGojsDelivr加速截图工具——创造丝滑免费的Markdown写作环境》（https://blog.csdn.net/qq_43721542/article/details/9685957），当时的目的是打造一个云同…...

编程日记 2023/8/4 5:22:50

YOLO12视频流扩展：OpenCV逐帧捕获+YOLO12 API调用代码实例

YOLO12视频流扩展：OpenCV逐帧捕获YOLO12 API调用代码实例 1. 引言实时视频分析是计算机视觉领域最激动人心的应用之一。想象一下，你需要监控一个停车场，实时统计车辆进出；或者开发一个智能家居系统，自动识别家庭成员…...

编程新知 2026/4/18 6:19:36

一物一码有哪些公司：快消企业如何选择合适服务商

一物一码有哪些公司：快消企业如何选择合适服务商在快消行业，渠道费用越来越高、终端动销越来越难、消费者触达越来越分散，已经成为许多企业的共同感受。相比单点式促销工具，一物一码正在从“营销活动手段”演变为“渠道、用户与产…...

编程新知 2026/4/18 6:17:36

企业级大模型API中转站实测对比：主线、备线怎么排更合理

很多团队做大模型接入时，会先问一个看起来很直接的问题：哪家 API 中转站更强。可只要项目进入正式阶段，你就会发现，这个问题本身问得还不够工程化。更现实的问法通常是：谁适合做主线，谁适合做备线&#xff…...

编程新知 2026/4/18 6:09:35

紧急预警：未建立AI生成代码可信度评估机制的敏捷团队，正面临Sprint Review阶段平均2.8次重大逻辑回滚（附ISO/IEC 23894合规自检表）

第一章：智能代码生成在敏捷开发中的应用 2026奇点智能技术大会(https://ml-summit.org) 智能代码生成正深度融入敏捷开发的迭代闭环，成为提升需求响应速度与交付质量的关键杠杆。它不再仅作为辅助补全工具，而是嵌入用户故事拆解、测试驱动开…...

编程新知 2026/4/18 4:53:24

终极指南：End-To-End加密库实现透明性与防篡改的核心技巧

终极指南：End-To-End加密库实现透明性与防篡改的核心技巧【免费下载链接】end-to-end End-To-End is a crypto library to encrypt, decrypt, digital sign, and verify signed messages (implementing OpenPGP) 项目地址: https://gitcode.com/gh_mirrors/en/en…...

编程新知 2026/4/18 4:25:13

Python百度搜索API开源项目：无限制免费搜索引擎集成的终极解决方案

Python百度搜索API开源项目：无限制免费搜索引擎集成的终极解决方案【免费下载链接】python-baidusearch 自己手写的百度搜索接口的封装，pip安装，支持命令行执行。Baidu Search unofficial API for Python with no external dependencies 项…...

编程新知 2026/4/18 3:54:37

职业院校智慧校园采购怎样才算明智？聊聊性价比与易用性的那些事

✅作者简介：合肥自友科技 📌核心产品：智慧校园平台(包括教工管理、学工管理、教务管理、考务管理、后勤管理、德育管理、资产管理、公寓管理、实习管理、就业管理、离校管理、科研平台、档案管理、学生平台等26个子平台) 。公司所有人员均有多…...

编程新知 2026/4/18 2:08:59

【艺术类EI会议】第五届艺术设计与数字化技术国际学术会议 (ADDT 2026)

第五届艺术设计与数字化技术国际学术会议 (ADDT 2026) 2026 5th International Conference on Art Design and Digital Technology 2026年6月5-7日|中国-成都第五届艺术设计与数字化技术国际学术会议(ADDT 2026)将于2026年6月05-07日在中国成都盛大举办。自2022年创始以来&a…...

编程新知 2026/4/18 1:33:28

M12连接器的工作原理：如何在极端环境下保证信号零丢失

“凡益之道，与时偕行。”在工业现场，这句话往往被换一种方式理解：👉 环境越复杂，连接就越不能出错。我是德索连接器-胡工，日常在工厂里做工业连接器与线束方案。在自动化产线、户外设备、工业控制项目中&a…...

编程新知 2026/4/18 1:29:25

bootstrap怎么实现带有验证状态的表单

需手动在表单控件（input/select/textarea）上添加 is-valid 或 is-invalid 类，并紧邻放置 valid-feedback 或 invalid-feedback 元素作为下一个兄弟节点，配合 blur 或 submit 事件触发验证逻辑。怎么给 Bootstrap 表单控件加 is-va…...

编程新知 2026/4/18 1:04:40

目录