当前位置：首页 > news >正文

用最简单的方法对大数据进行处理 vs spark（不需要安装大数据处理工具）

news 2026/5/11 21:02:35

一、大文件处理策略

（一）、难点

内存管理：
大文件无法一次性加载到内存中，因为这可能会导致内存溢出（OutOfMemoryError）。

因此，需要使用流（Stream）或缓冲区（Buffer）进行分块读取和处理。
性能优化：
I/O操作效率：频繁的磁盘读写会降低处理速度，优化I/O操作是关键。
CPU使用率：算法的效率直接影响CPU的负载和处理时间。

缓存策略：合理利用缓存可以减少磁盘访问次数，提高性能。
错误处理：
文件不存在、文件损坏、磁盘空间不足等异常情况需要妥善处理，确保程序的健壮性和稳定性。
并发处理：
对于非常大的文件，使用多线程或多进程可以加速处理过程。但这也带来了同步和通信的

复杂性。
分布式处理：在极端情况下，可能需要使用分布式系统来分散负载，但这会引入更多的复杂度和潜在的网络延迟。
数据完整性：
在处理过程中保证数据的完整性和一致性，特别是在进行数据转换或清洗时。
资源回收：
确保及时释放不再需要的资源，如关闭文件流和释放内存，避免资源泄露。
批处理与增量处理：
需要考虑是处理整个文件还是只处理自上次处理以来新增或更改的数据。
日志记录与监控：
记录处理过程中的关键信息，以便于调试和监控处理进度。
安全性：
在处理敏感数据时，需要考虑数据的安全性和隐私保护。
用户交互：
如果处理过程涉及用户界面，需要提供进度指示和取消选项，以增强用户体验。

（二）、方案选择

流式处理
描述：使用流（如 Java 中的 InputStream 和 OutputStream 或 Python 中的 open 函数）逐行或逐块读取和写入文件，而不是一次性加载整个文件到内存中。
优点：低内存占用，适用于任何大小的文件。
适用场景：文件解析、数据清洗、日志分析等。
分块处理
描述：将大文件分割成多个小块，分别处理后再合并结果。
优点：可以并行处理，提高效率；易于故障恢复。
适用场景：大数据分析、大规模数据迁移、文件转换等。
并发/多线程处理
描述：利用多核处理器的能力，通过多线程或进程并行处理文件的不同部分。
优点：显著提升处理速度。
适用场景：高性能计算、实时数据分析。
分布式处理
描述：使用分布式系统（如 Hadoop、Spark）将文件切片分发到多个节点上进行处理。
优点：能够处理PB级别的数据，高度可扩展。
适用场景：大数据分析、机器学习训练、海量数据存储和检索。
云存储和处理
描述：利用云服务提供商的存储和计算资源进行文件处理。
优点：弹性伸缩，按需付费，无需维护硬件。
适用场景：跨地域协作、弹性需求高的项目。
数据压缩和解压
描述：在处理前后对文件进行压缩和解压，减少存储空间和传输时间。
优点：节省存储成本，加快传输速度。
适用场景：长期存储、远程传输大文件。
数据库导入导出
描述：将文件数据导入数据库进行处理，再导出结果。
优点：利用数据库的查询优化和事务处理能力。
适用场景：需要复杂查询和事务支持的场景。
实时流处理
描述：使用流处理框架（如 Apache Kafka、Apache Flink）处理持续生成的数据流。
优点：低延迟，支持实时分析和响应。
适用场景：实时监控、在线广告、物联网数据处理。
专用工具和软件
描述：使用专门设计用于大文件处理的工具和软件，如 WinRAR、7-Zip、Ftrans Sync、Raysync、IBM Aspera 等。
优点：特定功能强大，易于集成。
适用场景：特定领域的文件同步、备份、传输。
硬件加速
描述：利用GPU、FPGA等硬件加速计算密集型任务。
优点：大幅提高计算速度。
适用场景：深度学习、图形渲染、科学计算。

二、大文件处理语言选择（Python vs Java）

（一）、Python的优势

简洁性：Python的语法通常更简洁，易于编写和维护，这在处理大文件时意味着更快的开发周期。
生态系统：Python拥有丰富的库和框架，如Pandas、NumPy、Dask等，这些工具可以高效地处理和分析大量数据。
动态类型：Python的动态类型使得快速原型开发和迭代变得容易，尤其是在探索性数据分析中。
社区支持：Python社区活跃，遇到问题时很容易找到解决方案和资源。

（二）、Java的优势

性能：Java通常在执行速度上有优势，尤其是对于长时间运行的任务，JIT编译器可以优化代码执行。
静态类型：静态类型检查可以在编译时捕获更多错误，有助于构建更健壮的应用程序。
企业级支持：Java在企业环境中更为常见，特别是在处理大规模数据集和分布式系统中，如Hadoop和Spark，这些都是基于Java生态的。
垃圾回收：虽然垃圾回收有时会导致性能下降，但在处理大文件时，良好的内存管理可以防止内存泄漏。

（三）、具体性能对比

I/O操作：Java和Python都可以有效地处理流式I/O，但是Java在某些情况下可能提供更好的I/O性能，特别是当使用NIO（非阻塞I/O）时。
多线程和并发：Java的多线程模型较为成熟，可以更有效地利用多核处理器进行并行处理。Python受到全局解释器锁（GIL）的限制，在多线程CPU密集型任务上表现不佳，但对于I/O密集型任务，如文件读写，多线程仍然有效。
库和框架：Python的科学计算和数据分析库（如Pandas和NumPy）提供了高性能的数组操作和数据结构，而Java则依赖于其强大的标准库和第三方库，如Apache Commons。

（四）、结论

对于数据科学家和需要快速原型开发的场景，Python可能是更优的选择。
对于需要更高执行性能、大规模分布式数据处理或企业级应用，Java可能是更合适的选择。
当涉及到复杂的业务逻辑和需要严格类型检查的场景时，Java的静态类型和丰富的企业级框架可能更有优势。
最终，选择哪种语言取决于具体的需求、团队的技能和项目的长期目标。在某些情况下，可能需要结合使用这两种语言，例如，使用Python进行数据预处理和分析，然后使用Java进行大规模数据处理和部署。

三、大文件处理具体案例

（一）、方案选择

用流式方式处理大文件。允许程序逐行或逐块读取文件，而不需要将整个文件加载到内存中。这种方法特别适合内存有限的情况，因为它只需要足够的内存来处理当前正在读取的部分，从而降低了内存消耗，同时提供了更高的灵活性来处理各种数据格式。

不会跟pandas一样存在内存不足的现象，或者分隔符不支持的情况。

（二）、python流式处理

这个方式处理其实很简单。如果想直接用，只需要修改input_file_path 的文件路径和output_dir_path 输出路径

import os
from datetime import datetimedef split_large_csv(input_file_path, output_dir_path, rows_per_file=10_000_000):# temp_delimiter = '|'  # 选择一个不太可能出现在数据中的字符作为临时分隔符# delimiter="^^"header_written = Falsetry:with open(input_file_path, 'r', encoding='utf-8') as infile:header = infile.readline().strip()  # 读取表头行current_file_number = 0current_row_number = 0outfile = Nonefor line in infile:if current_row_number % rows_per_file == 0:# 开始新文件if outfile is not None:outfile.close()file_name = f"output_{current_file_number}_{datetime.now().strftime('%Y%m%d_%H%M%S')}.csv"outfile = open(os.path.join(output_dir_path, file_name), 'w', encoding='utf-8')if not header_written:  # 只写一次表头outfile.write(header + '\n')header_written = Truecurrent_file_number += 1# 替换原始分隔符为临时分隔符，然后写入文件# line = line.replace(delimiter, temp_delimiter)outfile.write(line)# 增加行计数器current_row_number += 1if outfile is not None:outfile.close()except Exception as e:print(e)# 调用函数
print(datetime.now())
input_file_path = r"G:\***\***.csv"
output_dir_path = r"G:\***\split1_python\\"
split_large_csv(input_file_path, output_dir_path)
print(datetime.now())

如果想更换分隔符可以把注的启动起来,temp_delimiter可以改成你自己想要的。

temp_delimiter = '|'  # 选择一个不太可能出现在数据中的字符作为临时分隔符
delimiter="^^"
line = line.replace(delimiter, temp_delimiter)

处理时间24G左右的文件，大约4分钟左右

2024-07-29 14:44:34.164749
2024-07-29 14:48:29.629815

（三）、java流式处理

这个方式处理其实很简单。如果想直接用，只需要修改INPUT_FILE_PATH 的文件路径和OUTPUT_DIR_PATH 输出路径

package org.springframework.my;import java.io.*;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.text.SimpleDateFormat;
import java.util.Date;public class split_csv {private static final int ROWS_PER_FILE = 10_000_000; // 每个文件的行数private static final String DELIMITER = "^^"; // CSV文件的分隔符private static final String INPUT_FILE_PATH = "G:\***\***.csv";private static final String OUTPUT_DIR_PATH = "G:\***\\split1\\";public static void main(String[] args) {System.out.println(new Date());try (BufferedReader reader = Files.newBufferedReader(Paths.get(INPUT_FILE_PATH))) {PrintWriter writer = null;String line;int currentFileNumber = 0;int currentRowNumber = 0;
//            String headerLine = reader.readLine().replace(DELIMITER, "^"); // 读取表头行String headerLine = reader.readLine(); // 读取表头行while ((line = reader.readLine()) != null) {if (currentRowNumber % ROWS_PER_FILE == 0) {// 开始新文件if (writer != null) {writer.close();}String fileName = "output_" + currentFileNumber + "_" + new SimpleDateFormat("yyyyMMdd_HHmmss").format(new Date()) + ".csv";writer = new PrintWriter(new File(OUTPUT_DIR_PATH + fileName));// 将表头写入新文件writer.println(headerLine);currentFileNumber++;}// 写入当前行到文件writer.println(line);
//                writer.println(line.replace(DELIMITER, "^"));// 增加行计数器currentRowNumber++;}if (writer != null) {writer.close();}} catch (IOException e) {e.printStackTrace();}System.out.println(new Date());}
}

如果想更换分隔符可以把注的启动起来,line.replace(DELIMITER, “^”) 中的"^"可以改成你自己想要的。
处理时间24G左右的文件，大约2分钟左右

Mon Jul 29 15:32:39 CST 2024
Mon Jul 29 15:34:48 CST 2024

（四）、总结

可以感受到以上流式处理方法简单易懂。此外推荐使用java处理大文件分割，比python处理会快很多。有了这个思路之后，可以进行对文件进行其他的加工处理操作了。也可以看到并不是只能用spark等处理大文件。

spark处理大文件文章推荐：
pyspark使用windows单机处理100g以上csv，突破pandas内存限制