当前位置：首页 > news >正文

手动实现 git 的 git diff 功能

news 2026/4/21 5:51:10

这是 git diff 后的效果，感觉挺简单的，不就是比较新旧版本，新增了就用 "+" 显示新加一行，删除了就用 "-" 显示删除一行，修改了一行就用 "-"、"+" 显示将旧版本中的该行干掉了并且新版本中增加了一行，即使用 "删除" + "新增" 操作代替 "修改" 操作，然后就用

然后我们写的测试代码如下：

import com.goldwind.ipark.common.util.MyStringUitls;
import org.apache.commons.text.similarity.LevenshteinDistance;import java.io.BufferedReader;
import java.io.FileReader;
import java.util.ArrayList;
import java.util.List;public class MyDiffTest {public static void main(String[] args) {List<String> lines_old = loadTxtFile2List("C:\\E\\javaCode\\git\\outer_project\\guodiantou\\gdtipark-user-servie\\src\\main\\java\\com\\goldwind\\ipark\\base\\test\\DemoClass1.java" );List<String> lines_new = loadTxtFile2List("C:\\E\\javaCode\\git\\outer_project\\guodiantou\\gdtipark-user-servie\\src\\main\\java\\com\\goldwind\\ipark\\base\\test\\DemoClass2.java");// lines1的起始行和 lines2 的起始行做映射// 扫描旧版本中的每一行int size = lines_old.size();for( int i=0;i<size;i++ ){// 从新版本中找该行String line_old = lines_old.get(i);String line_new = lines_new.get(i);// 如果发现版本中中该行的数据变了，那么提示删除了旧的行，添加了新的行if( line_new.equals( line_old ) ){System.out.println( line_old );}else {System.out.println( "- " + line_old );System.out.println( "+ " + line_new );}}// xxxx        xxxx1          -xxxx// yyyy        yyyy           +xxxx1// xxxxxx      xxxxxx         xxxxxx// zzzz        zzzz           zzzz}private static List<String> loadTxtFile2List(String filePath) {BufferedReader reader = null;List<String> lines = new ArrayList<>();try {reader = new BufferedReader(new FileReader(filePath));String line = reader.readLine();while (line != null) {// System.out.println(line);lines.add( line );line = reader.readLine();}return lines;} catch (Exception e) {e.printStackTrace();return null;} finally {if (reader != null) {try {reader.close();} catch (Exception e) {e.printStackTrace();}}}}
}

其中用到的2个新旧版本的文本如下：

DemoClass1.java：

import com.goldwind.ipark.common.exception.BusinessLogicException;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.text.similarity.LevenshteinDistance;@Slf4j
public class DemoClass1 {private static final LevenshteinDistance LEVENSHTEIN_DISTANCE = LevenshteinDistance.getDefaultInstance();public static String null2emptyWithTrim( String str ){if( str == null ){str = "";}str = str.trim();return str;}public static String requiredStringParamCheck(String param, String paramRemark) {param = null2emptyWithTrim( param );if( param.length() == 0 ){String msg = "操作失败，请求参数 \"" + paramRemark + "\" 为空";log.error( msg );throw new BusinessLogicException( msg );}return param;}public static double calculateSimilarity( String str1,String str2 ){int distance = LEVENSHTEIN_DISTANCE.apply(str1, str2);double similarity = 1 - (double) distance / Math.max(str1.length(), str2.length());System.out.println("相似度：" + similarity);return similarity;}
}

DemoClass2.java：

import com.goldwind.ipark.common.exception.BusinessLogicException;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.text.similarity.LevenshteinDistance;@Slf4j
public class DemoClass2 {private static final LevenshteinDistance LEVENSHTEIN_DISTANCE = LevenshteinDistance.getDefaultInstance();private static final LevenshteinDistance LEVENSHTEIN_DISTANCE1 = LevenshteinDistance.getDefaultInstance();private static final LevenshteinDistance LEVENSHTEIN_DISTANCE2 = LevenshteinDistance.getDefaultInstance();public static String null2emptyWithTrim( String str ){if( str == null ){str = "";}str = str.trim();return str;}public static String requiredStringParamCheck(String param, String paramRemark) {param = null2emptyWithTrim( param );if( param.length() == 0 ){String msg = "操作失败，请求参数 \"" + paramRemark + "\" 为空";log.error( msg );throw new BusinessLogicException( msg );}return param;}public static double calculateSimilarity( String str1,String str2 ){int distance = LEVENSHTEIN_DISTANCE.apply(str1, str2);double similarity = 1 - (double) distance / Math.max(str1.length(), str2.length());System.out.println("相似度：" + similarity);return similarity;}
}

DemoClass2.java 相较于 DemoClass1.java 的区别是 "public class" 后面的类名不同，"private static final LevenshteinDistance LEVENSHTEIN_DISTANC..." 多复制了2行并改了名称，然后运行后显示差别如下：

import com.goldwind.ipark.common.exception.BusinessLogicException;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.text.similarity.LevenshteinDistance;@Slf4j
- public class DemoClass1 {
+ public class DemoClass2 {private static final LevenshteinDistance LEVENSHTEIN_DISTANCE = LevenshteinDistance.getDefaultInstance();
- 
+     private static final LevenshteinDistance LEVENSHTEIN_DISTANCE1 = LevenshteinDistance.getDefaultInstance();
-     public static String null2emptyWithTrim( String str ){
+     private static final LevenshteinDistance LEVENSHTEIN_DISTANCE2 = LevenshteinDistance.getDefaultInstance();
-         if( str == null ){
+ 
-             str = "";
+     public static String null2emptyWithTrim( String str ){
-         }
+         if( str == null ){
-         str = str.trim();
+             str = "";
-         return str;
+         }
-     }
+         str = str.trim();
- 
+         return str;
-     public static String requiredStringParamCheck(String param, String paramRemark) {
+     }
-         param = null2emptyWithTrim( param );
+ 
-         if( param.length() == 0 ){
+     public static String requiredStringParamCheck(String param, String paramRemark) {
-             String msg = "操作失败，请求参数 \"" + paramRemark + "\" 为空";
+         param = null2emptyWithTrim( param );
-             log.error( msg );
+         if( param.length() == 0 ){
-             throw new BusinessLogicException( msg );
+             String msg = "操作失败，请求参数 \"" + paramRemark + "\" 为空";
-         }
+             log.error( msg );
-         return param;
+             throw new BusinessLogicException( msg );
-     }
+         }
- 
+         return param;
-     public static double calculateSimilarity( String str1,String str2 ){
+     }
-         int distance = LEVENSHTEIN_DISTANCE.apply(str1, str2);
+ 
-         double similarity = 1 - (double) distance / Math.max(str1.length(), str2.length());
+     public static double calculateSimilarity( String str1,String str2 ){
-         System.out.println("相似度：" + similarity);
+         int distance = LEVENSHTEIN_DISTANCE.apply(str1, str2);
-         return similarity;
+         double similarity = 1 - (double) distance / Math.max(str1.length(), str2.length());
-     }
+         System.out.println("相似度：" + similarity);
- }
+         return similarity;

为啥？？？

如上两张图片，旧版本的第10行和新版本的第10行对应，从直观上看新版本的第11、12行是在旧版本的第10行和第11行之间插进去的，但是程序并不这么认为，它会认为将旧版本的第11行的空白行修改为了新版本的 “private static final LevenshteinDistance LEVENSHTEIN_DISTANCE1 = LevenshteinDistance.getDefaultInstance();” 为什么我们人眼会这么直观的感觉到新版本的第11、12行时插进去的，因为我们比较了新旧版本的第7、8、9、10行都差不多，旧版本的11~27行和新版本的 13~29行都差不多，所以自然而然的认为新版本的11、12行是直接插进去的，那么现在我们就来算法实现吧！（ ps：前文中的 “差不多” 是差几多？是完全equals 还是很像？”其实这里可以设置一个阈值，使用求字符串的相似度算法求出相似度，网上有现成的类库求相似度，自己也可以使用动态规划写一个简单的字符串相似度算法）

感觉恰当的算法的执行过程应该是这样的：

新旧版本各维持一个行号游标：index_old、index_new，最开始这两个游标相同，越往后可能不同，但是他们表示的行的内容应该是应该相似的，因为新版本的修改会导致内容越来越 “错位”。假设我们从上面2张图片的第7行开始描：

1. 最开始 index_old = index_new = 7，算法检测到新旧版本的第7行的内容相同( 后面我们就尽量用伪代码表示，就不说这么多啰里啰嗦的话了 )，即 lines_old[ 7] = lines_new[ 7]。

2. index_old++，index_new++，都变为8，算法检测到 lines_old[ 8 ] != lines_new[ index_new ]，并且他们的相似度很高，所以算法判断新版本的第8行相较于旧版本的第8行是做了修改操作。

3. index_old++，index_new++，都变为9，算法检测到 lines_old[ 9 ] = lines_new[ 9 ]。

4. index_old++，index_new++，都变为10，算法检测到 lines_old[ 10 ] = lines_new[ 10 ]。

5. index_old++，index_new++，都变为11，算法检测到 lines_old[ 11 ] != lines_new[ 11 ]，并且这两行的文本内容及不相似，所以判断新版本是在旧版本的第11行插入了一行 “private static final LevenshteinDistance LEVENSHTEIN_DISTANCE1 =LevenshteinDistance.getDefaultInstance();”，所以此时旧版本的第11行就和新版本的第11行对应不上了，而是和新版本的第12行做对应。

6. index_old 不变，index_new++，index_old 还是11，index_new 变为 12，即旧版本的第11行要和新版本的第12行做对应，就像找老婆一样，旧7和新7结为了夫妻，旧8和新8结为了夫妻( 虽然有一点点的裂痕，但不打紧 )，新9和新9结为了夫妻，...，所以旧11也要在新版本中找到一个新x作为自己的伴侣，本来已经找到了一个新11，但是发现新11和自己三观差别很大，根本合不来，所以pass掉，继续找，现在发现了下一个相亲对象新12，发现lines_old[ 11 ] 和 lines_new[ 12 ] 相似度还是差别很大，所以算法判断新版本又插入了一个新行 “private static final LevenshteinDistance LEVENSHTEIN_DISTANCE2 = LevenshteinDistance.getDefaultInstance();”。

7. index_old 不变，index_new++，index_old 还是11，index_new 变为 13，因为 lines_old[ 11 ] = lines_new[ 13 ],所以旧11 很幸运的找到了自己的伴侣新13,。

8. index_old++，index_new++，index_old变为12，index_new变为14，因为 lines_old[ 12 ] = lines_new[ 14 ],所以此步未检测到变化。

...

改进后的测试代码如下：

todo

手动实现 git 的 git diff 功能

相关文章：

手动实现 git 的 git diff 功能

RabbitMQ之MQ的可靠性

Navicat 技术指引 | 适用于 GaussDB 的查询编辑器

Jenkins+Maven+Gitlab+Tomcat 自动化构建打包、部署

（2023码蹄杯）省赛（初赛）第三场真题（原题）（题解+AC代码)

第十二章： Spring Boot 日志框架详解

STM32 -Bin/Hex文件格式解析

【Java 进阶篇】Redis：打开缓存之门

Python与设计模式--享元模式

亚马逊云科技向量数据库助力生成式AI成功落地实践探秘（二）

怎么当代课老师教学生

『 MySQL数据库』表的增删查改(CRUD)之表的数据插入及基本查询

Vue中mvvm的作用

基于springboot实现高校食堂移动预约点餐系统【项目源码】

用element ui上传带参数的文件，并用flask接收

[Android]使用Git将项目提交到GitHub

python cv2.imread()和Image.open()的区别和联系

hdlbits系列verilog解答（exams/m2014_q4i）-45

flink源码分析之功能组件(二)-kubeclient

无需API开发，有赞小程序集成广告推广系统，提升品牌曝光

VOOHU：组合电感在多相DC-DC变换器中的选型与应用解析

哇!牛!快来报名“香港科大-哇牛”2026[人工智能]百万奖金国际创业大赛!!!

基于 Qt C++ 开发一套集成阿里通义千问大模型的多模态智能应用终端

VSCode护眼主题终极指南：如何完美复刻Eclipse绿色背景（附详细配置代码）

【Dify 2026插件开发权威指南】：零基础到生产级自定义插件的7大核心实践与避坑清单

为什么你的C# 14 AOT版Dify客户端在ARM64上崩溃？3类NativeAOT互操作雷区+2个[UnmanagedCallersOnly]避坑模板

2026届学术党必备的十大AI写作助手实测分析

SketchUp选择工具全解析：从点选到反选，6种技巧提升建模效率

基于KITTI数据集：从LIO-SAM部署到EVO精度评估全流程解析

别再手动调间距了！用Matlab的tiledlayout函数搞定论文级多图排版（附代码）