当前位置: 首页 > article >正文

从单周期到五级流水:手把手教你用Verilog搭建一个最简单的LoongArch CPU(附完整代码)

从单周期到五级流水手把手教你用Verilog搭建一个最简单的LoongArch CPU第一次接触CPU设计时看着那些复杂的流水线结构图我完全摸不着头脑。直到自己动手用Verilog从零开始实现一个单周期CPU再逐步演进到五级流水线才真正理解了计算机体系结构的精妙之处。本文将带你完整走一遍这个学习过程用最直观的方式掌握CPU设计的核心思想。1. 准备工作认识LoongArch与设计工具LoongArch是近年来兴起的一种精简指令集架构(RISC)其设计理念与MIPS类似但更加现代化。选择它作为学习对象有几个优势指令集精简基础指令不到100条学习曲线平缓文档丰富官方提供了详细的参考手册和示例代码实践性强可以直接在FPGA上运行验证开发环境配置# 推荐使用以下工具链 iverilog -v # Icarus Verilog仿真器 gtkwave # 波形查看工具硬件描述语言我们选择Verilog因为它语法相对简单适合初学者仿真工具链成熟被业界广泛采用2. 单周期CPU理解计算机的基本工作原理单周期CPU是最基础的设计所有指令在一个时钟周期内完成。虽然效率低但非常适合教学。2.1 核心部件设计一个最简单的CPU需要这些组件部件功能描述Verilog模块示例PC寄存器保存下条指令地址reg [31:0] pc指令存储器存储程序指令reg [31:0] inst_mem[0:1023]寄存器堆32个通用寄存器reg [31:0] reg_file[0:31]ALU算术逻辑运算单元下文详细实现2.2 数据通路实现关键数据流动路径// 取指阶段 wire [31:0] inst inst_mem[pc2]; // 译码阶段 wire [4:0] rs1 inst[19:15]; wire [4:0] rs2 inst[24:20]; wire [4:0] rd inst[11:7]; wire [31:0] rs1_data reg_file[rs1]; wire [31:0] rs2_data reg_file[rs2]; // 执行阶段 wire [31:0] alu_result alu(rs1_data, rs2_data, alu_op); // 写回阶段 always (posedge clk) begin if (reg_write_en) reg_file[rd] alu_result; pc pc 4; end注意单周期设计下时钟周期必须足够长以完成最复杂指令这导致性能低下。3. 流水线原理性能提升的关键技术流水线就像工厂的装配线将指令执行分成多个阶段并行处理。五级流水线典型划分IF取指令ID指令译码EXE执行运算MEM数据存取WB结果写回3.1 流水线寄存器设计各阶段间需要寄存器保存中间结果// IF/ID流水线寄存器 reg [31:0] id_pc; reg [31:0] id_inst; always (posedge clk) begin if (!stall) begin id_pc if_pc; id_inst if_inst; end end3.2 流水线冲突与解决虽然我们暂时不考虑冲突处理但需要了解三类主要冲突结构冲突硬件资源争用数据冲突数据依赖关系控制冲突分支指令导致4. 五级流水线实现从理论到实践让我们分阶段实现这个LoongArch流水线CPU。4.1 取指阶段(IF)module if_stage( input clk, input reset, input [31:0] br_target, input br_taken, output [31:0] pc, output [31:0] inst ); reg [31:0] pc_reg; wire [31:0] next_pc br_taken ? br_target : pc_reg 4; always (posedge clk) begin if (reset) pc_reg 32h1c000000; else pc_reg next_pc; end assign pc pc_reg; inst_rom u_inst_rom(.addr(pc[31:2]), .data(inst)); endmodule4.2 译码阶段(ID)这个阶段需要解析指令字段读取寄存器堆生成控制信号wire [6:0] opcode id_inst[6:0]; wire [2:0] funct3 id_inst[14:12]; wire [6:0] funct7 id_inst[31:25]; // 控制信号生成 always (*) begin case(opcode) 7b0110011: begin // R-type reg_write_en 1b1; alu_src 2b00; mem_write 1b0; end // 其他指令类型... endcase end4.3 执行阶段(EXE)ALU是这一阶段的核心module alu( input [31:0] a, b, input [3:0] alu_op, output reg [31:0] result ); always (*) begin case(alu_op) 4b0000: result a b; // ADD 4b0001: result a - b; // SUB 4b0010: result a b; // AND // 其他ALU操作... default: result 32b0; endcase end endmodule4.4 访存阶段(MEM)module mem_stage( input clk, input mem_read, input mem_write, input [31:0] addr, input [31:0] write_data, output [31:0] read_data ); data_ram u_data_ram( .clk(clk), .we(mem_write), .addr(addr[31:2]), .din(write_data), .dout(read_data) ); endmodule4.5 写回阶段(WB)always (posedge clk) begin if (reg_write_en) begin if (mem_to_reg) reg_file[write_reg] mem_data; else reg_file[write_reg] alu_result; end end5. 系统集成与测试将各阶段模块连接起来module cpu_top( input clk, input reset ); // 各阶段间连线 wire [31:0] if_pc, if_inst; wire [31:0] id_pc, id_inst; wire [31:0] exe_alu_result; // ...其他信号 // 实例化各阶段 if_stage u_if_stage(.clk(clk), .reset(reset), /*...*/); id_stage u_id_stage(.clk(clk), .reset(reset), /*...*/); // ...其他阶段 endmodule测试程序示例main: addi x1, x0, 10 # x1 10 addi x2, x0, 20 # x2 20 add x3, x1, x2 # x3 x1 x2 sw x3, 0(x0) # 存储结果在仿真中观察波形确认各寄存器值变化符合预期。第一次看到自己设计的CPU正确执行程序时那种成就感是无与伦比的。

相关文章:

从单周期到五级流水:手把手教你用Verilog搭建一个最简单的LoongArch CPU(附完整代码)

从单周期到五级流水:手把手教你用Verilog搭建一个最简单的LoongArch CPU 第一次接触CPU设计时,看着那些复杂的流水线结构图,我完全摸不着头脑。直到自己动手用Verilog从零开始实现一个单周期CPU,再逐步演进到五级流水线&#xff0…...

透明计费与用量分析 Taotoken 如何让每一分 token 消耗都清晰可见

透明计费与用量分析 Taotoken 如何让每一分 token 消耗都清晰可见 1. 用量数据的颗粒度呈现 Taotoken 控制台的用量分析模块提供了多维度的数据展示能力。开发者可以按项目、API Key 或模型类型筛选查看 token 消耗情况,时间维度支持按小时、天、周或自定义区间统…...

告别Steam客户端!WorkshopDL让你轻松下载创意工坊资源的终极指南

告别Steam客户端!WorkshopDL让你轻松下载创意工坊资源的终极指南 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 你是否曾经因为Steam客户端占用太多系统资源而感到…...

AD软件破解版在办公室局域网总报错?可能是这个‘LAPTOP-F99R6OR1’在搞鬼,3步自查与解决

电子设计软件局域网许可冲突的排查与解决方案 办公室里突然弹出"您的许可证已在计算机LAPTOP-F99R6OR1上使用"的报错,让正在赶项目的工程师措手不及。这种许可冲突在共享网络环境中并不罕见,尤其当团队成员使用相同来源的安装包时。本文将深入…...

3步解密微信聊天记录:轻松恢复被加密的珍贵数据

3步解密微信聊天记录:轻松恢复被加密的珍贵数据 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 你是否曾因手机损坏或微信重装而焦急地寻找丢失的聊天记录?当那些包含重要工作资料…...

蓝桥杯备赛避坑指南:从“彩灯控制器”真题看STC单片机开发中的5个常见误区

蓝桥杯单片机实战避坑手册:STC15开发中的5个致命陷阱与优化方案 第一次接触蓝桥杯单片机赛题时,看着"彩灯控制器"这类看似简单的题目,很多同学会陷入"代码能跑就行"的误区。直到赛场上出现数码管闪烁、按键失灵、模式切换…...

TMS320F28xxx DSP开发踩坑记:手把手教你解决‘内存放不下’的#10099-D报错

TMS320F28xxx DSP内存优化实战:从报错#10099-D到链接器脚本精调 第一次在Code Composer Studio的编译输出窗口看到"#10099-D program will not fit into available memory"这个鲜红的错误提示时,我盯着屏幕足足愣了三分钟。作为刚从STM32转向T…...

Python文件自动分类整理工具:从规则引擎到安全实践

1. 项目概述:为什么我们需要一个智能文件整理器? 在数字时代,我们的硬盘、云盘和各类存储设备里塞满了文件。照片、文档、下载的软件、工作资料、个人收藏……它们往往像一场风暴过后,杂乱无章地堆积在“下载”或“桌面”文件夹里…...

【研发类-AI和ML开发Skills】advanced-evaluation 技能

本技能用于实现LLM作为评判者的生产级评估技术。当用户要求"实现LLM-as-judge"、"比较模型输出"、"创建评估标准"、"缓解评估偏差",或提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估时,应使用此技…...

别再死记硬背了!用这套‘一声二声’口诀,5分钟搞定26个字母自然拼读发音

5分钟掌握英语自然拼读的黄金法则:声调定位法解密 当孩子第一次面对英语单词时,字母与发音之间的神秘联系往往成为最大的障碍。传统的逐个字母记忆法不仅效率低下,更让学习者陷入"学完就忘"的恶性循环。经过多年教学实践&#xff0…...

DolphinDB分布式表:创建与管理

目录摘要一、分布式表概述1.1 什么是分布式表1.2 分布式表特点1.3 分布式表 vs 内存表二、创建分布式表2.1 创建分布式数据库2.2 创建分布式表2.3 创建维度表三、数据写入3.1 批量写入3.2 并行写入3.3 流式写入四、数据查询4.1 基本查询4.2 分区裁剪4.3 聚合查询4.4 分布式计算…...

VOFA+不止看波形:手把手教你搭建PID算法自动化测试与数据记录平台

VOFA实战:构建PID算法自动化测试与数据分析工作流 调试PID控制器就像在黑暗房间里寻找电灯开关——你永远不知道下一次调整会带来更亮的光明还是彻底的黑暗。传统的手动调参方式不仅效率低下,更难以系统性地评估参数组合对系统性能的影响。本文将带你用V…...

YOLOV8语义分割注意力机制改进:全网首发--使用ACA跨分支注意力增强特征表达(方案3)

1. 工程简介 🚀 本工程基于 Ultralytics 框架扩展,面向语义分割与 YOLO 系列模型改进实验。核心特点是通过切换 yaml 配置文件,即可快速完成不同网络结构的训练、对比与验证,无需为每个模型单独编写训练脚本。 当前已支持的主要模型家族 🧩 语义分割模型:UNet、UNet+…...

Python文件自动分类整理工具:基于规则引擎与插件化架构实现

1. 项目概述:告别混乱,让文件管理自动化如果你和我一样,每天都要和电脑里堆积如山的文件打交道,那么“文件管理”这四个字,大概率会引发一阵头疼。下载文件夹里塞满了从网页上随手保存的图片、文档、压缩包&#xff0c…...

NVIDIA Profile Inspector 终极指南:3个步骤解锁显卡隐藏性能

NVIDIA Profile Inspector 终极指南:3个步骤解锁显卡隐藏性能 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 如果你正在寻找一种方法来深度优化NVIDIA显卡的游戏性能,那么NVIDI…...

Nintendo Switch大气层1.7.1:解锁游戏主机无限潜能的完整指南

Nintendo Switch大气层1.7.1:解锁游戏主机无限潜能的完整指南 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 想让你手中的Switch游戏机拥有更多神奇功能吗?&#x…...

文本生成结构化数据:rookie_text2data项目解析与应用实践

1. 项目概述与核心价值最近在数据科学和机器学习社区里,一个名为jaguarliuu/rookie_text2data的项目引起了我的注意。乍一看这个标题,你可能会觉得它又是一个“文本转数据”的工具,但当我深入探究其代码和设计理念后,发现它远不止…...

PDF转Markdown工具:原理、实现与应用实践

1. 项目概述:从PDF到Markdown的优雅转换如果你经常需要处理技术文档、论文或者从网上下载的电子书,那你一定对PDF这种格式又爱又恨。爱的是它格式稳定,在任何设备上打开都一个样;恨的是它内容封闭,想从中提取文字、代码…...

QTTabBar深度解析:Windows资源管理器标签化扩展的架构设计与实战指南

QTTabBar深度解析:Windows资源管理器标签化扩展的架构设计与实战指南 【免费下载链接】qttabbar QTTabBar is a small tool that allows you to use tab multi label function in Windows Explorer. https://www.yuque.com/indiff/qttabbar 项目地址: https://git…...

CubeMX配置FreeRTOS的隐藏坑点:为什么你的HAL库时钟源必须改?

CubeMX配置FreeRTOS的隐藏坑点:为什么你的HAL库时钟源必须改? 在STM32开发中,CubeMX和FreeRTOS的组合堪称黄金搭档,但当你第一次在CubeMX中启用FreeRTOS时,可能会被一个黄色警告吓到:"建议为HAL库选择…...

UniQL框架:LLM模型边缘端高效压缩与部署实战

1. 项目背景与核心价值在大型语言模型(LLM)应用爆发式增长的今天,模型部署的硬件门槛成为制约技术落地的关键瓶颈。UniQL框架的诞生直击这一痛点——它通过创新的压缩技术,让参数量庞大的LLM模型能够在手机、嵌入式设备等边缘端高…...

老设备改造实战:用一台闲置的西门子200PLC+步进驱动器,给老旧设备加装简易定位功能

老设备改造实战:用闲置西门子200PLC步进驱动器实现简易定位功能 在工业车间里,那些服役多年的老设备往往因为缺乏自动化功能而逐渐被边缘化。但事实上,通过巧妙的改造,这些"老伙计"完全可以焕发新生。本文将分享一个真实…...

CVAT 3D标注实战:手把手教你用长方体标注点云数据(附Velodyne格式处理)

CVAT 3D标注实战:从Velodyne点云到精准长方体标注的全流程解析 在自动驾驶和机器人感知领域,3D点云数据的精确标注是模型训练的基础环节。CVAT作为开源的计算机视觉标注工具,其3D标注功能为处理激光雷达数据提供了专业解决方案。本文将深入探…...

2026反爬终极防线:JA4+指纹检测全解析,90%爬虫的致命克星

在爬虫与反爬的永恒对抗中,技术的迭代速度永远超出想象。从最基础的IP封禁、User-Agent校验,到Cookie追踪、行为分析,再到曾经不可一世的JA3 TLS指纹检测,每一代反爬技术的出现都曾让大批爬虫失效。 进入2026年,一种名…...

AI技能包安全审查:静态分析与启发式规则实践

1. 项目概述:一个轻量级的AI技能包安全审查工具最近在折腾一些AI Agent相关的项目,比如OpenClaw这类开源框架,发现一个挺有意思的痛点:当你需要给AI系统“安装”或“上传”新的技能(Skill)时,这…...

工业级实战:基于YOLOv11的设备指示灯与按键状态识别全流程

在工业自动化领域,设备状态点检是保障生产安全、预防设备故障的核心环节。传统的人工点检方式存在效率低、主观性强、漏检率高、无法24小时连续作业等诸多痛点,尤其在高危、高噪音、高辐射的恶劣环境下,人工点检更是面临巨大的安全风险。 随着…...

Claude Skills深度解析:如何通过技能包将AI助手升级为专业生产力工具

1. 项目概述:Claude Skills 是什么,以及它能解决什么问题如果你和我一样,日常重度依赖 Claude 这类 AI 助手来处理工作流,那你肯定也遇到过类似的瓶颈:Claude 很聪明,但有时候它处理特定、复杂任务的方式&a…...

Claude Code插件生态中心Build with Claude:一站式AI编程助手增强平台

1. 项目概述:Claude Code的插件生态中心如果你和我一样,日常开发重度依赖Claude Code,那你肯定遇到过这样的场景:想找个能自动生成符合规范的Git提交信息的命令,或者需要一个精通Python性能优化的专家级Agent来审查代码…...

TTRV方法:视觉语言模型的测试时强化学习技术

1. 项目概述TTRV(Test-Time Reinforcement for Vision-language models)方法是近期在视觉语言模型领域兴起的一种创新性技术思路。简单来说,它让模型在测试阶段也能持续学习和优化,就像人类在实际应用中不断调整自己的判断一样。我…...

LLM智能体决策中的不确定性量化与优化实践

1. 不确定性量化:智能体决策的基石问题当大型语言模型(LLM)作为智能体的"大脑"参与决策时,其输出的不确定性就像天气预报中的降水概率——知道"明天下雨概率70%"比单纯判断"会下雨"包含更多决策价值…...