Verilog新手也能懂：从4bit到8bit，手把手教你搭建一个完整的移位相加乘法器-创锋一号

Verilog新手也能懂：从4bit到8bit，手把手教你搭建一个完整的移位相加乘法器

记得第一次接触数字电路设计时，最让我困惑的就是如何用硬件描述语言实现数学运算。乘法器作为数字系统中的基础模块，其设计思路往往能反映出硬件设计的精髓。今天，我们就从一个最直观的移位相加法入手，用Verilog搭建一个完整的乘法器系统。

1. 移位相加法的核心思想

想象一下小学时我们如何做乘法：12×34可以分解为12×30 + 12×4。硬件设计中的移位相加法也是类似的思路，只不过全部用二进制来实现。让我们用一个简单的例子来说明：

假设要计算5×3（二进制0101×0011）：

0101左移0位（对应乘数最低位1）→ 0101
0101左移1位（对应乘数第二位1）→ 1010
将这两个移位结果相加：0101 + 1010 = 1111（即十进制的15）

关键点：

每次移位相当于乘以2的n次方
只有当乘数对应位为1时才需要累加该移位结果
整个运算可以分解为若干次移位和加法操作

// 基本移位操作示例 wire [7:0] shifted_1 = {data_a, 1'b0}; // 左移1位 wire [7:0] shifted_2 = {data_a, 2'b0}; // 左移2位

2. 4bit乘法器的实现

2.1 模块接口设计

我们先定义一个4bit乘法器的基本接口：

module mult_4bit ( input [3:0] data_a, // 被乘数 input [3:0] data_b, // 乘数 output [7:0] data_o // 乘积结果 );

为什么输出是8bit？因为两个4bit数相乘的最大值是15×15=225，需要8bit才能表示。

2.2 核心逻辑实现

按照移位相加的思路，我们需要：

生成各个移位版本
根据乘数对应位选择是否保留该移位结果
将所有保留的结果相加

// 生成不同移位版本 wire [4:0] shift_1bit = {data_a, 1'b0}; // 左移1位 wire [5:0] shift_2bit = {data_a, 2'b0}; // 左移2位 wire [6:0] shift_3bit = {data_a, 3'b0}; // 左移3位 // 根据乘数各位选择有效值 wire [3:0] partial_0 = data_b[0] ? data_a : 4'd0; wire [4:0] partial_1 = data_b[1] ? shift_1bit : 5'd0; wire [5:0] partial_2 = data_b[2] ? shift_2bit : 6'd0; wire [6:0] partial_3 = data_b[3] ? shift_3bit : 7'd0; // 累加部分积 wire [7:0] sum_stage1 = partial_0 + partial_1; wire [7:0] sum_stage2 = partial_2 + partial_3; assign data_o = sum_stage1 + sum_stage2;

注意：实际工程中建议使用流水线设计来提高时钟频率，这里为了教学清晰使用了组合逻辑。

2.3 仿真验证

编写测试平台时，建议覆盖以下情况：

边界值（0×0，15×15）
随机组合
特殊组合（如0×任意数）

initial begin // 测试0×0 data_a = 4'd0; data_b = 4'd0; #10; // 测试最大值15×15 data_a = 4'd15; data_b = 4'd15; #10; // 随机测试 for(int i=0; i<10; i++) begin data_a = $random; data_b = $random; #10; end end

3. 从4bit扩展到8bit

3.1 分治思想的应用

8bit乘法器可以看作四个4bit乘法器的组合。将两个8bit数A和B分别拆分为高4位和低4位：

A = A_high * 16 + A_low B = B_high * 16 + B_low A×B = (A_high×B_high)<<8 + (A_high×B_low + A_low×B_high)<<4 + A_low×B_low

3.2 模块化设计

利用已经实现的4bit乘法器作为基础模块：

module mult_8bit ( input [7:0] data_a, input [7:0] data_b, output [15:0] data_o ); wire [7:0] prod_ll, prod_lh, prod_hl, prod_hh; // 四个4bit乘法器实例 mult_4bit u_ll (.data_a(data_a[3:0]), .data_b(data_b[3:0]), .data_o(prod_ll)); mult_4bit u_lh (.data_a(data_a[3:0]), .data_b(data_b[7:4]), .data_o(prod_lh)); mult_4bit u_hl (.data_a(data_a[7:4]), .data_b(data_b[3:0]), .data_o(prod_hl)); mult_4bit u_hh (.data_a(data_a[7:4]), .data_b(data_b[7:4]), .data_o(prod_hh)); // 组合部分积 wire [15:0] part1 = prod_ll; wire [15:0] part2 = {prod_lh + prod_hl, 4'b0}; wire [15:0] part3 = {prod_hh, 8'b0}; assign data_o = part1 + part2 + part3; endmodule

3.3 性能优化考虑

这种设计虽然直观，但存在以下可以优化的地方：

时序优化：
- 四个4bit乘法可以并行执行
- 加法操作可以流水线化
面积优化：
- 可以考虑使用Booth编码等更高效的算法
- 对于特定应用可以权衡精度和资源消耗

关键路径分析：

4bit乘法器延迟：T_mult4
加法器延迟：T_add
总延迟：T_mult4 + 2*T_add

4. 进阶思考与扩展

4.1 不同实现方式的对比

实现方式	优点	缺点	适用场景
移位相加	实现简单，易于理解	速度慢，资源占用多	低速、小位宽应用
Booth算法	速度快，效率高	实现复杂	通用处理器等
Wallace树	并行度高，速度快	布线复杂	高性能计算

4.2 常见问题排查

在实际调试中，可能会遇到以下问题：

结果不正确：
- 检查位宽是否足够（特别是中间结果）
- 验证每个4bit乘法器是否正常工作
- 确认移位操作是否正确
时序违例：
- 考虑插入寄存器实现流水线
- 检查关键路径是否过长
资源占用过多：
- 考虑时间换空间的策略
- 评估是否可以使用DSP块替代

4.3 扩展练习建议

为了加深理解，建议尝试以下扩展：

实现带符号数的乘法器
添加流水线寄存器提高时钟频率
尝试用不同算法（如Booth）实现并对比
扩展到16bit或32bit乘法器

// 简单的流水线示例 always @(posedge clk) begin stage1 <= partial_0 + partial_1; stage2 <= partial_2 + partial_3; final_result <= stage1 + stage2; end

数字电路设计最迷人的地方在于，同样的功能可以有无数种实现方式，每种方式都在速度、面积、功耗等方面有着不同的权衡。当我第一次看到自己设计的乘法器在仿真波形中给出正确结果时，那种成就感至今难忘。希望这个逐步构建的过程能帮助你理解硬件设计的模块化思想——就像搭积木一样，用简单模块构建复杂系统。

企业官网建设流程全解析