实战经验

365BET 2025-08-17 02:34:01 admin 访问量: 3312 评分: 649

01引言

客户在使用 STM32G474 时，希望使用 FPU 进行浮点运算，并最大化其性能。本文从 STM32G474 系统的角度、ARM DSP Lib、编译选项的影响等几个方面探讨如何提升整体性能，并介绍如何使用 KEIL 工具进行测量。

02STM32G474 FPU 运算性能优化

2.1. STM32G474 系统性能优化

STM32G474 使用的是 ARM Cortex-M4 内核（+FPU）。一般代码会放在 FLASH 区，通过 I-Bus 读取。这里 STM32G474 有 FLASH 预取指及 CACHE Line, 无需放入 IRAM 或 CCM。因为 Cortex-M4 DSP 指令中没有运算指令与加载指令并行的混合指令，所以数据存放区域及 Bus 的选择理论上对性能的影响不大。如下图 1 所示，可将 FPU 运算数据放在 SRAM1。另外还需尽量避免 SRAM 的并发访问，如使能了 DMA，DMA 传输目的地可以使用 SRAM2，从而减少潜在的 SRAM 并发访问产生的性能下降。应用则需要根据实际情况，合理使用内存区域。

12.png (109.85 KB, 下载次数: 5)

下载附件

保存到相册

2024-10-30 16:51 上传

▲ 图1. STM32G474 架构

2.2. ARM DSP Lib 的使用

在 ARM DSP 库实现了很多 math 算法，可进行浮点乘加、点积、卷积、FFT、NN 等多种算法 API，可以使用 ARM DSP 库高效使用 FPU。ARM DSP 代码位置如下：

14.png (183.3 KB, 下载次数: 3)

下载附件

保存到相册

2024-10-30 16:51 上传

2.3. 示例代码

下面示例代码中对浮点乘法运算进行了测试。用户可以使用 STM32CubeMX 生成 STM32G474 KEIL 工程，在 main.c 文件中加入如下示例代码：

__attribute__((section (".TEST_INPUT_A"))) float32_t testInputA[1024] =

{

0.623234f, 0.799049f, 0.940890f, -0.992092f, 0.212035f, 0.237882f, -

1.007763f, -0.742045f,

~~ 这里数组使用动态生成的float数据，数据量较大，略

-0.417470f, -0.205806f, -0.174323f, 0.217577f, 1.684295f, 0.119528f,

0.650667f, 2.080061f

};

__attribute__((section (".TEST_INPUT_B"))) float32_t testInputB[1024] =

{

-2.423957f, -0.223831f, 0.058070f, -0.424614f, -0.202918f, -1.513077f, -

1.126352f, -0.815002f,

~~ 这里数组使用动态生成的float数据，数据量较大，略

-0.447001f, -0.725993f, 0.354045f, -0.506772f, -2.103747f, -0.664684f, 1.450110f, -0.329805f

};

__attribute__((section (".TEST_RESULT_D"))) float32_t testResult[1024];

float32_t* pA;

float32_t* pB;

float32_t* pR;

/* Private user code --------------------------------------------------*/

/* USER CODE BEGIN 0 */

void test_normal_mul(uint32_t kLoops, float32_t*

pSrcA, float32_t* pSrcB, float32_t*

pResult, uint32_t lenVector)

{

for (uint32_t j = 0; j < kLoops; j++)

{

pA = pSrcA;

pB = pSrcB;

pR = pResult;

for (uint32_t i = 0; i < lenVector; i++)

{ *pR++ = (*pA++) * (*pB++) ;

}

#if defined (__FPU_USED) && (__FPU_USED == 1U)

/* Use arm dsp lib to test basic operation Multiply, FPU enabled */

void test_arm_math_mul(uint32_t kLoops, float32_t* pSrcA, float32_t* pSrcB, float32_t*

pResult, uint32_t lenVector)

{

for (uint32_t j = 0; j < kLoops; j++)

{

pA = pSrcA; //Code alignment with the function without FPU

pB = pSrcB;

pR = pResult;

arm_mult_f32(pA, pB, pR, lenVector);

}

#endif

/**

* @brief The application entry point.

* @retval int

int main(void)

{

/* MCU Configuration------------------------------------------------*/

/* Reset of all peripherals, Initializes the Flash interface and the Systick. */

HAL_Init();

/* Configure the system clock */

SystemClock_Config();

…

HAL_Delay(100);

/* USER CODE BEGIN 2 */

test_normal_mul(10, testInputA, testInputB, testResult, 1024);

#if defined (__FPU_USED) && (__FPU_USED == 1U)

// Multiply calculation with arm dsp lib

test_arm_math_mul(10, testInputA, testInputB, testResult, 1024);

#endif

/* USER CODE END 2 */

/* Infinite loop */

/* USER CODE BEGIN WHILE */

while (1)

{

/* USER CODE END WHILE */

/* USER CODE BEGIN 3 */

}

/* USER CODE END 3 */

}复制代码2.4. 工程配置

通过 KEIL 工程 Options / Target, Floating Point Hardware, 确定 FPU On/Off。

15.png (238.92 KB, 下载次数: 4)

下载附件

保存到相册

2024-10-30 16:51 上传

▲ 图3. KEIL 项目工程 FPU 单精度浮点设置通过 STM32G474_FPU_TEST.sct 文件配置 Data 存放区域，如下例，将测试数据置于 SRAM2。

RW_IRAM1 0x20000000 0x00014000 { ; RW data

.ANY (+RW +ZI)

}

RW_IRAM2 0x20014000 0x00004000 {

*(.TEST_INPUT_A)

*(.TEST_INPUT_B)

*(.TEST_RESULT_D)

}

RW_CCM 0x20018000 0x00008000 {

}复制代码完成后，进行编译链接，即可进行 STM32G474 FPU 性能的测试。

2.5. 编译选项

本文中我们使用的是 KEIL IDE，设置使用的是 KEIL Compiler V5。为了获得代码最大程度上优化，我们使用了-O3 优化选项，与-Otime（Optimize for Time）结合使用。该组合选项意味着会进行更多代码优化，如循环展开，更激进的函数内联和自动函数内联（-O3 默认使用--autoinline）等，当然副作用是二进制代码大小会有所增加。另外，增加设置 --loop_optimization_level=2 来控制循环展开的优化等级。（注意：-- loop_optimization_level=2 选项只能与-O3 -Otime 一起使用。）如果您对 FPU 架构比较熟悉，也可以尝试增加—fpu=fpv4-sp（Cortex-M4F FPU 实现的是 FPv4-SP 浮点运算扩展）等选项，不过一般使用默认即可。

16.png (263.77 KB, 下载次数: 3)

下载附件

保存到相册

2024-10-30 16:51 上传

▲ 图4. KEIL 工程，编译选项设置03使用 KEIL Trace 工具进行测量

3.1. KEIL 工程设置

KEIL 工程下，首先选择工程选项设置，在 Debug 选项页中，右上部使用 Debugger 工具栏中选 Settings，如下图 5 和图 6 设置。注意 KEIL Trace 设置的时钟必须要与实际 STM32 使用的系统时钟相一致，如图 6 中，STM32G474 使用了 170MHz 的系统时钟， KEIL Trace 中也要相应设置为 170MHz。

17.png (268.71 KB, 下载次数: 4)

下载附件

保存到相册

2024-10-30 16:51 上传

▲ 图5. KEIL 工程，Debugger 设置入口

18.png (238.72 KB, 下载次数: 4)

下载附件

保存到相册

2024-10-30 16:51 上传

▲ 图6. KEIL 工程，Cortex-M Trace 功能设置运行KEIL debugger，如下图7所示，将断点设置在要测量的语句前及其后，执行代码，当Debugger停在断点时，其状态栏中t1指示的即为当前代码的已执行时间。测试代码起止时间差即为代码执行用时。该Trace功能计时是比较准确的。当然如果您希望掌控更多，也可以通过代码来实现，如增加诸如如下代码：

nStart = DWT->CYCCNT;

~~~需测试执行时间的代码~~~

nStop = DWT->CYCCNT;

然后用(nStop – nStart)/系统时钟，换算成时间即可。（我们这里没有考虑中断，一般测量前需要禁用中断）

19.png (233.59 KB, 下载次数: 4)

下载附件

保存到相册

2024-10-30 16:51 上传

▲ 图7. KEIL 工程，Debug 模式下 Trace 程序执行时间 3.2. 测试结果

下表列出了STM32G474 10K次浮点“乘”用时统计。

20.png (115.23 KB, 下载次数: 4)

下载附件

保存到相册

2024-10-30 16:51 上传

▲ 表1. STM32G474 10K 次浮点“乘”用时统计表10 X 1024次浮点乘

增加--loop_optimization_level=2 编译选项

FPU 核心汇编代码的比较，见图8和图9。

21.png (418.25 KB, 下载次数: 4)

下载附件

保存到相册

2024-10-30 16:54 上传

▲ 图8. 使用--loop_optimization_level=2 编译选项的常规代码汇编

22.png (643.36 KB, 下载次数: 4)

下载附件

保存到相册

2024-10-30 16:54 上传

▲ 图9. ARM DSP 库 arm_mult_f32 函数汇编

使用loop_optimization_level=2, 常规代码使用KEIL compiler V5编译结果与 arm DSP Lib 的核心汇编基本相同。如果不使用loop_optimization_level=2编译选项，则可以看到其主要区别在于KEIL Compiler V5 与ARM库对loop的unroll 处理程度不同。在实际应用时，需要根据应用自身需求判断是否需要使用ARM DSP Lib，基本上 ARM DSP Lib是很高效的。

04小结

本文介绍了使用 STM32G474 FPU 进行浮点运算，从系统的角度、ARM DSP Lib、编译选项的影响等几个方面探讨如何提升整体性能，并介绍了如何利用 KEIL Trace 工具进行测量。以供在系统性能方面有需求的客户参考借鉴。

如果你有其他想要的实战笔记，可评论区留言，管管来跟工程师沟通！

← 垭口的数量怎么测量和计算？ xp系统怎么正确安装.net framework 2.0|xp系统安装.net framewor →

实战经验

相关数据

正在阅读：流放之路暗金地图贼窝打法攻略流放之路暗金地图贼窝打法攻略

【图】男士呢子大衣配什么鞋及时了解避免踩雷区

供的多音字组词

企业办公软件哪个好用-2024企业办公软件盘点推荐[多图]

阴阳师鬼火角哪里多鬼火角位置攻略

天谕神格系统攻略:神格获取方式大盘点

阴阳师鬼火角哪里多鬼火角位置攻略

世界杯C和D组小组赛第三轮预测：丹麦胜澳大利亚，阿根廷平丹麦？

十大好用的dj打碟软件手机打碟app哪个好 dj打碟模拟器推荐→MAIGOO生活榜

友情链接