32px ocr model 加快 cpu 推理速度可行性

我的运行环境是：
CPU: i5-13600k
显卡: 7900xtx

在 CPU 环境下，我跑了 ocr 的 model32px 的各部分耗时。encoder 和 decoder 都问题不大，耗时都是150ms左右，虽然也有优化空间。但是身为 backbone 的 resnet34 处理一张 32x100 的图片竟然要 2s。torch 官方那个 resnet34 只需要50ms 就能跑完。

我不太清楚怎么这么慢，这个 resnet34 也就比 torch 那个多几个 bn 层和卷积层，以及处理顺序有点差异，简直匪夷所思。所以会考虑有空换个 backbone 再练一版模型吗？

PS: 虽然在 7900xtx 下的差距就很小了，这个 resnet34 耗时 3.03ms，官方那个耗时 2.39ms。不知道这个写法什么地方命中了 CPU 优化 G 点了导致这么差劲。

PS: 只是我想把模型丢到我的 E5 cpu 平台去跑才想到这个问题跑来问问，没有催作者的意思（）

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

32px ocr model 加快 cpu 推理速度可行性 #1071

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Uh oh!

32px ocr model 加快 cpu 推理速度可行性 #1071

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions