-
-
Notifications
You must be signed in to change notification settings - Fork 882
Open
Description
我的运行环境是:
CPU: i5-13600k
显卡: 7900xtx
在 CPU 环境下,我跑了 ocr 的 model32px 的各部分耗时。encoder 和 decoder 都问题不大,耗时都是150ms左右,虽然也有优化空间。但是身为 backbone 的 resnet34 处理一张 32x100 的图片竟然要 2s。torch 官方那个 resnet34 只需要50ms 就能跑完。
我不太清楚怎么这么慢,这个 resnet34 也就比 torch 那个多几个 bn 层和卷积层,以及处理顺序有点差异,简直匪夷所思。所以会考虑有空换个 backbone 再练一版模型吗?
PS: 虽然在 7900xtx 下的差距就很小了,这个 resnet34 耗时 3.03ms,官方那个耗时 2.39ms。不知道这个写法什么地方命中了 CPU 优化 G 点了导致这么差劲。
PS: 只是我想把模型丢到我的 E5 cpu 平台去跑才想到这个问题跑来问问,没有催作者的意思()
Metadata
Metadata
Assignees
Labels
No labels