Skip to content

32px ocr model 加快 cpu 推理速度可行性 #1071

@GG2002

Description

@GG2002

我的运行环境是:
CPU: i5-13600k
显卡: 7900xtx

在 CPU 环境下,我跑了 ocr 的 model32px 的各部分耗时。encoder 和 decoder 都问题不大,耗时都是150ms左右,虽然也有优化空间。但是身为 backbone 的 resnet34 处理一张 32x100 的图片竟然要 2s。torch 官方那个 resnet34 只需要50ms 就能跑完。

我不太清楚怎么这么慢,这个 resnet34 也就比 torch 那个多几个 bn 层和卷积层,以及处理顺序有点差异,简直匪夷所思。所以会考虑有空换个 backbone 再练一版模型吗?

PS: 虽然在 7900xtx 下的差距就很小了,这个 resnet34 耗时 3.03ms,官方那个耗时 2.39ms。不知道这个写法什么地方命中了 CPU 优化 G 点了导致这么差劲。

PS: 只是我想把模型丢到我的 E5 cpu 平台去跑才想到这个问题跑来问问,没有催作者的意思()

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions