**Describe the bug** <img width="1300" height="748" alt="Image" src="https://github.com/user-attachments/assets/ec5371a8-0da2-405e-bd83-0ff0060d9164" /> 源码中的参数支持传入audio,但是函数内部断言仅仅可以输入 image、video