当我被AI大模型骗了之后
我觉得是比较强的多模态大模型
前几天试用了一下Qwen2.5-Omni,对图片识别效果不错。
我一共发了两张比较复杂的图片,识别率在90%以上。
有个坑的地方是,官方宣传的是消费级显卡可部署。
实际呢?
我用了4张3090才部署并流畅运行,每张24G显存。
加起来就是96G显存,才勉强流畅运行。
感觉“被骗了”,其实我原本计划是3090单卡。
根本运行不起来,一种无力感油然而生。
我没测试视频,不清楚视频提问是否流畅。
模型尺寸不大,7B,权重文件一共也就20多G。
看了官方的介绍,感觉视频解析和处理能力也还是可以。
只是对显存要求很高。
如果要对Omni进行微调,可能需要更高的显存和CPU。
我把推理配置放在文末了,如果你想自己尝试推理,可以参考一下。
体验过程
下面是基于Swift框架对Omni进行推理的配置:
更新一下: Swift 3.3已发布正式版,可直接通过pip安装进行推理。
我把原图贴在下面,如果你想测试,可以用来试一下。
推理机器配置:
写代码累了,玩会游戏