+-
本地能跑多大模型,这个开源检测神器爆火!

最近刚入手一台电脑,想在上面跑一个大模型,但不知道自己电脑到底能跑哪个参数的模型。

大多数时候我们只能靠猜,或者看别人发的文章教程,又或者把模型下载下来,直接部署看看。

然后结果是,花了半天时间把几个 G 的模型权重文件下载回来之后,一运行直接爆显存。

好不容易将模型跑了起来,输出又慢得每一秒只蹦一个字,根本用不了,让人心态直接崩。

于是我在 GitHub 上找到一个叫llmfit的开源工具,已经斩获了 27000+ Star。

本地能跑多大模型,这个开源检测神器爆火!

这是一个跑在终端里的小工具,它所干的事很专注,就是帮我们把模型和电脑硬件做个匹配。

第一次安装打开,它就会把电脑的 CPU、内存、显卡型号还有显存等信息,全部获取。

接着把数据库里那几百个模型逐个过一遍,然后列成一张表,按分数从高到低排好。

每一行都写得很清楚,当这个模型部署在我们这台电脑上,到底能跑成什么样。

还会给每个模型打分,主要包括四个维度:质量、速度、适配度,还有上下文长度

质量看的是参数规模和口碑,速度是估出来的生成快慢,适配度看显存用得合不合理,上下文就是看窗口能开多长。

而且不同用途,这几个维度的权重还不一样。比如聊天场景,速度的权重就高一些,推理场景则更看重质量。

本地能跑多大模型,这个开源检测神器爆火!

至于它的速度是怎么评估的?它会获取设备的显卡型号,然后计算每秒大概能出多少 token。

这套估算的方法,作者说是参考过知名工具llama.cpp 的公开跑分的,并不是一股脑随便拍出来的。

不过深入了解之后,发现真正让它跟同类工具拉开差距的,其实还有另外两个功能。

第一个是社区实测排行榜,在终端里运行该工具后,按一下 b 键就能打开。

它内部接了一个社区的跑分库,把跟我们用同款显卡的人,实测出来的数据全部拉了出来。

实际能跑多少 tok/s、第一个字要等多久、显存峰值占了多少,这些全部都是来自真实数据。

毕竟估算再准也只是个理论值,能直接看到同型号显卡的真实表现数据,信任感还是比较强的。

本地能跑多大模型,这个开源检测神器爆火!

另一个是硬件模拟,这个功能也是我比较喜欢的是,只需按 S 键便可以进入。

在这里面,可以手动去改内存、显存、CPU 等配置信息,提前看看能跑哪些模型。

打算重新配置电脑、或想买显卡的朋友,就可以提前来这里模拟看看,到底需要购买什么配置。

还内置了 27 种常见显卡,从 RTX 5090 到苹果的 M 系列都有,选一个就能看大概能跑成什么模型了。

本地能跑多大模型,这个开源检测神器爆火!

除此之外,还有个反着来的Plan 模式,也就是说,我们可以先选一个模型。

然后,让它反推这模型大概需要什么配置的硬件才能跑起来。

下载模型功能也给我们集成了,可对接 Ollama、llama.cpp、LM Studio 等主流本地部署模型工具。

本地能跑多大模型,这个开源检测神器爆火!

至于工具安装就更简单。如果是 Mac 电脑就用用 brew,Windows 用 scoop,更直接的点就用 uvx 运行下面一条命令即可。

uvxllmfit

还有一点值得一提,这个工具是用 Rust 写的,运行在终端里,占用内存很低,不怕运行卡顿。

写在最后

这两年,本地部署模型推理方案,可以说是肉眼可见地变得成熟可靠了。

比如有 Ollama、LM Studio 这些工具把门槛一降再降,开源模型也是不断的涌现。

如今在我看来,就只剩下设备硬件这块了,有设备的人不知道可以部署哪些模型,而没设备的人又不知道该买什么配置。

而 llmfit 所做的事,便是把这些问题给解决了,从靠猜变成一行命令就能查出来的数据。

工具本身并不复杂,但它戳中的,是每个想在本地折腾模型的人,都绕不开的那道门槛。

如今我们这试错的成本降下来了,剩下的精力,可以花在真正有意思的事情上。

GitHub 项目地址:https://github.com/AlexsJones/llmfit

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!