OMLX 让你的 OpenClaw 本地模型速度起飞
最近看到很多博主在 Mac mini 上部署🦞“龙虾”,但哪怕是上万块的设备,也普遍面临一个痛点:巨慢无比,问一个问题要等好几分钟。今天,经过一番折腾,我发现了一个能让 16G 丐版 Mac mini 焕发第二春的开源神器。它不仅能提速数十倍,还能高并发跑千万 3.5 4B 模型,而且速度一点都不慢。
如果你也想拯救手里的 Mac 并在本地玩转 Agent,这篇硬核分享你绝对不能错过。
为什么 LM Studio / Ollama 跑 Agent 那么慢?
很多朋友用 LM Studio 或 Ollama 跑 4B 模型时直接被劝退,测试三个问题甚至要花五分钟。这其实不是 Mac 输出速度慢,而是卡在了最耗时的“提示词处理”(Prefill)阶段。
当我们使用类似 Claude Code 或 OpenCloud 这样的 Agent 时,每次发给 AI 的不仅仅是你的问题,还包含了系统提示词、工具描述、MCP 配置等高达 20K token 的上下文。这 20K token 相当于 15000 个英文单词,这就意味着 AI 每次都要重新“读”一遍这篇万字长文才能开始回答。
在 Mac 上,底层计算是用 CPU 做推理的,处理这种庞大的矩阵计算非常吃力,导致你收到第一个字之前起码要等二三十秒。而且目前主流社区对千问 3.5 的前缀缓存支持还不够完美,导致你第二次、第三次提问时,AI 依然要重复这个漫长的等待过程。
OMLX:专为 Agent 时代设计的推理引擎

为了解决这个问题,我挖到了一个目前在 GitHub 上只有 140 多个 Star 的宝藏推理服务器:OMLX。传统的开源生态往往假设单用户场景,缺乏 Agent 时代“高并发”的设计灵魂。而 OMLX 的作者用堪称“杀鸡用牛刀”的生产级架构,完美解决了盖版 Mac 的并发瓶颈。
它主要做了以下几点极其聪明的核心优化:
- 前缀缓存 (Prefix Caching):它能把那 19K 不变的系统提示词和工具描述算好的矩阵直接保存下来,下次直接调用,彻底告别重复读题。
- 突破性的 SSD KV 缓存:当应对 100 个 Agent 请求导致内存/显存告急时,OMLX 能把正在排队的缓存存放到容量大得多的 SSD 上。虽然 SSD 速度不及内存,但比起重新计算 20K token 花费的几十秒,这点读取损耗完全可以忽略不计,换来的是近百倍的效率提升。
- 企业级分页缓存 (Paged Cache):这是类似于 VLM 等顶级推理框架引以为傲的技术。如果你开了 10 个 Claude Code 窗口,它们相同的提示词部分只会在内存中保存一份,只有不一样的问题才会被各自单独存储。
OMLX 极简部署与上手指南

OMLX 的体验就像一个简单版的 LM Studio,但把该优化的核心性能全拉满了。
- 一键安装:前往 GitHub 的 Release 页面下载 DMG 文件,直接拖拽安装即可。
- 初始配置:首次启动会进入 Welcome Stream,设定好你的基础目录 (Base Directory)、模型存放路径、端口和 API Key,点击 Start 即可启动。
- 持久化缓存:它的缓存机制非常硬核,即使重启软件缓存依然存在。下次再开一个新 Session 几乎是秒开,缓存命中率极高。(注:当前版本中文界面有小 bug,每次进入需重新点击切换中文)。
- Agent 无缝接入:配置好模型后,OMLX 会自动生成启动 Cloud Code 的命令行参数。直接复制到终端运行,就能自动触发上下文压缩机制,产品细节做得极其到位。
- 硬核基准测试:软件内置了 Benchmark 工具,你可以直观地测试不同量化模型(如 0.8B)在不同硬件、不同并发量下的生成速度,无论是相同提示词还是不同提示词的连续批处理能力,一测便知。
总结
如果你只是偶尔和 AI 聊聊天,现有的工具完全够用,不用折腾。但如果你是一个有追求的极客,想要在本地多开 Claude Code 榨干 Mac 算力,OMLX 绝对是你必须关注的秘密武器。这个引擎未来绝对会火,现在用起来,你就是最早一批吃上螃蟹的人。