模型对比 | RPDiag

测试说明点击展开 5 步 quick-probe-v1 详解

同一会话连续 5 步，覆盖 5 个独立信号： 1. ping/pong —— 单字指令遵循 + 建立缓存上下文。 2. 身份（结构化）—— 三行 vendor / brand / model 格式，机器可解析。 3. 知识截止 —— 跨越 5 分钟 cache 边界后追问，检测 sliding 5m cache 是否真正命中。 4. 身份（自由格式）—— 自然语言自报身份，给包装层（Kiro 等）暴露品牌的机会。 5. 世界知识层级 —— 5 道公共事件硬事实题，按答对档位映射实测 tier，与请求模型对照。步与步之间随机延迟 1–4 分钟。第 3 步（cutoff）累计跨度 > 5 分钟保住 sliding cache 检测；全流程总跨度 > 6 分钟容纳新增的第 5 步。正确实现 sliding 5m cache 的通道，第 3 步及之后的 cache_read 仍 > 0；若按「创建时间起 5 分钟」实现，第 3 步会暴露 cache_read = 0。

2 通道 · 5 步骤

2026/06/04 运行日期

claude-haiku-4-5-20251001 官方基准

4 任务失败执行不完整

已揭晓揭晓进度

⚠ 3 通道不可测 · 已从主对比表移除点击展开原因

TopRouterCN / O-Max
```
评测失败
```
DBAI / M-
```
评测失败
```
Novaris / O-Max
```
评测失败
```

步骤 / 指标

Tokaify

M-AWS

官方基准

通道不可用

基本信息

服务名

Claude Code

模型

claude-haiku-4-5-20251001

客户端

claude-cli v2.1.160

偏差标红基于官方基准

综合结论

与基线相似度

官方基准失败，本组不评分

基准（参考）

维度雷达

—

基准无指纹

平均延迟

6407 ms

输出速度

145.0 tok/s

完成步骤

5/5 成功

0/5 成功 · 1 失败 · 4 跳过

按官方价目重估

同等内容若直发 Anthropic 的估算 ⓘ

$0.0651

$0.0000 (部分)

缓存读取占比 ⓘ

80%

- (部分)

揭晓

通道

服务商 Tokaify ↗

通道M-AWS

官方基准

返回列表