Grok-3持有智能基線。 Step-1-8K由於獎勵黑客問題而失去基本認知能力。
Grok-3提供平均語言輸出; Step-1-8K在基本的通信任務中經常失敗。
這兩個模型在推理和計算方面都是不足的,經常失敗,無法處理實際的分析任務。