Gemini-1.5-Pro持有智能基線。 Step-1-8K由於獎勵黑客問題而失去基本認知能力。
兩種模型都不可靠,錯誤率很高,不適合有意義的任務。
Gemini-1.5-Pro有一些局限性,但對於簡單任務仍然有效。 Step-1-8K經常失敗,對於有意義的推理無效。