該領域撞到了技術懸崖。兩種認知架構都需要基本的重組。
兩種模型都不可靠,錯誤率很高,不適合有意義的任務。
Gemma-2-9B-it有一些局限性,但對於簡單任務仍然有效。 Step-1-8K經常失敗,對於有意義的推理無效。