Maison

Modèle multimodal

LLaVA-OneVision-7B (SI) VS SmolVLM-Instruct

Nom du modèle	Plateforme	Temps de libération	Quantité de paramètre de modèle	Score complet
LLaVA-OneVision-7B (SI)	ByteDance	1 mars 2025	8B	3.0
SmolVLM-Instruct	HuggingFace	1 mars 2025	2.3B	1.7

Faites glisser vers la gauche et la droite pour voir plus

Brève comparaison de LLaVA-OneVision-7B (SI) vs SmolVLM-Instruct Modèles AI

Évaluation complète

Les deux modèles obtiennent de mauvais résultats en raisonnement multimodal, avec une mauvaise interprétation grave des détails visuels et un raisonnement illogique, indiquant un niveau global de capacité faible.

Raisonnement multimodal

Both LLaVA-OneVision-7B (SI) and SmolVLM-Instruct are weak in multimodal reasoning, exhibiting severe misinterpretation of visual information and shallow, chaotic cross-modal reasoning, with capabilities at a low level.

Création multimodale

LLaVA-OneVision-7B (SI) et SmolVLM-Instruct sont faibles en création multimodale avec une forte déconnexion visuelle-linguistique et une créativité superficielle chaotique, avec un niveau de capacité faible。