Hogar
El modelo de código abierto Seed-OSS-36B de ByteDance admite un contexto de token de 512K

TikTok vuelve a ser noticia después de que la Casa Blanca se uniera a la popular plataforma de redes sociales, pero su empresa matriz ByteDance, una importante firma tecnológica china, también ha hecho un anuncio sorpresa.
La unidad de investigación de IA de la empresa, Seed Team, ha lanzado hoy Seed-OSS-36B en el repositorio de código de IA Hugging Face.
Seed-OSS-36B es una nueva serie de grandes modelos lingüísticos (LLM) de código abierto concebidos para un razonamiento sofisticado y un uso sencillo para los desarrolladores, con un contexto de tokens más largo que muchos modelos de la competencia desarrollados en EE.UU., incluidos los principales de OpenAI y Anthropic.
La colección incluye tres variantes principales:
- Seed-OSS-36B-Base con datos sintéticos
- Seed-OSS-36B-Base sin datos sintéticos
- Semilla-OSS-36B-Instrucción
Al lanzar versiones sintéticas y no sintéticas del modelo Seed-OSS-36B-Base, el equipo de Seed pretendía equilibrar el rendimiento en el mundo real con la adaptabilidad en investigación.
La versión de datos sintéticos, entrenada con datos de instrucción suplementarios, obtiene mejores resultados en las pruebas de referencia establecidas y está concebida como un modelo de propósito general de mayor rendimiento.
En cambio, el modelo no sintético elimina estas mejoras y proporciona una base más clara que reduce el posible sesgo de los datos de instrucción sintéticos.
Al suministrar ambas variaciones, el equipo ofrece a los usuarios prácticos resultados mejorados al tiempo que proporciona a los investigadores una base de referencia imparcial para estudiar las técnicas posteriores al entrenamiento.
Por su parte, el modelo Seed-OSS-36B-Instruct se entrena a posteriori con datos de instrucciones, centrándose en la ejecución de tareas y el cumplimiento de instrucciones en lugar de actuar únicamente como modelo base.
Los tres modelos tienen licencia Apache-2.0, lo que permite a los investigadores y desarrolladores empresariales utilizarlos, modificarlos y compartirlos libremente.
Esto significa que pueden integrarse en aplicaciones comerciales, ya sea para operaciones internas o servicios de cara al cliente, sin que ByteDance cobre derechos de licencia o API.
Esto sigue la tendencia de mediados de 2025 de empresas chinas que lanzan modelos avanzados de código abierto, mientras OpenAI trabaja para mantener el ritmo con su propio dúo gpt-oss de código abierto, publicado recientemente.
El equipo de Seed diseñó Seed-OSS para un uso global, destacando su adaptabilidad en el razonamiento, las funciones orientadas a tareas y los entornos multilingües.
Creado en 2023, el equipo Seed se ha centrado en la creación de modelos fundacionales adecuados tanto para la investigación como para aplicaciones prácticas.
Diseño y características principales
La estructura de Seed-OSS-36B incorpora elementos de diseño reconocidos, como el modelado causal del lenguaje, la atención a consultas agrupadas, la activación SwiGLU, RMSNorm y la codificación posicional RoPE.
Cada modelo contiene 36.000 millones de parámetros distribuidos en 64 capas y admite un vocabulario de 155.000 tokens.
Un rasgo característico es su capacidad inherente para contextos largos, que admite hasta 512.000 tokens para procesar documentos largos y secuencias lógicas sin degradación.
Esta capacidad duplica la de la nueva familia GPT-5 de OpenAI y se aproxima a la longitud de unas 1.600 páginas de texto, aproximadamente el tamaño de la Biblia cristiana.
Otra característica destacada es el presupuesto de pensamiento, que permite a los desarrolladores definir la cantidad de razonamiento que aplica el modelo antes de generar una respuesta.
Un mecanismo similar aparece en otras versiones recientes de código abierto, como Nemotron-Nano-9B-v2 de Nvidia, también accesible a través de Hugging Face.
En la práctica, esto permite a los equipos calibrar el rendimiento en función de la complejidad de la tarea y las necesidades de eficiencia del despliegue.
Los valores de presupuesto se indican en múltiplos de 512 tokens, con 0 para el modo de respuesta directa.
Rendimiento competitivo en pruebas de referencia de terceros
Los resultados de las pruebas comparativas publicadas sitúan a Seed-OSS-36B entre los modelos de código abierto de mayor rendimiento. La versión Instruct, en particular, obtiene resultados punteros en varios ámbitos.
- Matemáticas y razonamiento: Seed-OSS-36B-Instruct obtiene una puntuación del 91,7% en AIME24 y del 65 en BeyondAIME, lo que representa el rendimiento más avanzado en código abierto (SOTA).
- Programación: En LiveCodeBench v6, el modelo Instruct alcanza 67,4, otra marca SOTA.
- Capacidad de contexto largo: En RULER, con una longitud de contexto de 128K, alcanza 94,6, el resultado de código abierto más alto registrado.
- Rendimiento del modelo base: La variante Base con datos sintéticos obtiene 65,1 puntos en MMLU-Pro y 81,7 en MATH, ambos resultados líderes en sus categorías.
El modelo Base no sintético, aunque ligeramente por detrás en varias métricas, sigue siendo competitivo por sí solo.
Supera a la versión sintética en GPQA-D, proporcionando a los investigadores una base de referencia más limpia y neutra para las pruebas.
Para las empresas que están evaluando alternativas abiertas, estos resultados indican que Seed-OSS es muy prometedor para aplicaciones con un uso intensivo de matemáticas, codificación y contextos largos, al tiempo que conserva la flexibilidad para escenarios de investigación.
Acceso e implantación
Más allá del rendimiento, el equipo de Seed hace hincapié en la accesibilidad de los desarrolladores. Los modelos pueden desplegarse mediante transformadores Hugging Face, con cuantificación en formatos de 4 y 8 bits para minimizar el uso de memoria.
También se integran con vLLM para un servicio escalable, con ejemplos de configuración y directrices para el servidor API.
Para simplificar aún más la adopción, el equipo proporciona secuencias de comandos para la inferencia, la personalización de avisos y la integración de herramientas.
Para los responsables técnicos que gestionan equipos pequeños o que operan con presupuestos limitados, estos recursos ayudan a hacer más factible la experimentación con modelos de 36.000 millones de parámetros.
Licencias y consideraciones para los responsables de las empresas
Disponibles bajo Apache-2.0, estos modelos pueden adoptarse sin licencias restrictivas, lo que supone una ventaja significativa para los equipos que sopesan factores legales y operativos.
Para los responsables de evaluar el ecosistema de código abierto, esta versión destaca tres puntos clave:
- Resultados de referencia de primer nivel en matemáticas, codificación y razonamiento de contexto largo
- . Un equilibrio entre modelos sintéticos entrenados de alto rendimiento y líneas de base de investigación imparciales.
- Funciones de accesibilidad que reducen la complejidad operativa para agilizar las unidades de ingeniería.
Al combinar alto rendimiento y despliegue adaptable bajo una licencia abierta, el equipo Seed de ByteDance ha ampliado las opciones disponibles para empresas, investigadores y desarrolladores.
Artículo relacionado
La IA revela agendas ocultas en los contenidos informativos
Los modelos del tipo ChatGPT se están entrenando ahora para descubrir la perspectiva subyacente de un artículo periodístico, incluso cuando ese punto de vista se oculta tras citas, encuadres o una apa
TikTok lanza una opción para limitar el contenido generado por IA en el feed
TikTok, que en un principio era un centro de vídeos creados por los usuarios, está introduciendo una nueva función que permite a los usuarios regular la cantidad de contenido generado por IA que apare
Claude 4.1 de Anthropic supera en rendimiento a GPT-5 en pruebas de codificación antes de su lanzamiento
Anthropic presentó el lunes una versión mejorada de su modelo de IA de primera línea, estableciendo un nuevo punto de referencia en cuanto al rendimiento en tareas de ingeniería de software. El lanzam
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

TikTok vuelve a ser noticia después de que la Casa Blanca se uniera a la popular plataforma de redes sociales, pero su empresa matriz ByteDance, una importante firma tecnológica china, también ha hecho un anuncio sorpresa.
La unidad de investigación de IA de la empresa, Seed Team, ha lanzado hoy Seed-OSS-36B en el repositorio de código de IA Hugging Face.
Seed-OSS-36B es una nueva serie de grandes modelos lingüísticos (LLM) de código abierto concebidos para un razonamiento sofisticado y un uso sencillo para los desarrolladores, con un contexto de tokens más largo que muchos modelos de la competencia desarrollados en EE.UU., incluidos los principales de OpenAI y Anthropic.
La colección incluye tres variantes principales:
- Seed-OSS-36B-Base con datos sintéticos
- Seed-OSS-36B-Base sin datos sintéticos
- Semilla-OSS-36B-Instrucción
Al lanzar versiones sintéticas y no sintéticas del modelo Seed-OSS-36B-Base, el equipo de Seed pretendía equilibrar el rendimiento en el mundo real con la adaptabilidad en investigación.
La versión de datos sintéticos, entrenada con datos de instrucción suplementarios, obtiene mejores resultados en las pruebas de referencia establecidas y está concebida como un modelo de propósito general de mayor rendimiento.
En cambio, el modelo no sintético elimina estas mejoras y proporciona una base más clara que reduce el posible sesgo de los datos de instrucción sintéticos.
Al suministrar ambas variaciones, el equipo ofrece a los usuarios prácticos resultados mejorados al tiempo que proporciona a los investigadores una base de referencia imparcial para estudiar las técnicas posteriores al entrenamiento.
Por su parte, el modelo Seed-OSS-36B-Instruct se entrena a posteriori con datos de instrucciones, centrándose en la ejecución de tareas y el cumplimiento de instrucciones en lugar de actuar únicamente como modelo base.
Los tres modelos tienen licencia Apache-2.0, lo que permite a los investigadores y desarrolladores empresariales utilizarlos, modificarlos y compartirlos libremente.
Esto significa que pueden integrarse en aplicaciones comerciales, ya sea para operaciones internas o servicios de cara al cliente, sin que ByteDance cobre derechos de licencia o API.
Esto sigue la tendencia de mediados de 2025 de empresas chinas que lanzan modelos avanzados de código abierto, mientras OpenAI trabaja para mantener el ritmo con su propio dúo gpt-oss de código abierto, publicado recientemente.
El equipo de Seed diseñó Seed-OSS para un uso global, destacando su adaptabilidad en el razonamiento, las funciones orientadas a tareas y los entornos multilingües.
Creado en 2023, el equipo Seed se ha centrado en la creación de modelos fundacionales adecuados tanto para la investigación como para aplicaciones prácticas.
Diseño y características principales
La estructura de Seed-OSS-36B incorpora elementos de diseño reconocidos, como el modelado causal del lenguaje, la atención a consultas agrupadas, la activación SwiGLU, RMSNorm y la codificación posicional RoPE.
Cada modelo contiene 36.000 millones de parámetros distribuidos en 64 capas y admite un vocabulario de 155.000 tokens.
Un rasgo característico es su capacidad inherente para contextos largos, que admite hasta 512.000 tokens para procesar documentos largos y secuencias lógicas sin degradación.
Esta capacidad duplica la de la nueva familia GPT-5 de OpenAI y se aproxima a la longitud de unas 1.600 páginas de texto, aproximadamente el tamaño de la Biblia cristiana.
Otra característica destacada es el presupuesto de pensamiento, que permite a los desarrolladores definir la cantidad de razonamiento que aplica el modelo antes de generar una respuesta.
Un mecanismo similar aparece en otras versiones recientes de código abierto, como Nemotron-Nano-9B-v2 de Nvidia, también accesible a través de Hugging Face.
En la práctica, esto permite a los equipos calibrar el rendimiento en función de la complejidad de la tarea y las necesidades de eficiencia del despliegue.
Los valores de presupuesto se indican en múltiplos de 512 tokens, con 0 para el modo de respuesta directa.
Rendimiento competitivo en pruebas de referencia de terceros
Los resultados de las pruebas comparativas publicadas sitúan a Seed-OSS-36B entre los modelos de código abierto de mayor rendimiento. La versión Instruct, en particular, obtiene resultados punteros en varios ámbitos.
- Matemáticas y razonamiento: Seed-OSS-36B-Instruct obtiene una puntuación del 91,7% en AIME24 y del 65 en BeyondAIME, lo que representa el rendimiento más avanzado en código abierto (SOTA).
- Programación: En LiveCodeBench v6, el modelo Instruct alcanza 67,4, otra marca SOTA.
- Capacidad de contexto largo: En RULER, con una longitud de contexto de 128K, alcanza 94,6, el resultado de código abierto más alto registrado.
- Rendimiento del modelo base: La variante Base con datos sintéticos obtiene 65,1 puntos en MMLU-Pro y 81,7 en MATH, ambos resultados líderes en sus categorías.
El modelo Base no sintético, aunque ligeramente por detrás en varias métricas, sigue siendo competitivo por sí solo.
Supera a la versión sintética en GPQA-D, proporcionando a los investigadores una base de referencia más limpia y neutra para las pruebas.
Para las empresas que están evaluando alternativas abiertas, estos resultados indican que Seed-OSS es muy prometedor para aplicaciones con un uso intensivo de matemáticas, codificación y contextos largos, al tiempo que conserva la flexibilidad para escenarios de investigación.
Acceso e implantación
Más allá del rendimiento, el equipo de Seed hace hincapié en la accesibilidad de los desarrolladores. Los modelos pueden desplegarse mediante transformadores Hugging Face, con cuantificación en formatos de 4 y 8 bits para minimizar el uso de memoria.
También se integran con vLLM para un servicio escalable, con ejemplos de configuración y directrices para el servidor API.
Para simplificar aún más la adopción, el equipo proporciona secuencias de comandos para la inferencia, la personalización de avisos y la integración de herramientas.
Para los responsables técnicos que gestionan equipos pequeños o que operan con presupuestos limitados, estos recursos ayudan a hacer más factible la experimentación con modelos de 36.000 millones de parámetros.
Licencias y consideraciones para los responsables de las empresas
Disponibles bajo Apache-2.0, estos modelos pueden adoptarse sin licencias restrictivas, lo que supone una ventaja significativa para los equipos que sopesan factores legales y operativos.
Para los responsables de evaluar el ecosistema de código abierto, esta versión destaca tres puntos clave:
- Resultados de referencia de primer nivel en matemáticas, codificación y razonamiento de contexto largo
- . Un equilibrio entre modelos sintéticos entrenados de alto rendimiento y líneas de base de investigación imparciales.
- Funciones de accesibilidad que reducen la complejidad operativa para agilizar las unidades de ingeniería.
Al combinar alto rendimiento y despliegue adaptable bajo una licencia abierta, el equipo Seed de ByteDance ha ampliado las opciones disponibles para empresas, investigadores y desarrolladores.
La IA revela agendas ocultas en los contenidos informativos
Los modelos del tipo ChatGPT se están entrenando ahora para descubrir la perspectiva subyacente de un artículo periodístico, incluso cuando ese punto de vista se oculta tras citas, encuadres o una apa
TikTok lanza una opción para limitar el contenido generado por IA en el feed
TikTok, que en un principio era un centro de vídeos creados por los usuarios, está introduciendo una nueva función que permite a los usuarios regular la cantidad de contenido generado por IA que apare
Claude 4.1 de Anthropic supera en rendimiento a GPT-5 en pruebas de codificación antes de su lanzamiento
Anthropic presentó el lunes una versión mejorada de su modelo de IA de primera línea, estableciendo un nuevo punto de referencia en cuanto al rendimiento en tareas de ingeniería de software. El lanzam











