Startup presenta chip HC1 que supera a Nvidia en inferencia. 17,000 tokens/segundo en Llama 3.1.
17,000 tokens por segundo. Eso logra el nuevo chip HC1 de Taalas corriendo Llama 3.1 8B.
Para ponerlo en perspectiva: es significativamente más rápido que Nvidia H200, B200, Groq y Cerebras.
Los Números
- 17,000 tokens/segundo en Llama 3.1 8B
- Supera a Nvidia H200 y B200
- Diseñado específicamente para inferencia
Por Qué Importa
La velocidad de inferencia es el cuello de botella actual. Más velocidad = respuestas más rápidas, menor costo por consulta, más usuarios con la misma infraestructura.
Taalas se posiciona como potencial disruptor en eficiencia de inferencia.
Para Emprendedores
Más competencia en hardware = mejores precios para quienes consumimos APIs de IA.

