Microsoft lanza los nuevos modelos de lenguaje Phi-4 Multimodal y Mini: diferencias con GPT y Gemini

A finales del año pasado, concretamente en diciembre, Microsoft anunció el lanzamiento de Phi-4, su modelo de lenguaje para IA más avanzado hasta la fecha. A través de él, los de Redmond pretenden revolucionar nuestra interacción con la inteligencia artificial. Su objetivo es llevar a un nuevo nivel la combinación de capacidades de procesamiento de texto, voz e imágenes.

Sin embargo, tenemos nuevas noticias en el horizonte. Ahora, Microsoft acaba de lanzar dos nuevas modalidades para Phi-4: Multimodal y Mini. Con estas dos nuevas adiciones, los creadores de Windows pretenden enfrentarse de tú a tú a OpenAI y Google en el mercado americano. Ambos modelos ofrecen un gran rendimiento en dispositivos de todo tipo, lo que lo hace enormemente competente con cualquier usuario. ¿Quieres ver cómo responde frente a Gemini y ChatGPT?, vamos a ver qué tal

Phi-4 Multimodal

El nuevo modelo avanzado de lenguaje de Microsoft se encarga de combinar con eficiencia distintos factores para ofrecer una mejor experiencia a los usuarios. Se diferencia de la versión «Mini» en su capacidad para procesar diferentes tipos de datos. Esto lo convierte en un potencial motor para aplicaciones de realidad aumentada, traducción automática o reconocimiento de voz. Esta capacidad multitarea es a lo que Microsoft ha llamado «Procesamiento Intermodal Avanzado».

Además, en pruebas Benchmark de reconocimiento de voz y traducción, Multimodal ha superado a modelos como WhisperV3 o SeamlessM4T. Algo especialmente llamativo dado que está diseñado especialmente para móviles y equipos de gama baja-media. Por lo que llegamos a la conclusión de que tiene una optimización sobresaliente.

Phi-4 Mini

Este nuevo modelo de Phi-4 se centra en tareas basadas en texto, razonamiento y codificación. A diferencia de su hermano «Multimodal», su enfoque en el texto lo hace más compacto y especializado en tareas de texto.

Cuenta con un vocabulario de más de 200.000 palabras, lo que sugiere que posee una enorme comprensión del lenguaje. Además, en pruebas de razonamiento y codificación, supera a titanes como Llama 3.3, Claude 3.5 o Gemini 1.5 Pro. Casi nada. Lo que quiere decir que puedes utilizarlo tranquilamente para el desarrollo de software y la resolución de problemas.

Un último punto a destacar de esta versión es su capacidad para soportar secuencias de hasta 128.000 tokens. Esto supone que está diseñado para comprender pesadas cargas de texto.

Comparativa con Gemini y ChatGPT

Phi-4 ha demostrado un mejor rendimiento en razonamiento matemático y codificación, y ha logrado tumbar a ambos competidores en gran parte de las pruebas. Si bien los nuevos modelos de Phi-4 me han dejado impresionado, vamos a calibrar sus funcionalidades comparándolas con dos de las mejores propuestas actuales. al respecto.

Si hablamos de Gemini Pro, esta sigue siendo superior en el rendimiento general. Sin embargo, la versión «Multimodal» le gana la partida, como su propio nombre indica, en tareas que requieren interacción multimodal (multitarea).

Por su parte, GPT-4 aún sigue teniendo ventaja en las áreas de razonamiento y compresión del lenguaje, pero «Mini» es más eficiente en un recuento general de dispositivos. O sea, podemos traducirlo como un mejor funcionamiento en dispositivos de gama baja, media y alta.

Phi-4 Multimodal

Phi-4 Mini

Comparativa con Gemini y ChatGPT

Related Posts

No sufras por el final de Plex: esta alternativa es mejor, más ligera y 100% Open Source

Las 5 canciones más épicas de Metallica

Cómo transcribir el audio de un vídeo cualquiera de YouTube