ChatGPT y su nuevo modelo GPT-4o: Un resumen en español del evento de primavera de Open AI

Alejandro Alvarez
5 min readMay 13, 2024

--

Hoy, 13 de mayo de 2024, Open AI ha presentado GPT-4o en su evento de primavera. Esta nueva versión está diseñada para revolucionar la interacción humano-máquina mediante su capacidad multimodal, conocida como omni-canal. GPT-4o no solo mejora en velocidad y costo, sino que también ofrece múltiples canales de interacción, incluyendo audio, video y texto, además de nuevas aplicaciones para dispositivos móviles y de escritorio, complementando la ya existente aplicación web.

Mira Murati CTO de Open AI mostrando lo nuevo de ChatGPT-4o

Principales Características

Velocidad y Costo

GPT-4o es el doble de rápido que su predecesor, GPT-4, y cuesta un 50% menos. Además, cuenta con cinco veces más límites de tasa que el modelo anterior, ChatGPT 4 Turbo. Esto potenciará su adopción en soluciones potenciadas por IA generativa, pues uno de los grandes bloqueantes para la adopción generalizada de este tipo de tecnología está asociada a los costos por uso.

Compatibilidad Multimodal

Este modelo omni-canal, de ahí la “o” en su nombre, GPT-4o, funciona a través de voz, texto y procesamiento visual. Esta capacidad busca simplificar la interacción humano-máquina (human-centered approach), haciéndola mucho más intuitiva.

Aplicaciones de Escritorio

OpenAI lanzará una nueva aplicación de escritorio, Tanto para Mac como para Windows.

Estas aplicaciones podrán integrarse con el sistema operativo, potencialmente automatizando procesos y mejorando la eficiencia en entornos laborales.

Funcionalidades Destacadas

Interacción Natural (Diseño mas Humano o Humano por Diseño)

GPT-4o puede ser interrumpido y ajustado en tiempo real, ofreciendo una interacción más intuitiva y fluida. Su capacidad para cambiar el tono de voz y la entonación hace que la experiencia sea más natural y adaptable a diferentes contextos. Esto pudo notarse en la demo de Open AI, que sin duda a mas de uno nos dejó sin palabras, o por lo menos a mi me dejó sumamente emocionado.

Procesamiento Visual

Si bien en la demo se mostró como el modelo pudo resolver problemas matemáticos simples y reconocer oraciones a través de la cámara de un teléfono (lo que no es novedoso en si mismo), es la integración de estas capacidades con las IAs generativas es lo que lo hace sorprendente. Hablamos de modelos que son capaces de comprender y responder a estímulos o entradas visuales y de audio en tiempo real. Lograron el desafio de reducir casi a cero la latencia.

Capacidades de Codificación

GPT-4o puede interpretar, mejorar y ejecutar código, proporcionando interpretaciones detalladas y sugerencias de mejora. Esto lo convierte en una herramienta invaluable para desarrolladores y programadores. De nuevo, si bien esto no es nuevo (github copilot lo ha hecho desde hace ya bastante tiempo), la integración con las otras características que ya posee es lo que hace que esto sea sorprendente.

Traducción en Tiempo Real

La nueva versión puede traducir conversaciones en tiempo real en más de 50 idiomas, facilitando la comunicación global y rompiendo barreras lingüísticas. Esto es el inicio de la barrera idiomática. Veo muy pronto un servicio que te permita comunicarte a tiempo real en cualquier idioma sin latencia. Si entendemos que muchas veces la barrera idiomática es un impedimento para muchos, hablamos de una solución tecnológica que apunta a la inclusión, y a abrir oportunidades a escala global.

Lectura de Emociones

GPT-4o puede leer las emociones de una persona basándose en una selfie, interpretando el tono y la emoción de las frases para adaptar sus respuestas a situaciones específicas, incluso de estrés. Dicho esto, imaginar ahora las posibilidades de un agente virtual que se adapta a las emociones del cliente, tomando su tono, gestos y utilizando las mejores técnicas de negociación, contención emocional, psicología social, etc.

Desafíos y Consideraciones

A pesar de sus impresionantes capacidades, GPT-4o enfrenta desafíos en términos de seguridad, ética y cumplimiento. La capacidad de procesar audio e imágenes en tiempo real plantea cuestiones sobre la privacidad y el uso ético de los datos.

Durante la presentación, los investigadores Mark Chen y Barrett Zoph demostraron cómo GPT-4o “invocado al mejor estilo de un asistente virtual” puede detectar el tono y la emoción de una frase, adaptando su respuesta en consecuencia. También se mostraron sus capacidades creativas e interpretativas, cambiando la entonación, voz y tono de manera que nunca antes se había visto en una inteligencia artificial.

Estas demostraciones sugieren que asistentes virtuales como Alexa o el Asistente de Google deberán evolucionar rápidamente para mantenerse relevantes.

El futuro prometido ha llegado. Ya integrar toda la información es bastante.

Takeaways

Tenemos nuevo modelo, “gpt-4o” con:

• Velocidad y Costo: GPT 4o promete ser el doble de rápido que GPT 4 y costará un 50% menos.

• Límites de Uso: La nueva versión tendrá cinco veces más límites de tasa que la anterior ChatGPT 4 Turbo.

• Compatibilidad Multimodal: GPT 4o funcionará en voz, texto y procesamiento visual, de ahí la “o” en su nombre “gpt-4o”, omni-gpt.

• Aplicaciones de Escritorio: Habrá una nueva aplicación de escritorio para Mac, con una versión para Windows próximamente. Esto apunta a integrarse con el sistema operativo y llegar a ayudar en nuestros entornos laborales.

• Interacción Natural: El chatbot puede ser interrumpido y ajustado en tiempo real, ofreciendo una interacción más intuitiva y natural.

• Procesamiento Visual: GPT 4o puede interpretar problemas matemáticos y oraciones a través de la cámara de un teléfono.

• Capacidades de Codificación: La nueva versión puede interpretar, mejorar y ejecutar código, proporcionando interpretaciones informativas.

• Traducción en Tiempo Real: GPT 4o puede traducir conversaciones en tiempo real en más de 50 idiomas.

  • Lectura de Emociones: La inteligencia artificial puede leer las emociones de una persona basándose en una selfie.

La versión ya está disponible en el portal de Open AI, pantallazo:

Selector de modelo de chatgpt.com

Para cerrar, y creo que es importante mencionarlo siempre, estamos viviendo una revolución tecnológica sin precedentes, enfocándose en la interacción humano computador.

Espero que este breve resumen haya sido de valor para ti.

--

--

Alejandro Alvarez

Consultor, investigador, innovador, desarrollador y arquitecto de soluciones tecnológicas industriales, con especialidad en IA y modelaje de procesos.