xAI, la compañía de Inteligencia Artificial (IA) fundada por Elon Musk, difundió la primera gran actualización para Grok, su modelo generativo lanzado para subirse a la ola de desarrollo e inversiones en esta tecnología impulsada tras el lanzamiento de ChatGPT.

De acuerdo con lo que compartió la empresa, la versión 1.5 de Grok cuenta con capacidades para procesar una amplia variedad de información visual, incluyendo "documentos, diagramas, cuadros, capturas de pantalla y fotografías". Todo esto además del procesamiento de texto, que ya era "sólido" en la versión anterior.

Al revelar esta nueva capacidad de su algoritmo multimodal, deslizaron que Grok-1.5V estará disponible "muy pronto" para desarrolladores, personas inscritas en los programas de pruebas anticipadas y usuarios existentes del programa.

La firma asegura que Grok-1.5v supera a sistemas similares como GPT-4, Claude 3 Sonnet, Claude 3 Opus y Gemini Pro 1.5 en la comprensión "espacial del mundo real".

Esta conclusión se desprende del uso de lo que clasificaron como su "nuevo punto de referencia", una herramienta de medición conocida como RealWorldQA.

Este test de rendimiento –o benchmark– califica la capacidad de los modelos de IA para determinar la "ocupación de espacio" de cada elemento en las imágenes. Para ello, utiliza una base de más de 700 imágenes anónimas "tomadas por vehículos" en movimiento y otras fijas de los mismos lugares.

Las imágenes de prueba que fueron analizadas por Grok, con las respectivas preguntas y respuestas.

Con esa información, entrega una serie de respuestas a preguntas específicas (como la orientación cardinal de un objeto), pero solo una es correcta. Si el modelo de IA elige la opción esperada quiere decir que "comprende" la distribución espacial de la imagen y puede entregar una solución adecuada a la consulta.

Las 700 preguntas tienen opciones múltiples de respuestas y los investigadores saben cuáles son correctas y cuáles incorrectas. Entre más respuestas correctas logra el modelo, mejor puntuado está en el nuevo parámetro RealWorldQA.

La nueva herramienta de medición de xAI es de código abierto, lo que implica que está disponible para su descarga y es de uso libre. 

IA para los autos de Tesla

El desarrollo de Grok representa una apuesta de la compañía para brindarle a Tesla, también propiedad del magnate Elon Musk, modelos que le permitan mejorar la conducción autónoma de sus vehículos.

La gran aportación de Grok-1.5v es que promete un mejor entendimiento de la relación espacio-objeto, característica que eventualmente podrá entregar más y mejor información a los usuarios de los automóviles Tesla que utilizan el modo de conducción autónoma.

xAI presentó su modelo Grok en noviembre del año pasado, cuando anunció que se integraría como una función nativa en el software con el que funciona el sistema de los autos eléctricos de Tesla.

Y considerando el historial de problemas y accidentes que ha generado la conducción autónoma de estos vehículos, no llama la atención que Musk pretenda mejorar esa herramienta clave para hacerle frente a la competencia a través de nuevos modelos de IA.

Desde 2016, la Administración Nacional de Seguridad del Tráfico en las Carreteras de Estados Unidos ha abierto más de 40 investigaciones especiales de choques en los que estaban implicados vehículos Tesla, bajo la sospecha de que Autopilot, la asistencia avanzada al conductor, estaba activada.