A xAI – Inteligência Artificial (IA) do X fundada por Elon Musk – lançou a primeira versão do Grok que pode processar informações visuais. O Grok-1.5V é a primeira versão da IA capaz de processar não apenas texto, mas também informações visuais, como documentos, diagramas e fotografias.
No anúncio, a xAI mostrou exemplos de como esses recursos podem ser usados na prática: mostre a imagem de um fluxograma para o Grok e pede para ele traduzir em código Python, solicite que ele escreva uma história baseada em um desenho ou até mesmo peça para ele explicar um meme que você não consegue entender (nem todo mundo consegue acompanhar tudo que circula na internet).
Esta atualização chega pouco tempo após o lançamento do Grok-1.5. Esse modelo foi projetado para ser melhor em codificação e matemática do que seu antecessor, bem como para ser capaz de processar contextos mais longos para poder verificar dados de mais fontes para compreender melhor determinadas questões.
A xAI disse que seus primeiros testadores e usuários existentes em breve poderão aproveitar os recursos do Grok-1.5V, embora não tenha fornecido um cronograma exato para seu lançamento.
Além disso, a xAI também mostrou o conjunto de dados de benchmark RealWorldQA, composto por 700 imagens com perguntas e respostas para avaliar modelos de IA: essas perguntas e respostas podem facilmente ser verificadas por você, mas podem confundir modelos multimodais como Grok. E o Grok-1.5V se destacou, supostamente superando concorrentes, segundo a empresa.