阿里凌晨三點發(fā)布新的視覺推理模型QVQ-Max
3月28日消息,凌晨三點,阿里在X上發(fā)布視覺推理模型QVQ-Max。
本文引用地址:http://www.antipu.com.cn/article/202503/468767.htm作為QVQ-72B-Preview的升級版,官方表示,新模型針對傳統(tǒng)AI在視覺信息處理上的不足進行了優(yōu)化,增強了從視覺感知到認知推理的能力。
QVQ-Max支持圖像、視頻與文本的聯(lián)合推理。在MathVision benchmark測試中,QVQ-Max表現(xiàn)出“thinking長度”與準確率正相關的特性,驗證了模型在復雜多模態(tài)任務中的潛力。
官方表示,QVQ-Max在三方面表現(xiàn)突出:一是細致觀察,能夠精準識別圖像中的細節(jié)和文字標識;二是深入推理,結合背景知識進行分析和推理;三是靈活應用,支持創(chuàng)意生成和內容創(chuàng)作。
評論