人類的推理能力植根于語言思維和視覺記憶中,利用視覺理解增強大模型推理能力是AI技術的前沿探索之一。2024年12月25日,阿里云通義千問發(fā)布首個開源多模態(tài)推理模型QVQ-72B-Preview。QVQ展現(xiàn)出超預期的視覺理解和推理能力,在解決數(shù)學、物理、科學等領域的復雜推理問題上表現(xiàn)尤為突出。
一個月前(11月28日),通義發(fā)布AI推理模型QwQ - 32B - Preview并斬獲SuperCLUE的AI推理模型榜單「全球開源冠軍」,評測數(shù)據(jù)顯示,預覽版本的QwQ,已展現(xiàn)出研究生水平的科學推理能力,在數(shù)學和編程方面表現(xiàn)尤為出色,整體推理水平比肩OpenAI o1。
QwQ(Qwen with Questions)是通義千問Qwen大模型最新推出的實驗性研究模型,也是阿里云首個開源的AI推理模型。阿里云通義千問團隊研究發(fā)現(xiàn),當模型有足夠的時間思考、質(zhì)疑和反思時,其對數(shù)學和編程的理解就會深化。
如今在Qwen2 - VL - 72B開源模型基礎上,研發(fā)出QVQ - 72B - Preview。
QVQ-72B-Preview不僅在邏輯推理上更上一層樓,還巧妙地融合了視覺理解能力,使得AI在解析圖像信息、結合上下文進行空間推理方面取得了顯著進步。這一突破意味著AI在處理諸如視覺問答、圖像識別與解釋等復雜任務時,能夠更加精準地把握細節(jié),實現(xiàn)更加智能化、人性化的交互體驗。
例如,在解析一張包含物理實驗的圖像時,QVQ不僅能準確識別出實驗器材,還能基于視覺線索推斷出實驗步驟、預測實驗結果,甚至對實驗設計中可能存在的邏輯漏洞提出質(zhì)疑。這種跨模態(tài)的推理能力,為教育、科研、工業(yè)設計等多個領域帶來了革命性的變化,加速了知識的自動化處理和創(chuàng)新應用的步伐。
目前,QVQ-72B-Preview已在魔搭社區(qū)和HuggingFace等平臺上開源,開發(fā)者可上手體驗。截至目前,通義千問Qwen的衍生模型數(shù)突破7.8萬個。
阿里云通義千問團隊表示,QVQ-72B-Preview的發(fā)布只是冰山一角,他們正不斷探索AI推理能力的極限,旨在構建一個更加全面、智能、適應未來需求的AI生態(tài)系統(tǒng)。隨著技術的不斷迭代與成熟,我們有理由相信,AI將在更多領域展現(xiàn)出超越人類想象的智慧之光,開啟一個由技術與人類共同編織的智慧新時代。
昵稱 驗證碼 請輸入正確驗證碼
所有評論僅代表網(wǎng)友意見,與本站立場無關