多模態(tài)推理的前沿成果！首個開源多模態(tài)推理模型問世

2024-12-28 14:11:07來源：智能制造網(wǎng)整理閱讀量：18824 評論

　　人類的推理能力植根于語言思維和視覺記憶中，利用視覺理解增強大模型推理能力是AI技術的前沿探索之一。2024年12月25日，阿里云通義千問發(fā)布首個開源多模態(tài)推理模型QVQ-72B-Preview。QVQ展現(xiàn)出超預期的視覺理解和推理能力，在解決數(shù)學、物理、科學等領域的復雜推理問題上表現(xiàn)尤為突出。

　　一個月前(11月28日)，通義發(fā)布AI推理模型QwQ - 32B - Preview并斬獲SuperCLUE的AI推理模型榜單「全球開源冠軍」，評測數(shù)據(jù)顯示，預覽版本的QwQ，已展現(xiàn)出研究生水平的科學推理能力，在數(shù)學和編程方面表現(xiàn)尤為出色，整體推理水平比肩OpenAI o1。

　　QwQ(Qwen　with Questions)是通義千問Qwen大模型最新推出的實驗性研究模型，也是阿里云首個開源的AI推理模型。阿里云通義千問團隊研究發(fā)現(xiàn)，當模型有足夠的時間思考、質(zhì)疑和反思時，其對數(shù)學和編程的理解就會深化。

　　如今在Qwen2 - VL - 72B開源模型基礎上，研發(fā)出QVQ - 72B - Preview。

　　QVQ-72B-Preview不僅在邏輯推理上更上一層樓，還巧妙地融合了視覺理解能力，使得AI在解析圖像信息、結合上下文進行空間推理方面取得了顯著進步。這一突破意味著AI在處理諸如視覺問答、圖像識別與解釋等復雜任務時，能夠更加精準地把握細節(jié)，實現(xiàn)更加智能化、人性化的交互體驗。

　　例如，在解析一張包含物理實驗的圖像時，QVQ不僅能準確識別出實驗器材，還能基于視覺線索推斷出實驗步驟、預測實驗結果，甚至對實驗設計中可能存在的邏輯漏洞提出質(zhì)疑。這種跨模態(tài)的推理能力，為教育、科研、工業(yè)設計等多個領域帶來了革命性的變化，加速了知識的自動化處理和創(chuàng)新應用的步伐。

　　目前，QVQ-72B-Preview已在魔搭社區(qū)和HuggingFace等平臺上開源，開發(fā)者可上手體驗。截至目前，通義千問Qwen的衍生模型數(shù)突破7.8萬個。

　　阿里云通義千問團隊表示，QVQ-72B-Preview的發(fā)布只是冰山一角，他們正不斷探索AI推理能力的極限，旨在構建一個更加全面、智能、適應未來需求的AI生態(tài)系統(tǒng)。隨著技術的不斷迭代與成熟，我們有理由相信，AI將在更多領域展現(xiàn)出超越人類想象的智慧之光，開啟一個由技術與人類共同編織的智慧新時代。

上一篇：儀器聚焦丨熱點重點大盤點儀器行業(yè)本周要點速遞(2024年第35期)

下一篇：華為數(shù)據(jù)存儲拿下國內(nèi)雙榜第一：比肩IBM、微軟

版權與免責聲明：1.凡本網(wǎng)注明“來源：興旺寶裝備總站”的所有作品，均為浙江興旺寶明通網(wǎng)絡有限公司-興旺寶合法擁有版權或有權使用的作品，未經(jīng)本網(wǎng)授權不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的，應在授權范圍內(nèi)使用，并注明“來源：興旺寶裝備總站”。違反上述聲明者，本網(wǎng)將追究其相關法律責任。 2.本網(wǎng)轉(zhuǎn)載并注明自其它來源（非興旺寶裝備總站）的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或和對其真實性負責，不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品第一來源，并自負版權等法律責任。 3.如涉及作品內(nèi)容、版權等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關權利。

我來評論

昵稱驗證碼匿名