移動端


多模態(tài)推理的前沿成果!首個開源多模態(tài)推理模型問世

2024-12-28 14:11:07來源:智能制造網(wǎng)整理 閱讀量:18824 評論

分享:

  人類的推理能力植根于語言思維和視覺記憶中,利用視覺理解增強大模型推理能力是AI技術的前沿探索之一。2024年12月25日,阿里云通義千問發(fā)布首個開源多模態(tài)推理模型QVQ-72B-Preview。QVQ展現(xiàn)出超預期的視覺理解和推理能力,在解決數(shù)學、物理、科學等領域的復雜推理問題上表現(xiàn)尤為突出。
 
  一個月前(11月28日),通義發(fā)布AI推理模型QwQ - 32B - Preview并斬獲SuperCLUE的AI推理模型榜單「全球開源冠軍」,評測數(shù)據(jù)顯示,預覽版本的QwQ,已展現(xiàn)出研究生水平的科學推理能力,在數(shù)學和編程方面表現(xiàn)尤為出色,整體推理水平比肩OpenAI o1。
 
  QwQ(Qwen with Questions)是通義千問Qwen大模型最新推出的實驗性研究模型,也是阿里云首個開源的AI推理模型。阿里云通義千問團隊研究發(fā)現(xiàn),當模型有足夠的時間思考、質(zhì)疑和反思時,其對數(shù)學和編程的理解就會深化。
 
  如今在Qwen2 - VL - 72B開源模型基礎上,研發(fā)出QVQ - 72B - Preview。
 
  QVQ-72B-Preview不僅在邏輯推理上更上一層樓,還巧妙地融合了視覺理解能力,使得AI在解析圖像信息、結合上下文進行空間推理方面取得了顯著進步。這一突破意味著AI在處理諸如視覺問答、圖像識別與解釋等復雜任務時,能夠更加精準地把握細節(jié),實現(xiàn)更加智能化、人性化的交互體驗。
 
  例如,在解析一張包含物理實驗的圖像時,QVQ不僅能準確識別出實驗器材,還能基于視覺線索推斷出實驗步驟、預測實驗結果,甚至對實驗設計中可能存在的邏輯漏洞提出質(zhì)疑。這種跨模態(tài)的推理能力,為教育、科研、工業(yè)設計等多個領域帶來了革命性的變化,加速了知識的自動化處理和創(chuàng)新應用的步伐。
 
  目前,QVQ-72B-Preview已在魔搭社區(qū)和HuggingFace等平臺上開源,開發(fā)者可上手體驗。截至目前,通義千問Qwen的衍生模型數(shù)突破7.8萬個。
 
  阿里云通義千問團隊表示,QVQ-72B-Preview的發(fā)布只是冰山一角,他們正不斷探索AI推理能力的極限,旨在構建一個更加全面、智能、適應未來需求的AI生態(tài)系統(tǒng)。隨著技術的不斷迭代與成熟,我們有理由相信,AI將在更多領域展現(xiàn)出超越人類想象的智慧之光,開啟一個由技術與人類共同編織的智慧新時代。
版權與免責聲明:1.凡本網(wǎng)注明“來源:興旺寶裝備總站”的所有作品,均為浙江興旺寶明通網(wǎng)絡有限公司-興旺寶合法擁有版權或有權使用的作品,未經(jīng)本網(wǎng)授權不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內(nèi)使用,并注明“來源:興旺寶裝備總站”。違反上述聲明者,本網(wǎng)將追究其相關法律責任。 2.本網(wǎng)轉(zhuǎn)載并注明自其它來源(非興旺寶裝備總站)的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權等法律責任。 3.如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。
我來評論

昵稱 驗證碼

文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關

    相關新聞