國產多模態大模型開源!無條件免費商用,性能超Claude 3 Sonnet
現在國內的大模型發展日新月異,比如正文提到的元象發布的這款開源大模型,各個方面的表現都很不錯。
又一個國產多模態大模型開源!
XVERSE-V,來自元象,還是同樣的無條件免費商用。
此前元象曾率先發布國內規模最大的開源大模型,如今開源家族系列又多了一個。
最新的多模態大模型支持任意寬高比圖像輸入,在主流評測中保持著效果領先——
- 在多項權威多模態評測中,XVERSE-V超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型。
- 在綜合能力測評MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。
支持任意長寬比圖像輸入
傳統的多模態模型的圖像表示只有整體,XVERSE-V 采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。
兼顧全局的概覽信息和局部的細節信息,能夠識別和分析圖像中的細微特征,看的更清楚,理解的更準確
這樣的處理方式使模型可以應用于廣泛的領域,包括全景圖識別、衛星圖像、古文物掃描分析等。
△示例- 高清全景圖識別
△示例-圖片細節文字識別
除了基本能力表現不錯,也能輕松應對各種不同的實際應用場景,比如圖表、文獻、代碼轉化、視障真實場景等。
圖表理解
不論是復雜圖文結合的信息圖理解,還是單一圖表的分析與計算,模型都能夠自如應對。
自動駕駛
代碼撰寫
還有視障真實場景
在真實視障場景測試集VizWiz中,XVERSE-V的表現超過了InternVL-Chat-V1.5、DeepSeek-VL-7B等幾乎所有主流的開源多模態大模型。該測試集包含了來自真實視障用戶提出的超過31000個視覺問答,能準確反映用戶的真實需求與瑣碎細小的問題,幫助視障人群克服他們日常真實的視覺挑戰。
本文由人人都是產品經理作者【量子位】,微信公眾號:【量子位】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
評論
- 目前還沒評論,等你發揮!