AIGC工具全面審視:生成式AI在實際應用中的表現(xiàn)如何?
過去這一年,全球涌現(xiàn)出了眾多生成式AI產品。在這篇文章中,我們將探討這些工具的表現(xiàn),通過實際體驗和評估,為讀者提供一個關于當前AI工具的全面視角。
2023年,AI技術迎來了其發(fā)展史上的一次重大飛躍。隨著技術突破和令人矚目的產品陸續(xù)亮相,AI不僅成為了技術界的焦點,也深深吸引了資本的目光。這一年,AI展現(xiàn)出了前所未有的發(fā)展勢頭,無論是在基礎模型能力、實際應用場景,還是資本投入方面都取得了顯著進展。
特別是在2022年11月30日,OpenAI發(fā)布了ChatGPT,標志著AI技術的一個新紀元。緊接著,在2023年1月,ChatGPT的月活躍用戶數(shù)突破1億大關,創(chuàng)下了歷史新高,彰顯了全球AI市場的爆發(fā)潛力。
伴隨這股勢頭,全球范圍內涌現(xiàn)出眾多創(chuàng)新的生成式AI工具,它們按功能可以劃分為:文本生成、圖像創(chuàng)作、音視頻處理等多個類別。在這篇文章中,我們將探討這些工具的表現(xiàn),通過實際體驗和評估,為讀者提供一個關于當前AI工具的全面視角。
一、ChatGPT-4
所屬公司:OpenAI 發(fā)布時間:2023年5月8日 榜單:#2 數(shù)據(jù)來源:點點數(shù)據(jù)
2023年3月15日,OpenAI宣布推出GPT-4,這標志著大型語言模型進入了一個新階段。相較于前代產品GPT-3.5,GPT-4不僅在處理自然語言方面取得了顯著提升,而且在多語言處理能力上也有了重大突破。更值得一提的是,GPT-4引入了“多模態(tài)”功能,支持圖像和語音輸入,甚至可以輸出圖片,大大拓寬了其應用范圍。
界面體驗
ChatGPT-4的用戶界面呈現(xiàn)了現(xiàn)代化和直觀的設計風格,其簡潔的設計語言和優(yōu)化的用戶操作流程極大地便利了用戶與系統(tǒng)的交互。界面的清晰度和直觀性使得用戶即便是初次使用,也能輕松上手。
使用感受
作為商業(yè)化應用的初代大型語言模型,ChatGPT-4在專業(yè)知識獲取、文案生成、上下文理解等方面表現(xiàn)出色。答案的完整性和連貫性同樣值得稱贊。然而,最近的使用體驗中發(fā)現(xiàn)模型在生成答案時偶有不穩(wěn)定現(xiàn)象,可能與OpenAI目前的資源分配有關。
不過,總體來說,ChatGPT-4在提供高效、準確回答方面依然表現(xiàn)卓越。
二、通義系列
阿里巴巴旗下的通義系列包含多款AI大模型,如通義千問(語言模型)、通義萬相(藝術創(chuàng)作模型)、通義聽悟(音視頻模型)和通義智文(AI閱讀助手),它們在多個領域如電商、設計、對話和法律分析中發(fā)揮著重要作用。
平時工作生活中使用的較多的是通義千問、通義萬相、通義聽悟、通義智文幾種,幫助我獲取整理專業(yè)知識,獲取靈感以及快速閱讀:
通義千問:多模態(tài) AI 大模型
所屬公司:阿里巴巴 發(fā)布時間:2023年10月31日 榜單:#28 數(shù)據(jù)來源:點點數(shù)據(jù)
界面體驗:
通義千問擁有簡潔而一致的頁面布局,提供沉浸式的問答體驗。界面無過多修飾,專注于核心功能,使用戶更易于集中注意力在問題與回答上。
使用感受:
在語義理解和答案準確度方面,通義千問表現(xiàn)優(yōu)異,尤其在處理千字以內的查詢時,回答流暢且無明顯間斷。
通義萬相:AI 藝術創(chuàng)作模型
界面體驗:
萬相的界面以深色模式為主,突出了圖片生成區(qū)域,同時提供了關鍵詞選項,便于用戶快速進行創(chuàng)作。
使用感受:
雖然在人物圖像創(chuàng)作方面表現(xiàn)較好,但在抽象圖標和文本引導的圖片生成方面仍有提升空間。圖片細節(jié)處理方面也存在一定的挑戰(zhàn)。
通義聽悟
一個非常好的在線會議、視頻學習、播客學習等音視頻轉文字并且整理以及摘要的平臺。
界面體驗:
聽悟的界面設計強調智能感,功能入口明確,降低了用戶學習成本。其功能覆蓋了視頻轉錄、實時解析等多種場景。
使用感受:
- 實時記錄場景:語音識別以及文本轉錄的內容準確度挺高,較為嘈雜的場景也能比較準確的識別文字;
- 視頻場景:能夠提取摘要,并且能區(qū)分講話人進行總結,以及生成 PPT且定位,但是PPT僅僅是截取視頻的整個畫面;
- 播客場景:暫不支持摘要提取,只能復制文本內容,需要自行加工;
通義智文:一個文檔電子書籍快速整理閱讀的 AI 平臺
界面體驗:
智文的界面簡約,主要聚焦于閱讀體驗。
使用感受:
閱讀場景覆蓋全面,對于電子書籍,智文能夠提供準確的全文摘要和章節(jié)總結,極大地提高了閱讀效率。(移動端推薦 “Cubox” 對于間斷的公眾號、網頁文章體驗不錯,就是需要付費體驗摘要、問答等 AI 能力)
三、天工 AI
所屬公司:北京昆侖萬維科技股份有限公司 發(fā)布時間:2023年7月5日 榜單:#15 數(shù)據(jù)來源:點點數(shù)據(jù)
天工AI是由奇點智源和昆侖萬維聯(lián)合開發(fā)的一款綜合型大模型平臺,它集成了搜索、對話和創(chuàng)作等多種功能。
界面體驗:
- 天工AI采用了瀏覽器式的界面布局,這種設計貼合了產品的功能定位。然而,其背景設計較為復雜,可能會對用戶造成視覺疲勞。
- 功能入口清晰,便于新用戶快速熟悉并使用各項功能。
使用感受:
- 在回答問題方面,天工AI展現(xiàn)出了較高的答案完整性。它能夠結合全網搜索,提煉并展示相關的新聞資訊鏈接,這不僅提高了回答的可信度,也增強了專業(yè)性。
- 答案生成過程中,天工AI能夠準確標注信息來源,這是其一個突出的特點,幫助用戶理解答案的依據(jù)。
- 天工AI在處理各類信息時表現(xiàn)出色,能夠快速匹配并提供豐富的背景資料,滿足用戶的多元化需求。
四、kimi
所屬公司:Moonshot AI 發(fā)布時間:2024年1月12日 榜單:#13 數(shù)據(jù)來源:點點數(shù)據(jù)
Kimi Chat是Moonshot AI推出的一款功能豐富的工具,專注于整理資料、處理文件和提供快速網址訪問。它在簡化日常工作流程方面展現(xiàn)出了顯著的優(yōu)勢。
界面體驗:
- Kimi Chat采用了簡潔而清晰的界面設計,以瀏覽器形式呈現(xiàn),為用戶提供了舒適和直觀的使用體驗。
- 背景設計干凈且現(xiàn)代,這不僅降低了視覺干擾,也增加了用戶操作的便捷性。
使用感受:
- Kimi Chat在速讀新聞和總結文章方面表現(xiàn)突出。它能夠快速解析和歸納大量信息,極大地提高了工作效率。
- 與天工AI相似,Kimi Chat在回答問題時會聯(lián)網搜索相關新聞資訊,盡管它在信息來源的廣度上不如天工AI全面,但在文章鏈接和電子書籍的快速解析上則表現(xiàn)更為出色。
- 綜合來看,Kimi Chat在快速處理和總結大量文本資料方面具有明顯優(yōu)勢,尤其適合于快節(jié)奏的工作環(huán)境。
五、文心一言
所屬公司:百度 發(fā)布時間:2023年6月29日 榜單:#8 數(shù)據(jù)來源:點點數(shù)據(jù)
文心一言,作為百度研發(fā)的全新一代知識增強大語言模型,不僅在對話互動上表現(xiàn)出色,還在問題解答和創(chuàng)作協(xié)助方面提供了高效的幫助。該模型特別擅長文案生成和潤色,以及幫助用戶制定計劃和獲取信息。
界面體驗:
- 文心一言的界面設計采用了直觀簡潔的布局,減少了視覺上的干擾,使用戶能夠專注于問答交互。
- 界面上無多余修飾,提供了沉浸式的用戶體驗,使得信息檢索和交互過程更為流暢。
使用感受:
- 在專業(yè)知識回答方面,文心一言的表現(xiàn)略遜于通義千問,但在文案潤色和計劃制定等方面的能力卻十分出色,特別適合用于日常的文案處理任務。
- 獨特之處在于,文心一言在用戶輸入完畢后能夠提供一鍵優(yōu)化指令的功能,這一點在用戶體驗上極為便捷。
- 盡管在生成過程中偶有卡頓,但整體而言,文心一言在幫助用戶高效獲取信息和知識方面發(fā)揮了顯著的作用。
六、訊飛星火
所屬公司:科大訊飛 發(fā)布時間:2024年6月13日 榜單:#21 數(shù)據(jù)來源:點點數(shù)據(jù)
訊飛星火是科大訊飛推出的新一代認知智能大模型,它憑借其跨領域的知識庫和語言理解能力,為用戶提供自然對話方式的任務理解和執(zhí)行。這一模型不斷從海量數(shù)據(jù)中學習,致力于解決問題的全流程閉環(huán),從提出問題到規(guī)劃解決方案。
界面體驗:
訊飛星火的界面設計遵循了AI大模型的常規(guī)布局,提供了沉浸式的問答體驗。界面簡潔,無過多修飾,便于用戶專注于與模型的交互。
使用感受:
- 雖然在專業(yè)知識方面的表現(xiàn)略顯不足,但其在邏輯推理、解題和寫作等教育相關領域表現(xiàn)出色。
- 在實際應用中,訊飛星火特別適合于教育和學習場景,其對問題的理解和答案的提供都表現(xiàn)得十分專業(yè)。
七、智普清言
所屬公司:智譜華章 發(fā)布時間:2023年8月14日 榜單:#26 數(shù)據(jù)來源:點點數(shù)據(jù)
智普清言,由智譜AI公司在2023年訓練的GLM-4語言模型,是一款基于深度學習技術的自然語言處理模型。通過學習大量文本數(shù)據(jù),它能夠理解和生成自然語言,針對用戶問題和需求提供適當?shù)拇饛秃椭С帧?/p>
界面體驗:
- 智普清言的界面遵循AI大模型的常規(guī)布局,提供沉浸式問答體驗。界面設計集中在功能性和易用性,助于用戶快速理解并使用各項功能。
- 智普清言特別增加了功能入口和靈感大全,提升了操作便利性,使用戶易于接觸和探索更多功能。
使用感受:
- 在處理一些專業(yè)或深層次問題時,表現(xiàn)有較大的驚喜,其回答的準確性和深度表現(xiàn)不錯。
- 智普清言在生成式的回答方面也表現(xiàn)不俗,可以生成較為流暢和通順的回答。
- 智普清言在回答完成之后還會根據(jù)歷史提問智能推薦相關問題或知識,幫助用戶更加深入了解。
- 智普清言還能自己定制智能助手,并且按照自己的專業(yè)喜好進行訓練,幫助用戶更好的完成專業(yè)工作或者處理生活事項。
八、Gemini
所屬公司:Google 發(fā)布時間:2024年2月6日 榜單:#13 數(shù)據(jù)來源:點點數(shù)據(jù)
Gemini 是 Google 推出的原生多模態(tài)大模型,Google 稱 Gemini 是其歷史上最強大、最通用的模型,在許多基準測試中都具有最先進的性能。Google DeepMind 的 CEO Demis Hassabis 稱 Gemini 可以像人類一樣理解我們周圍的世界,并吸收任何類型的輸入和輸出,包括文本、代碼、視頻、音頻和圖像。Gemini 模型從大到小分為 Ultra,Pro,Nano 三個版本。其中 Pro 版本已經整合到谷歌的 Bard 平臺中,但目前僅支持英文地區(qū)的用戶使用。
界面體驗:
- Gemini的界面設計緊隨其功能多樣性,呈現(xiàn)出極簡風格,便于用戶專注于與模型的互動。
- 雖然在模型能力介紹方面的信息不如其他平臺詳盡,略增加了用戶學習成本,但整體上為用戶提供了清晰、直觀的交互體驗。
使用感受:
- Gemini背靠Google強大的搜索引擎,特別在基于網絡搜索的問題處理方面表現(xiàn)出色。它能夠整合網絡資源,提供全面、多樣的答案。
- 對于專業(yè)性較高的問題,Gemini的表現(xiàn)尚有提升空間,可能與語言處理能力相關。在答案的完整性和專業(yè)度方面相比通義千問有所不足。
- 總體來看,Gemini在多模態(tài)處理和網絡資源整合方面展現(xiàn)了顯著的優(yōu)勢,尤其適合處理需要廣泛信息整合的查詢。
九、Claude
Claude是Anthropic開發(fā)的一款人工智能聊天機器人,Claude可以理解自然語言并生成相應的回復,和人類進行基本的對話與交流,相比其他大模型語言更加人性化,Claude具有一定的情感理解能力,可以從對話中解析出對方的情緒變化和態(tài)度,并在一定程度上調整自己的回應語氣。Claude的知識和理解能力還比較有限,它更類似于一個知識圖譜+搜索引擎,可以在已有知識上快速匹配和檢索信息,但還無法進行復雜的推理或深入分析。
界面體驗:
- Claude的界面設計保持了簡約風格,便于用戶進行流暢的交互。這種設計雖不復雜,但卻充分滿足了與AI進行自然對話的需求。
- 用戶界面注重功能性和易用性,使得即使是初次接觸的用戶也能快速上手。
使用感受:
- Claude在自然語言處理方面表現(xiàn)出色,尤其是在理解用戶輸入和生成人性化回應方面具有顯著優(yōu)勢。
- 盡管知識和分析能力相對有限,它更像是結合了知識圖譜和搜索引擎的工具,能在已有知識范圍內快速匹配和檢索信息。
- 在實際使用中,Claude尤其適合于需要情感理解和基本信息檢索的場景,提供了友好和自然的交流體驗。
十、Perplexity AI
所屬公司:Perplexity AI 發(fā)布時間:2023年3月27日 榜單:#47 數(shù)據(jù)來源:點點數(shù)據(jù)
Perplexity AI是一個先進的AI工具,專注于提供深入的、以問題為中心的搜索和分析。它通過理解和分析用戶的查詢,提供相關和深度的答案,不僅僅是傳統(tǒng)搜索引擎的結果列表。
界面體驗:
- Perplexity AI的界面簡約,突出搜索功能,減少了視覺干擾,使用戶更易于專注于搜索任務。
- 所有功能都是直觀的,提升易用性。
使用感受:
- 整個搜索和獲取答案的流程是流暢的,響應時間非常迅速,即使是復雜查詢也能迅速回應。用戶從提出問題到得到答案的體驗是無縫的。
- Perplexity AI在提供深度、有針對性的搜索結果方面表現(xiàn)出色,但是,它在理解一些極其復雜或模糊的查詢方面仍有提升空間。
十一、Poe
所屬公司:Quora 發(fā)布時間:2022年12月19日 榜單:#90 數(shù)據(jù)來源:點點數(shù)據(jù)
Poe(Platform for Open Exploration)是由Quora開發(fā)的一個人工智能聊天機器人平臺。這個平臺匯集了多種AI聊天機器人,如ChatGPT、Sage、Dragonfly和Claude,使用戶能夠與它們進行互動并獲取信息。
界面體驗:
- Poe的界面設計契合自身功能定位,充分考慮到用戶導航需求,旨在減少用戶的認知負擔,使用戶能夠迅速開始與AI的互動。
- Poe的閱讀體驗不佳,文字內容的字號以及行間距不太合理,使得文本過于密集,閱讀舒適性過低。
使用感受:
- Poe展現(xiàn)了一定程度的個性化,用戶可以根據(jù)自己的需求,選擇相應的AI 助手或者自定義AI機器人進行對話。
- Poe的語音識別技術非常先進,可以準確識別用戶的語音指令,并進行相應的回復,但是在語義理解方面有待提高。
十二、豆包
所屬公司:春田智韻(抖音) 發(fā)布時間:2023年8月24日 榜單:#3 數(shù)據(jù)來源:點點數(shù)據(jù)
AI工具“豆包”是由抖音集團推出的一款免費的智能對話和創(chuàng)作助手。它基于云雀大模型,可以實現(xiàn)文本生成、圖像生成、語音交互等多種功能。
界面體驗:
- 豆包的界面設計簡潔且直觀,沒有過多的繁瑣元素,讓人一目了然。
- 導航清晰明確,新用戶也能快速上手,降低學習成本。
使用感受:
- 在學習場景、輔助閱讀方面表現(xiàn)出色,能快速響應,并流暢生成答案,但是在語義理解以及知識庫的廣度略顯不足。
- 左側導航欄提供了更加專業(yè)的“智能體”,用戶可以選擇其進行定向、專業(yè)的解決問題,主要是學習、寫作、情感聊天方面表現(xiàn)出色。
十三、PopAI
所屬公司:INAI PTE 發(fā)布時間:2023年10月12日 榜單:未計入 數(shù)據(jù)來源:點點數(shù)據(jù)
PopAI 是一款由美國人工智能公司 PopAI Inc. 開發(fā)的 AI 工具,它基于 GPT-3 大模型,可以幫助用戶進行內容創(chuàng)作,也可以幫助用戶閱讀和理解現(xiàn)有內容。用戶可以上傳各種格式的文檔,包括 PDF 文件。
界面體驗:
- 界面上的排版清晰,主次功能區(qū)分明顯,層次感強,便于閱讀。
- 導航結構清晰,用戶可以很容易地找到他們需要的功能。
使用感受
- PopAI在閱讀 PDF 并生成摘要和圖表上表現(xiàn)優(yōu)異,準確率以及處理速度都不錯;
- PopAi 還可以幫助您制作演示幻燈片或用于其他目的的草稿文本,并且提供了一些PPT、Word等類型模板供用戶選擇,并且能幫助用戶優(yōu)化生成ppt、pdf等,極大程度上方便用戶。
十四、chitchop
ChitChop是抖音集團發(fā)布的一款人工智能輔助工具海外產品,可為用戶提供多達200+智能機器人服務,通過提供創(chuàng)意靈感、提高工作效率來服務用戶的工作和生活。它是基于Skylark大語言模型創(chuàng)建的AI工具集合。
界面體驗:
- 界面布局符合產品定位,卡片顏色與背景形成鮮明對比,突出重要功能;
- 將所有工具通過瀑布流卡片的形式展現(xiàn),方便用戶精準選擇;
使用感受:
- 和豆包同屬抖音集團,覆蓋場景比豆包更全,當選擇不同智能體的時候會自動幫用戶發(fā)送提示語,可以直接發(fā)送當前場景下的問題,降低用戶學習成本。
- 在響應時間上表現(xiàn)良好,但是答案的完整性上略有欠缺;
- 在文案比如工作日報、周報、寫作、擴寫、潤色等方面表現(xiàn)更佳;
十五、騰訊混元
騰訊混元大模型是騰訊公司推出的一款基于Transformer架構的預訓練語言模型,擁有超千億參數(shù)規(guī)模,預訓練語料超2萬億tokens。具有強大的自然語言處理能力。它能夠理解和生成人類語言文本,同時支持多語言,為開發(fā)者提供了豐富的API接口和工具,方便集成到各類應用中。
界面體驗:
混元大模型的用戶界面簡潔直觀,優(yōu)化的用戶操作流程極大地便利了用戶與系統(tǒng)的交互。界面的清晰度和直觀性使得用戶即便是初次使用,也能輕松上手。
使用感受:
- 文生圖方面表現(xiàn)優(yōu)異,生成時間以及對語義的理解上表現(xiàn)不錯,但是在生成的風格上效果欠佳,和表達的不太一致。
- 在專業(yè)知識方面,表現(xiàn)尚可,生成速度以及連貫性表現(xiàn)不錯,答案完整性以及專業(yè)度有待提高。
十六、360智腦
所屬公司:奇虎360 發(fā)布時間:2023年7月21日 榜單:未計入 數(shù)據(jù)來源:點點數(shù)據(jù)
360智腦大模型是由360自行研發(fā)的AI大語言模型。它規(guī)模龐大,參數(shù)達到千億級別,使其具備了跨模態(tài)生成的能力。它能夠處理各種形式的數(shù)據(jù),包括文字、圖像、語音和視頻等,因此在文本生成、圖像生成以及文本到視頻的轉換等多個領域都能發(fā)揮重要作用。
界面體驗:
- 360智腦的界面設計采用了直觀簡潔的布局,減少了視覺上的干擾,使用戶能夠專注于問答交互。
- 適用場景以及場景模板外漏,降低用戶學習成本。
使用感受:
- 360 智腦背靠360搜索引擎,問答的廣度以及時效性表現(xiàn)不錯。
- 在專業(yè)度上的效果欠佳,目前的答案完整性有待提高。
- 創(chuàng)新性以及個性化上體驗不錯,以數(shù)字人的概念來包裝不同專業(yè)場景,讓用戶對話感受上更加人性化。
十七、其他 AI 工具探索
除了上述詳細評測的主要工具外,還有許多值得一提的AI工具在特定領域展現(xiàn)出了獨特的價值。這里簡要介紹一些我個人認為非常出色的平臺:
創(chuàng)作類工具
- 如廣為人知的Midjourney,它在創(chuàng)意藝術生成方面展現(xiàn)了令人贊嘆的能力,盡管學習成本較高。
- Stable Diffusion同樣引人注目,提供了豐富的創(chuàng)意激發(fā)和藝術創(chuàng)作功能。
- 國內的Vega AI則在本地化創(chuàng)作上有著出色表現(xiàn)。
音視頻類工具
- Google的MusicLM引領了將文本轉化為音樂的新趨勢,為創(chuàng)意音樂制作提供了全新的可能。
- Rask則在提升口語能力方面表現(xiàn)突出,尤其適合于英語學習者。
- Sora和Runway等工具在視頻編輯和處理方面提供了高效和創(chuàng)新的解決方案。
綜合評價
2024年注定是AI產業(yè)快速發(fā)展的一年,也是AI工具逐漸普及的一年。這些工具不僅能提升我們的工作效率,處理復雜任務,也正在逐步改變我們的日常生活和創(chuàng)作方式。從大型互聯(lián)網公司到智能手機制造商,都在積極布局AI市場,推出了眾多具有創(chuàng)新性和實用性的AI功能和應用。我們有理由相信,未來AI將在更多領域展現(xiàn)其獨特的價值和影響力。
十八、總結
回顧2024年AI領域的發(fā)展,我們見證了從大型語言模型到多模態(tài)工具的飛速進步。這些AI工具不僅為專業(yè)人士帶來了前所未有的便利,也逐漸滲透到了我們日常生活的每個角落。
本篇文章中,我嘗試評測了市面上的一些主流AI工具,從ChatGPT-4的深度交互到通義系列的廣泛應用,再到Gemini等工具的創(chuàng)新能力。每一款工具都以其獨特的方式對我們的工作方式和思維模式產生了影響。
值得一提的是:這些工具仍在不斷進化。隨著技術的發(fā)展和市場需求的變化,我們可以期待未來它們將帶來更多驚喜和可能性。同時,我們也應警惕這些工具可能帶來的挑戰(zhàn),如信息安全和隱私保護等問題。
總體而言,2024年標志著AI技術的一個新里程碑。除了各大互聯(lián)網公司研發(fā)各類大模型平臺,手機廠商也在投入大量的資源去布局 AI 市場。并且去年各大手機已經推出了一些 AI 智能功能:像我們 OPPO 推出了通話摘要、智能消除、合影優(yōu)化等智能、實用且廣受好評的功能。今年我們也將推出基于 OPPO 自研大模型有關于圖像創(chuàng)作、通話以及辦公等場景的一系列便捷、實用且智能的功能與能力來方便用戶的生活、工作,大家可以期待一下。
作者:咚咚
本文由 @咚咚 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
感覺分析的方向上有點兒偏,每家都有側重的場景內容,界面交互層面沒什么分析的必要
這些產品頁面上都差不多,核心差異化還是再各自AI生成內容的差異上