奢望AI寫作文?先把校對干好再說
在高考作文題目出來之后,許多網友都用AI大模型做起了測試。那么如果讓AI大模型做簡單的校對工作,它們能做好嗎?在本篇文章里,作者就嘗試利用AI大模型進行了測評對比,一起來看看本文的測評反饋。
連高考作文都能寫,面對更簡單的校對工作,AI大模型能做好嗎?
高考開始后,除了考生之外,最忙碌的可能就是AI大模型們了,有人測試它寫高考作文,有人測試它解數學應用,各家AI大模型,這幾天很忙。
十項全能的AI大模型,連高考考場都敢上,對于相對簡單的校對工作,是不是更不在話下?對此,不同的使用人群,有著不一樣的反饋。
今天,潘哥準備進行AI大比武,選取科大訊飛的訊飛星火、百度的文心一言、阿里的通義千問、360的360智腦、以及OpenAI的GPT4,看看同一文本下,這五家AI大模型,誰的校對能力最好。
一場碳基與硅基生物的較量,以及硅基生物之間的較量,即將在這里上演。
一、字詞校對可以嗎?
對于AI大模型來說,校對時最主要的工作,似乎就是發現錯別字。
對此,潘哥使用例句:“洛陽親友如相問,就說我在岳陽樓?!睂ⅰ跋鄦枴惫室忮e拼成“翔問”,看看這個明顯錯誤,AI能不能發覺。
潘哥發現,在第一輪測試中,訊飛星火、文心一言、通義千問、GPT4,都準確無誤地完成了工作;只有360智腦,潘哥對它連問兩次,都沒有發現其中錯誤。
在第二輪測試中,潘哥利用人們鍵盤打字時,容易拼錯、選錯的失誤,再次給AI挖了個坑。
潘哥的座右銘詩句:“我自橫刀向天笑,笑完我就去睡覺。睡醒我再拿起刀,我又橫刀向天笑。”將“睡醒”拼成“水醒”,看看AI能不能校對出來?
這一輪,勝出者只有GPT4;訊飛星火將“水醒”變成了“水星醒”,文心一言一字未改,通義千問和360智腦,都大幅改動了原句,其中360智腦的畫風略驚悚。
鍵盤拼寫時出現的錯別字,已經讓有些AI難以應付,對于博大精深的成語,AI能否識別呢?
為此,潘哥選擇了一句發瘋文學:“每天上班早起,都有種魂飛魄散的感覺?!睂⑵渲械某烧Z“魂飛魄散”,故意寫作“魂飛魂散”,等著AI跳坑。
潘哥發現,這一輪測試,360智腦、GPT4校對成功;訊飛星火將“魂飛魂散”,改成了“神游物外”;文心一言兩輪校對,都將前半句改成“每天早上都要早起上班”,可見其對上班怨念之深,后半句也給潘哥換了成語;通義千問兩輪校對中,則出現了精神分裂,第一次“如釋重負”,第二次卻“疲憊不堪”。
到這里,潘哥想給AI增加難度,將易拼錯、易寫錯、四字成語疊加在一起,看看AI如何應對?
為此,潘哥使用喪氣文學:“有錢人終成眷屬,沒錢人親眼目睹,我獨自坐在路邊,看得清清楚楚?!睂ⅰ扒迩宄备某伞扒嗲宄保?/p>
這輪測試中,訊飛星火、文心一言、GPT4,都輕松完成了工作;通義千問雖然改對了“清清楚楚”,但固執地要把“親眼目睹”改成“只有干瞪眼”;360智腦則認為句子無誤。
二、語病能否被發現?
僅僅讓AI發現錯別字,難度似乎還不夠,一個合格的校對人員,還應看出文本中的語病。
眾所周知,漢字語序顛倒,有時并不影響閱讀。因此,潘哥選擇詩詞新作:“眾里尋他千百度,驀然回首,那人卻在床上穿秋褲?!睂⒑蟀刖湔Z序打亂,變成“那人床上卻在穿秋褲”,看看AI能發現其中蹊蹺嗎?
可以看出,這輪的勝出者,只有GPT4一家;訊飛星火、文心一言都沒有發現任何錯誤;通義千問改對了語序,卻把“穿秋褲”的人放在了枕上,玩起了高難度動作;360智腦同樣改對了語序,卻畫蛇添足地加了一個“在”字,生成了另一個病句。
除了語序錯誤之外,文本校對過程中,還有些更為隱蔽的語病,沒看過《五年高考三年模擬》的AI,對此會怎么解?
為此,潘哥自創病句:“去年畢業的他,現在就職于一家公司的舔狗工作。”看看這道難題,AI大模型能做對嗎?
在這輪測試中,除了GPT4之外,另外四家AI全部折戟,文心一言更是把“舔狗”直接改成了“助理”;GPT4首輪似乎認為“舔狗”二字不合規,被潘哥改成了“助理”之后,成功修改了語病。
具有明顯語病的句子,已經讓AI感到吃力;對于帶有歧義的句子,AI能否辨別出來呢?
為此,潘哥寫下:“在床上‘葛優癱’了一天,他突然想起來了?!笨纯催@句帶有歧義的話,AI大模型能校對出來嗎?
這一輪測試,除了GPT4發現了其中歧義,其他四家AI再次校對失??;訊飛星火、360智腦對此表示無誤;文心一言將整個句子,重新改寫了一遍;通義千問則刪除了“葛優”二字。
讓AI大模型在校對時,主動識別歧義句,潘哥覺得有難度有點大,如果讓AI直接判斷是否具有歧義,效果又會如何呢?
可以看出,在潘哥直接發問下,文心一言、通義千問、360智腦,都表示句子沒有歧義;訊飛星火指出了解讀歧義,但搞錯了造成歧義的原因;而濃眉大眼的GPT4,這次卻臨陣叛變,表示:“這句話沒有明顯的歧義”。
三、AI校對哪家強?
進行了八輪測試后,潘哥發現,一些AI大模型,總喜歡在校對時,幫你改寫句子,比如在第三輪測試中,很多AI開始了自我發揮。
可以看出,除了GPT4之外,另外四家AI大模型,都對“魂飛魂散”這個錯字成語,進行了替換。
對此,潘哥提示大家,在校對文本過程中,最好在下達命令前,就告訴AI大模型,不許對文本進行改動;否則,AI很可能會放飛自我。
另一邊,AI校對出現錯誤后,如果我們對其進行指正,對方能虛心接受嗎?對此,潘哥繼續采用第三輪測試文本,和AI進行了對話。
潘哥發現,訊飛星火和GPT4,立刻接受了指正,文心一言先把話題岔開,對潘哥打起了感情牌,后來才改正了句子;通義千問和360智腦,雖然承認了錯誤,但仍然沒有理解潘哥意思。
潘哥發現,OpenAI的GPT4,不僅能夠發現錯別字,還能發現語病甚至歧義句;不過,對于文本內容的過度敏感,可能會讓其“罷工”,影響校對的效率。
另一邊,訊飛星火和文心一言,也能發現簡單的錯別字,并且能夠學習校對知識,如果持續訓練一段時間,效果可能會有所提升。
通義千問和360智腦,在文本校對過程中,容易替用戶做主,出現修改句子的行為;同時,兩者都比較固執己見,如果想用其進行校對,恐怕還要再訓練一段時間。
如今的AI大模型,在校對方面還有很多不足,一些復雜文本的校對工作,完全交給AI的話,可能并不讓人放心。
不過,各家AI大模型,都具有持續學習的能力,在不斷的升級迭代后,AI將會引起怎樣的變革,誰也不敢妄下斷言。
作者:潘哥 ;編輯:三火
來源公眾號:智商稅研究中心(ID:gh_c55b3561ece1),塵世套路深,我替你踩坑!
本文由人人都是產品經理合作媒體 @智商稅研究中心 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
牛人
HAHAHA ,看得我笑噴了,可以考慮弄個檢測大模型的題庫啊
你這毫無意義阿,大語言模型本來對中文的語義理解就比較難處理,本身邏輯能力不是很強,所以會要求你寫好prompt。舉個例子,你高速AI“10個”它可能會理解偉“1”和“0”。這本來就是計算機 的缺陷,沒必要犟。