互聯(lián)網(wǎng)已經(jīng)被 AI 污染的差不多了
在數(shù)字時代,人工智能(AI)正以前所未有的速度和規(guī)模改變著我們獲取和消費信息的方式。但隨著AI技術(shù)的發(fā)展,它也帶來了一系列挑戰(zhàn),尤其是在內(nèi)容生成方面。
最近一張用AI批量做號的微信截圖流傳在各個群里,有人自爆用AI在小紅書做了一個龐大的虛假賬號矩陣,通過售賣賬號進(jìn)行變現(xiàn)。
這并非個例,你有沒有一種感覺,現(xiàn)在刷手機(jī)的時候越來越分不清真實和虛擬了?當(dāng)你瀏覽社交媒體、搜索信息或閱讀文章和觀看視頻時,你真的能分辨出哪些內(nèi)容來自人類,哪些又是AI的產(chǎn)物?更令人不安的是,你如何確定你所看到的“事實”不是AI的幻覺?
AIGC是一場互聯(lián)網(wǎng)革命,不幸的是,它的興起也伴隨著內(nèi)容濫用。大量低質(zhì)量、AI生成的關(guān)鍵詞堆砌的內(nèi)容傾瀉到網(wǎng)絡(luò)上,充斥在搜索引擎的結(jié)果當(dāng)中,互聯(lián)網(wǎng)上很大一部分內(nèi)容已淪為垃圾信息。
小紅書上的“細(xì)糠”可能是AI生成的,音樂平臺則充斥著AI生成的歌曲,Spotify上的AI翻唱樂隊,把流行歌曲的翻唱添加到正常歌單當(dāng)中,與真實藝術(shù)家演唱的歌曲一起播放,獲得了數(shù)百萬的播放量并獲得版稅。最近,美國北卡羅來納州一名男子被捕,他用AI制作了數(shù)十萬首歌曲,并通過AI機(jī)器人刷播放量,獲利超過1000萬美元。
連你在亞馬遜上買的電子書可能也是AI寫的。一本使用ChatGPT撰寫的關(guān)于野生蘑菇烹飪的電子書,甚至建議讀者用舌頭去嘗一嘗的方式來識別蘑菇種類。
最悲哀的是,這些垃圾書實際上也賺不了多少錢,賺錢的是教學(xué)生制作垃圾電子書的教程,這完全是一場騙局和垃圾的閉環(huán),而受害者是熱愛閱讀和寫作的讀者與作者。
亞馬遜上出現(xiàn)了大量AI生成的垃圾書籍
01 內(nèi)容農(nóng)場從未如此容易
“內(nèi)容農(nóng)場”是指為了牟取廣告費等商業(yè)利益或出于控制輿論、帶風(fēng)向等特殊目的,快速生產(chǎn)大量網(wǎng)絡(luò)文章來吸引流量。讓用戶在尋找有用信息時不得不耗費更多時間和精力。為了吸引眼球,一些賬號甚至故意發(fā)布虛假信息或夸大事實,誘導(dǎo)用戶點擊。
發(fā)布“西安突發(fā)爆炸”虛假新聞的賬號所屬機(jī)構(gòu),最高峰一天能生成4000至7000篇假新聞,每天收入在1萬元以上,而公司實際控制人王某某經(jīng)營著5家這樣的機(jī)構(gòu),運(yùn)營賬號達(dá)842個。
以前的內(nèi)容農(nóng)場借助廉價勞動力,批量產(chǎn)出文章,比如此前的山東“新媒體村”以及北馬其頓共和國的假新聞影響美國大選等案例。現(xiàn)在,內(nèi)容農(nóng)場也正式從手工作坊進(jìn)入了AI時代。
AI工具使得內(nèi)容生成成本大大降低,單次瀏覽的收入即可覆蓋成本。根據(jù)IT技術(shù)博主阮一峰的計算,使用某國產(chǎn)AI模型生成一篇文章僅需0.00138元,而單次瀏覽的廣告收入約為0.00145元,這種模式使得內(nèi)容農(nóng)場比以往更容易盈利。
“內(nèi)容農(nóng)場從來沒有這么容易過,我先買一個熱搜數(shù)據(jù)庫,然后花費100多元,就能生成10萬篇文章,最后加入廣告,做好SEO,網(wǎng)站上線,等著用戶點進(jìn)來就行了。不難想象,資訊類網(wǎng)站未來大概都是這個模式。真人生產(chǎn)內(nèi)容,成本太高,無法與AI內(nèi)容抗衡,注定只能是小眾網(wǎng)站?!?/p>
除了內(nèi)容農(nóng)場,一些平臺也在利用AI進(jìn)行SEO,把自己打造成為“內(nèi)容農(nóng)場”。
豆包此前為了在搜索引擎里權(quán)重更高,將用戶和AI的聊天頁面生成靜態(tài)網(wǎng)頁,然后被搜索引擎抓取,給自己引流。開發(fā)者社區(qū)稀土掘金也同樣通過AI批量生成大量內(nèi)容被谷歌抓取,這些內(nèi)容缺乏實質(zhì)價值,引發(fā)用戶廣泛批評。
雖然目前豆包和稀土掘金都已經(jīng)移除相關(guān)內(nèi)容,但中文云計算網(wǎng)站和開發(fā)者社區(qū)仍然是內(nèi)容農(nóng)場的重災(zāi)區(qū)。
AI搜索引擎Perplexity通過對搜索結(jié)果添加腳注,鏈接到互聯(lián)網(wǎng)的實時信息源來確保結(jié)果的準(zhǔn)確性,PerplexityCEO也對外聲稱“引用來源是我們的通行證”。
但根據(jù)AI內(nèi)容檢測平臺 GPTZero 在今年6月進(jìn)行的一項研究,Perplexity用戶平均搜索三個關(guān)鍵詞,就會遇到AI生成的內(nèi)容。像“日本京都的文化節(jié)”、“人工智能對醫(yī)療行業(yè)的影響”、“泰國曼谷必嘗街頭美食”以及“值得關(guān)注的年輕網(wǎng)球選手”等搜索,返回的結(jié)果中包含了引用AI生成材料的答案。
這項研究揭示了Perplexity這樣的AI搜索產(chǎn)品在提供優(yōu)質(zhì)來源方面的一個缺陷,也反映出互聯(lián)網(wǎng)正日益充斥著AI生成的內(nèi)容。
關(guān)鍵詞“日本京都的文化節(jié)慶”,唯一引用來源是一篇完全由AI生成的文章
Perplexity還推出了Pages的功能,使用者可以把搜索與生成的內(nèi)容制作成公開頁面,而且搜尋引擎也能收錄。后續(xù)也傳出一些神奇用法,例如假裝詢問AI關(guān)于自家產(chǎn)品的內(nèi)容,然后利用Perplexity Page幫自己的產(chǎn)品做一個頁面,最后被搜索引擎收錄,達(dá)到引流的目的。根據(jù)aHrefs的數(shù)據(jù),Perplexity每月有240萬訪客來自谷歌。
360AI搜索也曾經(jīng)透露,在晚上會借助算力資源使用AI生成答案,每天產(chǎn)生數(shù)百萬的網(wǎng)頁供應(yīng)給搜索引擎。
02 從“內(nèi)容社區(qū)”到“內(nèi)容墳場”
內(nèi)容社區(qū)也是AI入侵的“重災(zāi)區(qū)”,Quora曾經(jīng)是社區(qū)氛圍良好的問答社區(qū),有評論形容其為“更有條理的Yahoo Answers,更古典的Reddit,更主觀的維基百科”。而如今的Quora卻成為了一個信息垃圾場,充斥著無意義的AI生成的內(nèi)容,以及一大堆答非所問的內(nèi)容。
一開始一些用戶使用ChatGPT生成答案,然后秒成Quora的“專家”,后來Quora直接在頁面上集成了ChatGPT生成的答案,而這些錯誤的答案又傳播到了谷歌的搜索結(jié)果中。
“雞蛋可以被融化,常見的方法是用爐子或微波爐加熱”
一位2013年就開始使用Quora的用戶評論道:“最終,Quora將充斥著機(jī)器的提問、機(jī)器的回答,別無其他?!?/p>
開發(fā)者也在借助AI SEO獲取流量,Eightify.app和Glarity.app是兩個Youtube 視頻總結(jié)插件,通過AI技術(shù)批量生成圖文并茂的文章,在短時間內(nèi)獲得了巨大的流量增長。Eightify.app自2022年8月開始運(yùn)營,其月訪問量從幾十萬迅速攀升,于2023年1月達(dá)到峰值600多萬。緊隨其后的Glarity.app也在2023年2月采用類似策略,月訪問量從1月份的10萬激增至3月份的1200多萬。
SEO行業(yè)從業(yè)者哥飛告訴硅星人,搜索引擎也好,內(nèi)容平臺也好,他們不是要干掉AI生成的內(nèi)容,而是要干掉低質(zhì)量內(nèi)容。這些AI生成內(nèi)容能通過谷歌算法審核,表明其質(zhì)量達(dá)到了一定水準(zhǔn),但由于流量增長過快,Eightify.app和Glarity.app引起了全球SEO從業(yè)者的關(guān)注?!叭绻桓傻簦敲淳涂梢哉J(rèn)為谷歌默許這樣做,大家就會跟風(fēng)這樣做?!?/p>
谷歌最終采取了人工干預(yù)措施。要求這兩家網(wǎng)站停止批量生成內(nèi)容的行為,并刪除此前生成的相關(guān)內(nèi)容。最新數(shù)據(jù)顯示,干預(yù)措施生效后,Eightify.app的月訪問量已降至60萬,而Glarity.app更是銳減至20多萬。
SEO污染這樣的事情其實一直存在,以前沒有AI,也有各種小偷爬蟲、偽原創(chuàng)工具,只不過隨著AI的發(fā)展,這場“貓鼠游戲”似乎對于平臺來說越來越難了。
一個有趣的例子是IsaacJinyu在知乎的一次AI臥底實驗,他通過知乎問答數(shù)據(jù)反向生成AI數(shù)據(jù),然后微調(diào)Qwen2-7B,去除文字中的AI味。這個實驗從7月5日開始,到8月3日整整一個月,沒有任何人發(fā)現(xiàn)賬號AI的身份。
03 學(xué)術(shù)圈也被AI攻陷
日益增多的AI生成內(nèi)容其影響遠(yuǎn)不止于屏幕,這種潛移默化的侵入正悄然影響學(xué)術(shù)領(lǐng)域。
進(jìn)年初,西安交大一篇論文因為使用AI生成的配圖而被撤稿,相關(guān)圖片中,大鼠長出了詭異的器官,細(xì)胞信號傳導(dǎo)圖像電路板。
在另一篇論文的一張配圖中,小腿和手臂的骨骼數(shù)量出現(xiàn)了明顯的錯誤。
這只是AI滲透學(xué)術(shù)領(lǐng)域的冰山一角,在谷歌學(xué)術(shù)上搜索“截至我上次知識更新”(as of my last knowledge update)或“我沒有訪問實時數(shù)據(jù)的權(quán)限”(I don’t have access to real time data),會出現(xiàn)大量借助AI生成的論文。
學(xué)者們在壓力之下需在期刊上發(fā)表論文,選擇了使用AI,而學(xué)生在AI的幫助下完成作業(yè)和論文已經(jīng)成為一種常態(tài),“人工代寫”論文變成了“人工智能”代寫。
04 AI訓(xùn)練的惡性循環(huán)
AI模型的準(zhǔn)確性在很大程度上取決于其訓(xùn)練數(shù)據(jù)的質(zhì)量?!袄M(jìn),垃圾出”這一短語起源于計算機(jī)科學(xué)的早期。尤其對于數(shù)據(jù)分析和AI而言,這一原則強(qiáng)調(diào)了一個基本觀念:輸出質(zhì)量與輸入質(zhì)量緊密相關(guān)。
AI生成的內(nèi)容激增,但這些內(nèi)容并非憑空而來,而是基于大量人類創(chuàng)造數(shù)據(jù)的訓(xùn)練。但在這個過程中存在一個潛在的缺陷,隨著這些AI生成的內(nèi)容重新流入互聯(lián)網(wǎng),最終又成為訓(xùn)練未來AI模型的一部分?jǐn)?shù)據(jù)。正如用牛喂養(yǎng)牛導(dǎo)致了瘋牛病一樣,用大量由AI創(chuàng)建的數(shù)據(jù)來訓(xùn)練AI同樣具有破壞性。這是一個自我消耗的過程,導(dǎo)致輸出質(zhì)量越來越低。
谷歌在Google I/O 2024大會上演示了AI簡要概括某人未讀的郵件,隨后演示了生成新郵件以供回復(fù)的功能。不難推斷,收件人將利用AI來閱讀這些郵件,并生成新的AI回復(fù),讓其他人也用AI閱讀。這類功能普及之后,每個人的收件箱是否會充斥著沒有人真正會去閱讀或撰寫的郵件?
AI能制作的又何止是郵件?AI為無人閱讀的AI帖子撰寫無人閱讀的AI評論,生成無人聆聽的包含AI歌曲的歌單,還能為無人訪問的網(wǎng)站創(chuàng)作無人觀賞的AI圖像。
AI生成的《Nothing, Forever》在一個無人觀看的Twitch直播間24小時不間斷地播放著
AI出現(xiàn)之前互聯(lián)網(wǎng)就充滿垃圾,只是有了AI之后,生產(chǎn)垃圾的效率更高了,制造的垃圾產(chǎn)量龐大,而我們在處理這些垃圾的能力上顯然是不夠的。
或許在不久的將來,互聯(lián)網(wǎng)上的合成圖像將比真實圖像更多,合成網(wǎng)站將超過真實網(wǎng)站,AI生成的文本也將多于真實文本:由機(jī)器產(chǎn)生的無盡內(nèi)容,堵塞了一切,浪費每個人的時間。
AI圖片污染互聯(lián)網(wǎng)圖片庫
神話中的銜尾蛇(Ouroboros)吞食自己的尾巴,象征著無節(jié)制增長與自我消耗的陷阱,其圓形形態(tài)也象征著無限和生命的循環(huán)。在現(xiàn)在的故事中,這條蛇代表著AI的世界,而它的尾巴則是源源不斷的AI生成的內(nèi)容。這個循環(huán)就在我們眼前發(fā)生著,也許在這條蛇還沒有完全長大前,我們還有機(jī)會救互聯(lián)網(wǎng)一把。
作者|周一笑 郵箱|zhouyixiao@pingwest.com
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
我喜歡這篇文章 的確是這么回事,未來怎么識別垃圾
這個太難了
下一個賽道:幫人整理知識庫