follow人,還是follow內(nèi)容
天下大勢,合久必分,分久必合。自從有了網(wǎng)站,數(shù)字信息就開始多了起來,直到我們擁有搜索引擎之前,這些信息都沒有被很好地組織。自從有了feed流這個概念,信息突然又瞬間地膨脹了起來,在我們找到一個合適的工具之前,這些信息都沒法被很好地推送到合適的人面前。一直以來,人們從沒停止過要把各種如毛細血管般的流信息整合到一起。特別是一些已經(jīng)遠在墻外的優(yōu)秀網(wǎng)站,做出了很多很好的解決方案,facebook之類的SNS網(wǎng)站試圖通過現(xiàn)實朋友的關(guān)系來組織feed流,無所不包的friendfeed企圖把所有的feed信息都歸于一處(國內(nèi)類似的有今年張教主寫的kanrss),這兩年成為新貴的twitter則使得流信息的產(chǎn)生更容易,接收更便捷,follow即所得。
上述對信息的解決方案都是通過follow人來實現(xiàn),而follow內(nèi)容無疑是另一條可行的路徑。關(guān)于內(nèi)容的分類組織已經(jīng)有很多年的研究與實踐,在鄭昀的這篇關(guān)于Topic Engine的博客中有很詳細的綜述,而對這些分類內(nèi)容的follow,以得到一個類別的信息更新,就我所知,還并不多見。比較知名的如google資訊與google快訊,前者屬于對內(nèi)容的分類組織,后者則屬于對分類內(nèi)容的訂閱或者說follow。依托于google強大的搜索能力,信息的新穎性及廣闊性很有保證,但由于產(chǎn)品的定位并非要作一個詳細的內(nèi)容分類,所以分類比較粗糙,只是一些如門戶網(wǎng)站般的粗分類別而已。
最近上線的cutt.com則希望把這種分類信息推送做到極致,這是一家號稱以語義網(wǎng)技術(shù)作為其底層分析引擎的公司。它的上線,首先要感謝國家,否則也許我們能早幾個月看見它。因為谷文棟的介紹,我得以在早期就對這個有著很大野心但目前還不甚成熟的信息組織引擎有一定的使用體驗。這是一個很有想法的新生兒,但現(xiàn)在有些地方也還不太成熟。
產(chǎn)品與交互方面:
一個由工程師主導(dǎo)的公司容易做出讓人拍案叫絕的創(chuàng)意產(chǎn)品,卻也容易暴露一些產(chǎn)品設(shè)計與交互上的毛病,這也許是因為聰明的工程師們總是很難讓自己處身在大多數(shù)不知情用戶的處境里。
cutt很好的一點是用戶使用零成本,任何一個用戶打開即可用,無需要注冊,也無需進行任何信息填寫。我在匿名狀態(tài)下就能進行大部分的操作,沒有注冊沒有登錄情況下收藏的文章居然還能保存,很激動人心吧!但是可怕的事情來了,一旦我登錄上去,會發(fā)現(xiàn)我之前以為已經(jīng)記錄下來的所有數(shù)據(jù)都不見了。好吧,我也許原以為它會自動地把匿名信息自動導(dǎo)入到我的帳號中。但后來想想,如果它這樣做了,我肯定會更恐懼的。其實我的意思是:我沒有得到任何提示的情況下,我不知道我剛剛還在的數(shù)據(jù)到哪去了。對于普通用戶,可能還有一個困擾就是換個瀏覽器,這些數(shù)據(jù)也沒了,用戶不會覺得自己有錯,他們只會認為是你們把他們的數(shù)據(jù)弄丟了。同樣的情況是我寫的文章反饋,寫完后同樣無影無蹤,雖然我知道cutt的數(shù)據(jù)庫中肯定還有記錄,但大多用戶同樣會認為你把TA的數(shù)據(jù)弄丟了。雖然我不是做產(chǎn)品的,但我覺得這里有一個原則:用戶貢獻的數(shù)據(jù)TA一定還能找回來,否則后果絕不僅是TA不再愿意貢獻那么簡單。
另外就是內(nèi)容方面的,由于是一個新生兒,內(nèi)容頻道還不足夠完善,比如攝影器材方面的內(nèi)容也沒有,因為我最近關(guān)注這個,所以一下就看到了這個,但估計其它方面的頻道還是有缺失。再比如,我發(fā)現(xiàn)cutt不喜歡娛樂,因為很多娛樂版面都還是空的:)。以內(nèi)容為主打的網(wǎng)站的其中一個核心競爭力就是信息的更新速度,而cutt的信息更新的速度還有待提高,我晚上十點鐘時看到的最新文章還是下午五點多的,不知道是受制于爬蟲還是算法的處理速度。另外,展現(xiàn)方式也許還可以改進,簡潔是一種方式,但如果僅僅只是以新聞作為主要載體的話,加入一些具有視覺力的元素可能會更吸引人。
技術(shù)方面:
預(yù)覽:我很喜歡cutt的文章預(yù)覽功能,這樣我就不用點過去等整個頁面加載了。但我不知道還能不能進行進一步的過濾,采用文本摘要技術(shù),把主要內(nèi)容以幾句話就傳遞出來。對于現(xiàn)在快餐型的社會消費習(xí)慣,這無疑是一個很有競爭力的feature。我甚至考慮過由人來對這些摘要信息進行抽取,這也是群體智能的一部分。
來源:據(jù)我的觀察,現(xiàn)在的cutt仍然以網(wǎng)頁這種非結(jié)構(gòu)化信息為主,來源也主要是一些大中型的門戶或資訊網(wǎng)站。實際上在現(xiàn)在這個mashup的年代,網(wǎng)絡(luò)上的RSS源很多,如果能充分利用博客及一些web2.0網(wǎng)站輸出的RSS半結(jié)構(gòu)化信息,信息的來源肯定會更豐富,可分析性肯定更強。當(dāng)然我估計cutt肯定也有這方面的內(nèi)容,只是還沒有更多的放出來。
google reader:曾經(jīng)我是一個google reader的重度用戶,幾乎每天必看,也訂閱了大量感興趣或半感興趣的rss源,并煞有其事地把它們歸類為算法、網(wǎng)絡(luò)、科學(xué)、IT資訊、業(yè)余等等頻道。但后來我已經(jīng)越來越少地去看它,任由那1000+的未讀永遠地停留在左上角。究其原因,是因為follow的內(nèi)容是死的,而follow的人是活的,是有感情因素在里面的,所以如果一個人沒有更多的時間,TA會更傾向于刷自己的微薄,而非冷冰冰的內(nèi)容。但信息的需求還是有的,所以我現(xiàn)在更多地在消費經(jīng)過朋友過濾的信息。如果一個算法能有更好的過濾能力,我還是很樂意去使用的,特別是個性化的信息推薦。因為友鄰?fù)扑]是給所有人的,而非專屬你自己,而這方面,機器可以做的更好。
個性化信息推薦:雖然cutt現(xiàn)在還沒有,但我知道將來肯定會有,現(xiàn)在只不過是要度過一個用戶信息的冷啟動期,貢獻越多,收獲越多。但信息個性化是一個比信息組織難的多的課題,除了考慮內(nèi)容的語義與關(guān)系,現(xiàn)在再加進一層比內(nèi)容要復(fù)雜得多的人的因素,解決好這個問題,任重而道遠。
思想層面:
最后來點虛的。
集體智能的利用:不單是利用用戶隱式的反饋數(shù)據(jù)加以社會化的推薦那么簡單,它更重要地還包括用戶顯式地、自愿地貢獻的內(nèi)容。比如wikipedia的客觀權(quán)威性居然來自于無數(shù)個網(wǎng)民自發(fā)的編輯行動,再比如語義網(wǎng)的標桿freebase的構(gòu)建也是有賴于大量的志愿者對它的貢獻。完全依靠用戶的積極性顯然不行,特別是在國內(nèi)互聯(lián)網(wǎng)環(huán)境中人們往往更樂于索取而非貢獻,怎么能讓用戶快快樂樂地貢獻自己的智慧是一個很難的設(shè)計問題。從另一個角度來思考,這個問題其實也并非那么地困難,我們簡單地估計一下之前紅透半邊天的“開心農(nóng)場”,有多少個網(wǎng)民在那上面花費了多少的時間,折合成被耗費的智慧時間,這該是多么龐大的一個數(shù)字!如果,我們在一個如此盛行的游戲中盛載了一定的智慧任務(wù),而用戶能在玩耍游戲的過程中就能幫助我們解決一個又一個的機器不能解決的智慧難題,這該是多么的激動人心?。?/p>
事實上,在過去的日子里,已經(jīng)有人作過這樣的嘗試,像我上述所提及的一類游戲有其名為Game ith a purpose,就是希望能透過游戲的方式,讓人去解決一些人本身看來顯而易見,但目前的機器學(xué)習(xí)方法仍然無法做好的問題,比如圖片內(nèi)容識別的問題。到目前為止,關(guān)于這種思想最著名的一個案例應(yīng)該就是 reCAPTCHA,這個游戲曾經(jīng)成功地幫助人們解決了印刷物掃描成電子物時某些內(nèi)容無法識別的問題。這樣的一種以人作為驅(qū)動的計算思想,國內(nèi)有人譯之為“人本計算”。
這個留待以后再專門論述。
來源:http://www.wentrue.net/blog/?p=995
- 目前還沒評論,等你發(fā)揮!