全球?qū)@麛?shù)據(jù)怎么玩才有趣?之 聚類算法(三)
文章通過(guò)實(shí)際應(yīng)用案例,展示了聚類算法在專利數(shù)據(jù)分析中的實(shí)用性,為技術(shù)研究方向的挖掘提供了一種有效的方法。
一、說(shuō)職場(chǎng)故事
在產(chǎn)業(yè)研究中,有以下研究需求:
- 洞察行業(yè)龍頭企業(yè)所聚焦的技術(shù)領(lǐng)域。
- 追蹤某位專家的研究方向及其演變。
- 把握某一產(chǎn)業(yè)領(lǐng)域近年來(lái)的技術(shù)發(fā)展趨勢(shì)
那今天講解如何利用全球?qū)@麛?shù)據(jù)來(lái)實(shí)現(xiàn)這些研究目標(biāo),在此之前,讓我們先了解聚類算法的相關(guān)知識(shí)。
二、聚類算法
聚類算法是一種無(wú)監(jiān)督學(xué)習(xí)方法,旨在將數(shù)據(jù)集中的對(duì)象劃分為若干個(gè)類別或簇,使得同一類別內(nèi)的對(duì)象相似度較高,不同類別之間的相似度較低,簡(jiǎn)言之就是自動(dòng)實(shí)現(xiàn)“物以類聚,人以群分”。
常見的聚類算法有K-means、層次聚類、DBSCAN、譜聚類、高斯混合模型、模糊C-means、K-medoids、Mean Shift、OPTICS、BIRCH等,不同的聚類算法各有優(yōu)缺點(diǎn),適用于不同類型的數(shù)據(jù)和不同的應(yīng)用場(chǎng)景。選擇合適的聚類算法通常取決于具體的需求、數(shù)據(jù)的特性和計(jì)算資源。不同的聚類算法介紹、優(yōu)缺點(diǎn)可參考該份資料
https://blog.csdn.net/Java_college/article/details/136173448
三、說(shuō)應(yīng)用場(chǎng)景
聚類算法在全球?qū)@麛?shù)據(jù)挖掘中發(fā)揮著重要作用,可用在以下研究場(chǎng)景:
- 分析企業(yè)技術(shù)研究方向及趨勢(shì)分析
- 分析某位專家研究方向及研究趨勢(shì)
- 分析某個(gè)產(chǎn)業(yè)領(lǐng)域技術(shù)發(fā)展方向及趨勢(shì)
1. 應(yīng)用場(chǎng)景一:分析企業(yè)技術(shù)研究方向及趨勢(shì)分析
以A企業(yè)為例,我們可以通過(guò)查詢其專利數(shù)據(jù)集,利用模型或第三方接口提取技術(shù)關(guān)鍵詞,再通過(guò)聚類算法整理出技術(shù)清單,這些清單將直觀展示企業(yè)的主要研究方向。若要觀察企業(yè)技術(shù)演變趨勢(shì),我們可以根據(jù)專利的“申請(qǐng)日期”將數(shù)據(jù)分為不同時(shí)間段,然后通過(guò)聚類算法分析,便可揭示企業(yè)在不同時(shí)期的技術(shù)發(fā)展軌跡。流程如下:
2. 應(yīng)用場(chǎng)景二:分析某位專家主要研究方向及研究趨勢(shì)
方法同上,其核心是獲取專家的專利數(shù)據(jù)集。流程如下:
3. 應(yīng)用場(chǎng)景三:分析某個(gè)產(chǎn)業(yè)領(lǐng)域技術(shù)發(fā)展方向及趨勢(shì)
以人工智能領(lǐng)域?yàn)槔?,我們可以采用相同的方法,通過(guò)聚類算法分析近年來(lái)的技術(shù)方向,揭示該領(lǐng)域的技術(shù)發(fā)展趨勢(shì)。流程如下:
四、寫在后面的話
本章我們探討了如何通過(guò)聚類算法從全球?qū)@麛?shù)據(jù)中挖掘技術(shù)研究方向,需要注意的是:
(1)聚類算法不僅適用于全球?qū)@治?,同樣可以擴(kuò)展到頂級(jí)期刊和全球項(xiàng)目數(shù)據(jù)集的分析中。
(2)聚類算法常與大型模型結(jié)合使用,以更精準(zhǔn)地提煉技術(shù)關(guān)鍵詞。
本文由 @王海濤 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
文章中直觀的圖表和報(bào)告,可以幫助我們快速洞察行業(yè)趨勢(shì)、技術(shù)熱點(diǎn)以及競(jìng)爭(zhēng)對(duì)手的動(dòng)向。