用 AI 做數(shù)據(jù)分析,是真的快!
在數(shù)據(jù)分析領(lǐng)域,數(shù)據(jù)清洗是一項(xiàng)基礎(chǔ)而關(guān)鍵的工作。它涉及到檢測(cè)和糾正數(shù)據(jù)中的錯(cuò)誤、不準(zhǔn)確、缺失以及多余信息,以確保分析結(jié)果的準(zhǔn)確性和可靠性。傳統(tǒng)的數(shù)據(jù)清洗過(guò)程往往耗時(shí)耗力,但隨著人工智能技術(shù)的發(fā)展,現(xiàn)在我們可以用AI來(lái)加速這一過(guò)程。
數(shù)據(jù)清洗,是檢測(cè)和糾正不合理數(shù)據(jù)的過(guò)程。在大多數(shù)情況下,數(shù)據(jù)分析前都需要這個(gè)過(guò)程,將錯(cuò)誤的、不準(zhǔn)確的、缺失的以及多余的數(shù)據(jù)進(jìn)行修改或刪除。具體來(lái)說(shuō),數(shù)據(jù)清洗會(huì)面臨以下四個(gè)問(wèn)題:
- 存儲(chǔ)格式不一致
- 數(shù)據(jù)不完整
- 存儲(chǔ)形式不一致
- 存儲(chǔ)位置不一致
為了提升數(shù)據(jù)分析的工作效率,最近我嘗試了用 ChatGPT 解決第一個(gè)問(wèn)題,「客戶名稱大小寫不一致」。
我先將需要處理的數(shù)據(jù)和提示詞寫出來(lái),然后分析為什么這樣寫。
lucas green – 415-234-9871 – 1520 Willow Road
emily ray : 607-120-5438 : 304 Birch Avenue
OSCAR WHITE , 202-555-0183 , 1337 Maple Drive
isla brown ; 818-555-1234 ; 2020 Oak Lane
theo moore : 909-555-4545 : 880 Cedar Path
AVA WILSON – 313-555-9072 – 167 Elm Street
mia king , 215-555-9801 , 322 Pine Street
noah lee ; 312-555-6611 ; 410 Birch Boulevard
lily johnson – 415-555-2671 – 518 Juniper Way
JACK TAYLOR : 202-555-0164 : 729 Spruce Lane
sophia martinez – 909-555-5454 – 488 Redwood Circle
ETHAN DAVIS , 606-555-3141 , 1050 Oak Avenue
charlotte smith ; 707-555-5962 ; 191 Maple Parkway
oliver jones : 530-555-8787 : 855 Cedar Street
amelia young – 202-555-0198 – 176 Pine Drive
BENJAMIN CLARK , 213-555-6007 , 132 Elm Lane
zoe anderson ; 408-555-5270 ; 980 Birch Road
harry roberts – 202-555-0143 – 633 Juniper Street
LUCY LEWIS : 505-555-6679 : 215 Spruce Avenue
logan martin – 404-555-4545 – 1120 Willow Lane
emma thompson , 312-555-9800 , 470 Oak Street
LIAM SCOTT ; 213-555-9876 ; 630 Birch Lane
grace hall : 505-555-3245 : 325 Cedar Boulevard
jacob wright – 202-555-0171 – 1220 Maple Drive
VICTORIA ADAMS , 408-555-1337 , 221 Elm Road
james baker ; 312-555-7891 ; 105 Birch Path
isabella carter : 415-555-3141 : 440 Juniper Way
SAMUEL MILLER – 202-555-0190 – 640 Spruce Lane
madison gonzalez , 909-555-1239 , 970 Redwood Circle
joshua perez ; 707-555-2814 ; 108 Oak Avenue
任務(wù)描述:?標(biāo)準(zhǔn)化客戶名稱的字符大小寫。
示例輸入:??
–?JOHN?SMITH??
–?jane?Doe??
–?michael?johnson
期望輸出:??
–?John?Smith??
–?Jane?Doe??
–?Michael?Johnson
詳細(xì)說(shuō)明:?你是數(shù)據(jù)分析專家,將輸入的客戶名稱轉(zhuǎn)換為首字母大寫格式,即每個(gè)單詞的首字母大寫,其余字母小寫。請(qǐng)注意,客戶名稱可能全大寫或全小寫,或者混合大小寫,并且可能包括多個(gè)單詞。同時(shí),請(qǐng)保持聯(lián)系信息的格式不變。編寫代碼后,需要對(duì)原始數(shù)據(jù)進(jìn)行處理,并展示結(jié)果來(lái)進(jìn)行驗(yàn)證。
上面的提示詞中,我用到了三個(gè)技巧,即 One-shot 提示、YAML 格式、強(qiáng)調(diào)格式不變和驗(yàn)證。
我來(lái)分別講講使用這些技巧的好處。
One-shot 學(xué)習(xí)相當(dāng)于給 ChatGPT 一個(gè)例子,把任務(wù)說(shuō)明、示例輸入輸出以及要處理的數(shù)據(jù)全部放在提示中。模型能夠從示例中學(xué)習(xí)到標(biāo)準(zhǔn)化大小寫的規(guī)則,并生成正確的輸出。
你發(fā)現(xiàn)了沒(méi)?我給 ChatGPT 的提示詞是有一定的縮進(jìn)的,它是符合 YAML 語(yǔ)法的文本內(nèi)容。類似的格式能夠讓 ChatGPT 更容易理解你的結(jié)構(gòu)化表達(dá)。當(dāng)然你可以使用類似的格式,而不用完全遵守 YAML 語(yǔ)法,畢竟分析語(yǔ)法的 ChatGPT 會(huì)自動(dòng)“糾正”不規(guī)范的語(yǔ)法的。
你也可以試著輸入一些提示詞,讓 ChatGPT 為你轉(zhuǎn)換成 YAML 格式。你來(lái)對(duì)比一下,會(huì)非常明顯地發(fā)現(xiàn),在理解上,它對(duì)這些規(guī)范格式的提示詞比純粹的自然語(yǔ)言要更準(zhǔn)確。
另外一個(gè)提示詞內(nèi)容上的技巧,就是強(qiáng)調(diào)格式不變和驗(yàn)證。清楚地定義期望結(jié)果,往往是你對(duì) AI 開(kāi)始工作前最容易忽略的一件事情。特別要確保大模型能夠?qū)δ愕墓ぷ饔薪y(tǒng)一的理解。所以,我特意在詳細(xì)說(shuō)明部分,增加了“格式不變”、“展示結(jié)果”、“進(jìn)行驗(yàn)證”,確保能準(zhǔn)確地輸出你想要的結(jié)果。
通過(guò)上面的提示詞,我們拿到了第一個(gè)案例的執(zhí)行結(jié)果,如圖所示:
演示數(shù)據(jù):
姓名,年齡,身高,體重
“John?Doe,?28,?5’11”,?150lbs”
“Jane?Smith,?32,?162cm,?55kg”
“Mike?Brown,?45,?1.68m,?70kg”
“Lisa?Ray,?30,?6’0″,?135lbs”
“Tom?Lee,?33,?170cm,?68kg”
“Lucy?Black,?29,?1.75m,?65kg”
“Sam?Wilson,?24,?5’3″,?120lbs”
“Anna?White,?41,?190cm,?80kg”
“David?Green,?35,?1.90m,?90kg”
“Karen?Hill,?27,?6’2″,?160lbs”
…
該輸出有效地處理各種格式的輸入數(shù)據(jù),正確分離名稱和聯(lián)系信息,并將客戶名稱轉(zhuǎn)換為首字母大寫的格式。
以往進(jìn)行數(shù)據(jù)清洗的「臟活累活」都可以讓 GPT 幫我們完成。而那些需要但個(gè)人不擅長(zhǎng)的統(tǒng)計(jì)學(xué)模型、程序代碼,也可以讓 GPT 來(lái)編寫,我們結(jié)合業(yè)務(wù)來(lái)進(jìn)行驗(yàn)證。
本文由人人都是產(chǎn)品經(jīng)理作者【林驥】,微信公眾號(hào):【林驥】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!