【AI agent】熱門(mén)智能體應(yīng)用詳細(xì)拆解,手把手教你搭建Ai智能體應(yīng)用
前幾個(gè)月,各個(gè)大模型公司都發(fā)布了自己的智能體應(yīng)用。這個(gè)智能體降低了AI的使用門(mén)檻,而且更有針對(duì)性。這篇文章,作者通過(guò)幾個(gè)案例教大家如何創(chuàng)建自己的智能體應(yīng)用。
一、 智能體簡(jiǎn)介
1.1 Dream Story
Dream Story是利用Coze平臺(tái)搭建的一款智能體應(yīng)用,可以通過(guò)關(guān)鍵詞或簡(jiǎn)單的描述生成一段圖文并茂的故事畫(huà)本。該應(yīng)用充分的利用了AIGC的文生圖及文生文的能力,將AiGC與實(shí)際應(yīng)用場(chǎng)景深度結(jié)合。上架一周即被Coze官方推薦至首頁(yè),日均會(huì)話(huà)1K+。
我們以此熱門(mén)應(yīng)用,來(lái)開(kāi)始今天的Ai agent智能體應(yīng)用拆解。希望讓人人都可以搭建屬于自己的Ai智能體應(yīng)用。
1.2 體驗(yàn)地址
為了便于您更好的理解和學(xué)習(xí)該應(yīng)用,請(qǐng)先體驗(yàn)試用后再進(jìn)行深度的研究。
DALLE 3 智能體體驗(yàn)鏈接地址:
www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1
二、背景及目的
2.1 需求分析
目前,在小紅書(shū)、抖音等各大媒體平臺(tái)上,通過(guò)AI工具批量生成兒童繪本的案例越來(lái)越多。許多博主借此迅速漲粉,并已具備了變現(xiàn)能力,因此我們基于此切入點(diǎn)準(zhǔn)備做一個(gè)兒童畫(huà)本故事生成的智能體:
2.2 bot功能說(shuō)明
1. 根據(jù)用戶(hù)輸入內(nèi)容擴(kuò)寫(xiě)故事內(nèi)容
請(qǐng)?zhí)峁┮粋€(gè)簡(jiǎn)短的故事開(kāi)頭或主題,我們將根據(jù)此擴(kuò)寫(xiě)出完整的故事內(nèi)容。
2. 將故事內(nèi)容拆分為5個(gè)分鏡內(nèi)容
我們會(huì)將擴(kuò)寫(xiě)后的故事內(nèi)容拆分成5個(gè)主要情節(jié)或場(chǎng)景。
3. 將5個(gè)分鏡內(nèi)容分別生成關(guān)鍵詞
從每個(gè)分鏡內(nèi)容中提取出描述該場(chǎng)景的關(guān)鍵詞。
4. 通過(guò)關(guān)鍵詞生成相應(yīng)的圖片
使用關(guān)鍵詞通過(guò)DALLE 3和Stable Diffusion生成相應(yīng)的圖片。
2.3 bot效果展示
DALLE 3 智能體
體驗(yàn)鏈接地址:
Coze: Next-Gen AI Chatbot Developing Platform
www.coze.com/store/bot/7375114153545187345?bid=6cnmcn3d85g07&from=bots_card&panel=1
問(wèn)題:一位紅衣女俠客在荒涼的戈壁上看到一家客棧
輸出效果:
Stable Diffusion
Bot 鏈接 – Stable Diffusion:
Coze: Next-Gen AI Chatbot Developing Platform
www.coze.com/store/bot/7376115189772648449?panel=1&bid=6cnmeuvqg9g08
問(wèn)題:一位紅衣女俠客在荒涼的戈壁上看到一家客棧
輸出效果:
三、 應(yīng)用制作詳細(xì)步驟拆解
3.1 創(chuàng)建一個(gè)新的Coze項(xiàng)目
創(chuàng)建一個(gè)新的Coze項(xiàng)目的步驟如下:
- 登錄 Coze
- 在左側(cè)導(dǎo)航欄的 My Workspace 區(qū)域,選擇進(jìn)入指定團(tuán)隊(duì)
- 在頁(yè)面頂部進(jìn)入 Plugins 頁(yè)面,或進(jìn)入 Bot 編排頁(yè)面,在 Plugins 區(qū)域單擊 +
- 單擊 Create Bot
- 在 Create Bot 對(duì)話(huà)框,完成配置并單擊 Confirm
3.2 Bot的基本結(jié)構(gòu)
Dream Storybook-DALLE 3主要使用了工作流的方式來(lái)實(shí)現(xiàn)故事與圖片的生成,具體的實(shí)現(xiàn)步驟如下;
3.2.1 bot基礎(chǔ)設(shè)置
- 基礎(chǔ)prompt,定義調(diào)用工作流即可
- Background image,選擇一個(gè)符合場(chǎng)景的圖片
- Voices,兒童繪本選擇一個(gè)能夠吸引小孩子聲音
- 開(kāi)場(chǎng)白,可以使用markdown的格式放一些生成圖片的效果圖,能夠更好的吸引用戶(hù)使用
3.2.2 bot工作流設(shè)置
1、工作流整體結(jié)構(gòu)圖
2、輸入
接收用戶(hù)輸入內(nèi)容,用于后面流程分析
3、LLM大模型解析
模型選擇
-建議選擇GPT-4o或GPT 4 Turbo
-由于用戶(hù)使用bot時(shí)調(diào)用workflow會(huì)增加響應(yīng)回復(fù)時(shí)長(zhǎng)甚至因?yàn)楣ぷ髁鬏^復(fù)雜導(dǎo)致請(qǐng)求超時(shí),如不需要在prompt中處理極其復(fù)雜的邏輯,可優(yōu)先使用GPT-4o
prompt配置
-在工作流中寫(xiě)prompt與在bot中寫(xiě)prompt規(guī)則一致
-Dream Storybook-DALLE 3中prompt解析主要分為以下三部分
1)角色定義
你是一個(gè)兒童繪本的專(zhuān)家,擅長(zhǎng)根據(jù)用戶(hù)的簡(jiǎn)單描述來(lái)創(chuàng)建詳細(xì)且吸引人的故事。
2)流程1:解讀內(nèi)容并生成分鏡
-分析{{input}}內(nèi)容及語(yǔ)言
-創(chuàng)造五個(gè)分鏡內(nèi)容,分鏡內(nèi)容包括標(biāo)題、正文
-每個(gè)分鏡內(nèi)容為一組數(shù)據(jù),生成的標(biāo)題賦值到title,生成的正文賦值到text
-將title、text翻譯成{{input}}對(duì)應(yīng)語(yǔ)言
-將title、text按下方格式嚴(yán)格拼接為一個(gè)json字符串到content中輸出
-最終輸出格式示例,僅供參考:
content:"[ {"title": "title1","text": "text1"},{"title": "title2","text": "text2"},{"title": "title3", "text": "text3"},{"title": "title4","text": "text4"},{"title": "title5","text": "text5"}]"
3)流程2:以分鏡內(nèi)容為基礎(chǔ)生成圖片關(guān)鍵詞
- 將流程1生成的五個(gè)分鏡內(nèi)容分別生成五組適用于DALLE 3圖片生成工具的關(guān)鍵詞
- 關(guān)鍵詞包括三部分內(nèi)容:角色描述、場(chǎng)景描述、通用關(guān)鍵詞。
- 對(duì)于角色和場(chǎng)景的描述都要盡可能的詳細(xì)
- 如分鏡內(nèi)容中涉及到相同場(chǎng)景或角色描述時(shí)相同的部分必須使用相同關(guān)鍵詞
- 與圖片風(fēng)格相關(guān)的關(guān)鍵詞必須使用相同的
- 通用關(guān)鍵詞為默認(rèn)固定值,其默認(rèn)固定值為:dynamic composition、animation aesthetic、children's book illustration、Disney style、in the style ofWalt Disney、fairy tale style、animation aesthetic、peaceful scene、warm lighting、fantasy elements、fantasy scene、dynamic composition、storybook illustration、high detail、hyper quality、masterpiece、highres、cute
- 將五組最終關(guān)鍵詞翻譯成英文詞組,將五組英文詞組作為一個(gè)數(shù)組輸出到prompt
格式如下,僅供參考:
prompt:["","","","",""]
output配置(輸出格式如下)
- content:存放根據(jù)prompt生成的故事標(biāo)題與正文;輸出格式為string字符串
- prompt:存放根據(jù)prompt生成的圖片關(guān)鍵詞;輸出格式為一維數(shù)組
4、code輸出內(nèi)容結(jié)構(gòu)解析
通過(guò)代碼的方式解析content內(nèi)容,由字符串轉(zhuǎn)換成二維數(shù)組,見(jiàn)下方
async function main({ params }: Args): Promise<Output> {
const ret = {
"outputcontent": JSON.parse(params.inputcontent)
};
return ret;
}
//代碼含義解讀:
params.inputcontent 是一個(gè)包含JSON格式字符串的變量,即在LLM大模型解析時(shí)生成的title、text。
JSON.parse() 是JavaScript中的一個(gè)方法,用于將JSON格式的字符串轉(zhuǎn)換為JavaScript對(duì)象。
outputcontent 是解析后的JavaScript對(duì)象,及將input content由一個(gè)字符串轉(zhuǎn)換成一個(gè)二維數(shù)組。
所以,"outputcontent": JSON.parse(params.inputcontent) 的作用是將 params.inputcontent 中的JSON字符串解析成JavaScript對(duì)象,并將其賦值給 outputcontent 變量。
舉個(gè)例子,如果 params.inputcontent 的值是 '{ "title": "在森林里跳舞的開(kāi)始", "text": "小女孩穿著白色的連衣裙,在陽(yáng)光照射下的森林里快樂(lè)地跳舞" }',那么執(zhí)行 JSON.parse(params.inputcontent) 后,outputcontent 的值將是一個(gè)包含兩個(gè)屬性的對(duì)象:
{
name: "Alice",
age: 25
}
如果實(shí)在理解不了,遇到想要將一個(gè)字符串轉(zhuǎn)換為二維數(shù)組的情況,可直接復(fù)制本段代碼,將inputcontent與outputcontent替換為對(duì)應(yīng)的輸入與輸出即可
5、圖片生成
-添加DALLE 3插件,選擇Batch processing 批量生成,即可一次性生成5張圖片
-如選擇Single time則只會(huì)根據(jù)第一條prompt生成一張圖片
6、結(jié)果輸出
最終結(jié)果輸出時(shí)我們需要展示給用戶(hù)是標(biāo)題分鏡內(nèi)容及對(duì)應(yīng)的圖片
1)Selec Mode 可選擇“Answer directly Answer Content(直接使用下方內(nèi)容回復(fù))”
2)固定格式內(nèi)容輸出,可是使用Markdown或html的格式
- ##二級(jí)標(biāo)題
- * 內(nèi)容 * 正文內(nèi)容使用斜體
- ![](圖片鏈接) 將圖片鏈接直接展示
- *** 分割線(xiàn)
## {{outputtext[0].title}}
*{{outputtext[0].text}}*
![]({{outputimage[0].data_structural[0].image_thumb.url}})
***
## {{outputtext[1].title}}
*{{outputtext[1].text}}*
![]({{outputimage[1].data_structural[0].image_thumb.url}})
***
## {{outputtext[2].title}}
*{{outputtext[2].text}}*
![]({{outputimage[2].data_structural[0].image_thumb.url}})
***
## {{outputtext[3].title}}
*{{outputtext[3].text}}*
![]({{outputimage[3].data_structural[0].image_thumb.url}})
***
## {{outputtext[4].title}}
*{{outputtext[4].text}}*
![]({{outputimage[4].data_structural[0].image_thumb.url}})
四、 常見(jiàn)問(wèn)題和解決方案
如何在工作流程確定使用插件的參數(shù)及使用規(guī)則
4.1 為什么要知道插件的用法?
為了確保工作流的順利進(jìn)行,插件參數(shù)的輸入需要嚴(yán)格遵循格式要求。因此,在使用大語(yǔ)言模型(LLM)或其他工具時(shí),必須預(yù)先定義好插件所需的參數(shù)格式,以確保插件能夠成功運(yùn)行。
4.2 如何了解插件的用法?
以DALLE 3和Stable Diffusion舉例,可以在coze上找一個(gè)功能較全的聊天機(jī)器人,直接提問(wèn)“stable diffusion 插件參數(shù)及用法”,回答如下,如對(duì)某一個(gè)參數(shù)有疑問(wèn)可繼續(xù)展開(kāi)詢(xún)問(wèn):
markdown的常見(jiàn)語(yǔ)法
1、我們?nèi)绻胍敵鰞?nèi)容為固定格式需要使用markdown格式,什么是markdown及常見(jiàn)用法可查看下圖
2、該bot中標(biāo)題、分割線(xiàn)、圖片展示等語(yǔ)法
補(bǔ)充stable diffusion 在workflow中調(diào)用方法。
Stable Diffusion的text_prompt格式要求比較嚴(yán)格,需要是數(shù)組格式,此處需要通過(guò)代碼方式解析格式,如果沒(méi)有代碼基礎(chǔ),可以直接修改參數(shù)值后飲用。
第一步:使用LLM大語(yǔ)言模型解析關(guān)鍵詞格式
注意:大模型存在一定解析失敗的概率
– 最終輸出格式如下,嚴(yán)格拼接為一個(gè)json字符串到prompt輸出,最終輸出格式示例,僅供參考:
- 最終輸出格式如下,嚴(yán)格拼接為一個(gè)json字符串到prompt輸出
最終輸出格式示例,僅供參考:
prompt:"[
{
"text": "A(0)",
"weight": 1
},
{
"text": "A(1)",
"weight": 1
},
{
"text": "A(2)",
"weight": 1
},
{
"text": "A(3)",
"weight": 1
},
{
"text": "A(4)",
"weight": 1
}
]"
//prompt輸出參數(shù)名稱(chēng),可替換
第二步:代碼解析字符串格式為數(shù)字
生成單張圖片
async function main({ params }: Args): Promise<Output> {
const ret = {
"outputprompt": JSON.parse(params.inputprompt),
"outputtext": JSON.parse(params.inputtext)
};
return ret;
}
生成多張圖片
async function main({ params }: Args): Promise<Output> {
const inputPrompts = JSON.parse(params.inputprompt); // 假設(shè)是一個(gè)數(shù)組
const formattedPrompts = inputPrompts.map(text => ({
"prompt": [
text
]
}));
const ret = {
"outputprompt": formattedPrompts,
"outputtext": JSON.parse(params.inputtext)
};
return ret;
}
4、 歡迎討論:
生成圖片很難保證一套圖片的角色和畫(huà)風(fēng)一致,大家有什么好的解決方案分享么~ (可以通過(guò)評(píng)論此文檔或者在群聊里溝通哦)
五、如何利用Coze變現(xiàn)
5.1 什么是BlueAD?
BlueAD 是利用生成式人工智能改變營(yíng)銷(xiāo)和廣告行業(yè)的革命性平臺(tái)。它簡(jiǎn)單高效。開(kāi)發(fā)者可以輕松地集成我們的 API,使他們的 GPT 、Coze或其他 AI 軟件從中受益。此外,BlueAD也提供越來(lái)越多的廣告形式和策略,以供廣泛應(yīng)用。
5.2 如何通過(guò)BlueAD變現(xiàn)?
如果你使用Coze、GPTs等AI Agent平臺(tái),都有能夠商業(yè)變現(xiàn)變現(xiàn)的機(jī)會(huì),例如coze只需要將“BlueAD”插件加入到Bot中獲取接入廣告,你的使用者查看了廣告即可獲得一定比例的收入獎(jiǎng)勵(lì),Coze上已經(jīng)有很多高流量的bot已經(jīng)接入了這個(gè)插件,有變現(xiàn)需求和興趣的同學(xué)可以試試~
參考資料:AI Agent 智能體榜單
本文由 @jyc 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!