基于生成式AI的AI相機簡易設計方案

0 評論 3112 瀏覽 5 收藏 30 分鐘

生成式AI的爆火,給產品設計帶來了更多可能性,產品工作人員可以嘗試將AI技術落地至應用中,比如本篇文章里,作者就嘗試基于生成式AI梳理了一份AI相機應用的設計方案,一起來看看。

文章結構:

一、用戶群體

1. 一般用戶

女性,不了解AI生成技術,不會使用,對于繁瑣操作不了解,沒有系統學習過攝影技術的用戶(絕大部分女性)。

產品核心,簡單,可視化,比起繁瑣的操作,越簡單這類用戶使用的可能性就越大,越是視覺化的展示,該類用戶的操作可能性就越大。

產品一定要具有社交功能,同時要有追隨熱度的準備。

產品效果一定要好看,而且玩法功能要是不是更新/推出新玩法,保證用戶熱情。

2. 核心用戶

一般用戶中,對于AI寫真/藝術照片等功能感興趣,同時愿意嘗試的用戶,該類用戶付費使用會導致部分用戶流失(先付費再使用不合理)。

妙鴨相機模式:

應該先嘗試后定制模式,用通用模型生成結果加AI換臉,使得結果更像用戶,這樣用戶嘗試滿意后再定制,可能機會更高。

3. 專業型用戶

對AI繪畫/攝影有了解的用戶,該類用戶需要在平臺獲利,才能長久的為產品帶來優質的模版??梢钥紤]在社交版塊對這些用戶生成的模版進行付費買斷,或者感知使用次數付費。

二、用戶需求

1. 社交性需求

社交需求是最常見的用戶需求,主要分為三類。

第一類,跟風爆點/熱門類話題。

該類需求和當下熱度時刻相關,2022年的原神大頭特效就是最好的例子。

該類特效可以通過開源的deepfacelab完成,AI相機想要滿足該類用戶的需求,必須做到緊追互聯網熱點,如在2023年4月推出AI相機,最好的模型應該是“多巴胺服飾模型”

關注社交熱度完成部分可行功能,是AI相機長期運營的一種模式。

第二類,創造新話題內容/熱度的需求。

這類主要是內容創作者長期需求,在互聯網的主要表現為,新內容/風格的傳播,如“復古風”復刻DVD的質感特效,獲得流量。

對于該類用戶的需求,滿足一次就是一次巨大的風口他們本身就是流量的創造者,同時該類用戶的需求是最難滿足的,互聯網的流量不可確定性的因數太多,對于AI相機(核心為生成式AI)來說,滿足多樣化的風格是基礎,如前些年流行復古,為了流行賽博朋克/革命元素都有可能,盡可能滿足模型的多樣性是對于這類用戶最好的回應。

第三類,好看/有趣/藝術/獨特的內容分享。

這類用戶需求更貼合AI相機的能力,該類需求滿足方向為——引起用戶的分享欲望,這類社交需求核心就是分享欲,AI相機通過生成內容讓用戶產生正向落差(遠超預期的照片),會激發該類用戶的分享需求。

同時該類用戶的自發推廣,是產品推廣必要的推動。AI相機需要滿足的是夯實內功,打磨AI生成與人物融合的質量,AI生成模型的出圖率與質量等最基礎的質量問題。

2. 自我滿足性需求

自我滿足性需求,同樣是AI相機最核心的用戶群體,AI相機在某種程度上是和美顏相機是一樣的。都能提供快速的,低成本,無痛的身體改造。

美顏相機的出現給予外貌普通的女生快速獲得外貌資本的可能性,這也是美顏相機在需要展示外貌資本行業——直播行業普遍存在的原因,AI相機在某種程度上能部分(隨著技術提升完全)取代美顏相機。

自我滿足需求在用戶個體的表現有以下幾點:

1)外在的展示需求

該類需求和美顏相機一樣,希望通過技術手段獲得外貌資本,用于在社交/聊天/直播等地方獲得優勢。

技術不完善的Stable Diffusion直播生成變臉:

技術較為完善的deep face live直播換臉:

AI相機在實時直播行業的影響在不斷的沖擊美顏相機的市場份額,在該需求層面下,AI相機能完成的結果遠高于美顏相機的,在個人信息的保留——用戶更想她自己,這一核心領域AI相機的表現出色,而這一點恰恰是用戶內心最敏感的點,美顏相機下的五官信息變化較大,AI換臉相機保留用戶五官信息,這能給予用戶心理上的慰藉,

但是deepface核心問題在于肖像權,所有生成式AI的臉部融合結果比起換臉更加安全。

2)內在展示需求

于外在展示需求不同,內容展示需求更具有私密性,內在展示需求的核心在于,用戶的自我取悅。其表現形式上個人寫真等不外傳隱私性極高的照片上, 這類需求主要是女性用戶對于自身“美”記錄的想法,是絕對私密的內容,同時私房照行業的亂象對于這些用戶來說也是“勸退”的關鍵。

AI相機如今的技術能滿足這類用戶的部分需求,而且AI相機更具有私密性,不存在人為的數據泄露問題,同時也減少了用戶家庭環境對于該類用戶指責。

(該類用戶轉化為付費用戶的概率高——定制個人模型的可能性高)

通過生成式AI,獲得用戶喜歡的寫真結果,讓用戶能獲得取悅自己的照片,并且讓用戶幾乎免費獲得高費用寫真的結果(穿搭/妝容/專業攝影費用高昂),同時用戶有選擇風格的權利(“私房照”的選擇權利大部分在拍攝者手中,用戶選擇權利較少)在AI生成恰恰是用戶權利最大的情況,用戶可以按照心情生成自己想要的結果,同時還有指導拍攝的樣式(在現有的結果上提出需要,能減少攝影者的“主觀想法”)。

技術要求為更精細的人體生成結果/環境生成結果,對于平臺的要求為絕對私密的內容保護,可指定的后期修圖。保證用戶內容不會外泄。

3. 記錄型需求

1)情侶記錄需求

這是最普遍的用戶需求,一般情侶用戶喜歡記錄自己相處中的美好細節,這時候AI相機能提供場地/服飾等選擇,對于用戶來說會使得照片的背景環境更加豐富,照片的實際出片效果更好(滿足用戶背景優化/色調優化)。

對于某些原因無法相遇的異地戀用戶,定制一張二人的情侶照片也是對于遺憾的一種彌補(AI生成式的照片定制)。

對于情侶來說頭像也是具有重要記錄意義的,但是網上找頭像容易出現問題,個人定制頭像比較麻煩,不能隨心所欲,AI生成的恰好能滿足部分用戶需求(如q版頭像),生成結果完全能作為情侶的頭像。

2)寵物記錄需求

這類需求的主要表現如貓狗vlog,用戶會記錄寵物的日常生活,該類用戶對于寵物的感情深消費大,構造寵物的獨立模型,生成一些寵物私房照對于該類用戶來說有不錯的吸引力。同時AI相機可以獲得寵物的獨特照片,讓其具有不可替代性。效果如下。

有關于自己狗狗的有趣照片,對于有寵物記錄需求的用戶而言,這是非常有趣的記錄信息。

3)懷舊記錄需求

照片原初的作用其實是記錄,在相機價格高昂的年代,照片承擔的是用戶記憶載體的需求,如今的照片功能更偏向于社交,讓照片的記錄本質其實是很多用戶潛藏的需求,用戶可能遇到過圖片太多要清空的情況,然后很多照片處于“食之無味,棄之可惜”的情況,其核心原因是該類照片的記錄回憶不足以讓用戶產生強烈情感波動,這類照片在攝影價格高昂的年代其實不具備拍攝可能。

限制拍攝/照片的產生結果,某種程度上是可以減少這樣的照片,我們可以在AI相機中推出“每日照片功能”,用戶每天上傳一張照片,同時接合chatgbt的輔助,讓用戶寫下簡短的“今日心情”,AI相機會將圖片/文字/時間/風格接合做出一張日歷圖片,“每日圖片”上傳時間滿一年,我們會將日歷打印送給用戶,讓用戶重新撿起這一年的記憶,通過喚起用戶記錄需求,培養用戶“日記習慣”。

4. 商業化需求(B端需求涉及到sd工作流暫時不做介紹)

1)產品設計圖

AI生成圖片,高效準確,對于如汽車/音響/建筑物等存在現實模型的產品,用戶可以根據pormpt獲得批量產品結果,對于設計來說是生產力工具。

產品設計工作主要涉及到lora訓練/contrelnet使用等,非c端功能,具體工作流,有需要我下期再講。

2)買量廣告素材

買量游戲需要海量的游戲素材,生成AI的搞笑低價對于買量游戲來說是最好的生產工具。

3)服裝模特

眾所周知,略。

三、技術路線與其優勢方向(簡易說明)

1. 常見的圖像生成模型

1)對抗生成網絡

優勢:

  1. gan網絡在圖像對圖像的生成中,對于原信息的保護好。
  2. 生成輸出快,顯卡占用小。
  3. 單一風格變化穩定高效。
  4. 模型單一,不需要其他操作能實現用戶一件操作。

gan模型實例——年齡變化:

風格變化:

gan實例,風格遷移(CycleGAN):

gan實例,高保真人像圖片生成(stylegan3模型的人體毛發生成效果逼真,gan網絡在高保真圖像生成上有很強的效果):

gan網絡對于AI相機的意義在于,能給予用戶一個穩定照片玩法,如臉部變老,變風格等,這些在視頻軟件工具中的常見功能,用戶可以通過這件功能的吸引去開始使用AI相機,低成本的內容生成,可以提升c端用戶數量。

2)Diffusion Model擴散模型

優勢:

  1. 生成內容豐富,可以根據語義變化。
  2. 對于圖片信息的學習較為完整,比起gan網絡限制較少。
  3. 接合姿態點,景深圖可以穩定生成指定姿勢。
  4. lora訓練過程穩定,樣本需求小。
  5. 能完成去噪超分等工作。
  6. 能滿足多樣化需求。

diffusion實例,風格遷移:

目標圖片:

生成結果:

diffusion實例,prompt(提示詞在AI繪畫具有很重要的地位,有可能以后再講)生成。

lora的使用(dva風格的lora)

sd還有很多實際上不錯的生成效果/生成方式,在這暫時不介紹,有興趣可以在sd工作流梳理中進一步介紹。

diffusion是AI相機的核心,作為生成AI負責用戶需求的生成,但是生成的消耗較大,如果免費c端成本較高,可以通過gan滿足部分用戶好奇,在給予每個新用戶部分使用通用模型的權限,方式將用戶數量提升。

2. 其他基礎技術

圖像融合。

圖像融合技術是生成式AI和用戶實際數據產生效果的最后一步,融合產生問題會很大程度上減少用戶對AI相機的依賴性,同時圖像融合式實時AI相機的重要攻克難關。

姿態點估計/景深估計/邊緣檢測/圖像檫除。

略。

四、產品設計——功能設計

1. 用戶權限設計

1)基礎用戶權限

開放部分顯卡算力消耗低的功能免費使用,如stylegangan的年齡變化功能,風格遷移等功能。

開放有限次數的AI寫真/藝術照等,AI寫真照采用通用人物模型生成(在生成結果融合用戶目標圖片給予用戶初次體驗AI寫真的效果)對標妙鴨相機的功能。采用先體驗后定制模式。

開放社區功能,用戶可以瀏覽社區用戶的生成結果和操作步驟,但是無法復制粘貼內容。

開放付費渠道/推廣渠道,用戶可以通過系統任務獲得付費貨幣(推廣產品/推廣鏈接/推廣碼),然后使用單次付費渠道享受付費功能,

2)付費用戶權限(定制模型用戶)

  • 定制模型用戶可以獲得一定的付費貨幣,付費貨幣用于照片的高清下載畫冊定制等。
  • 開放社區全部權限,如一鍵生成社區效果,復制prompt(prompt筆記),社區推薦權利。
  • 開放AI寫真/藝術照的全部權限,用戶可以定制寫真/藝術照等。
  • 開放指定后期功能,用戶可以選擇指定的后期需改自己的照片。
  • 開放隱私功能。用戶的生成結果不保留,同時在用戶保存下載后,會清除app內容的生成結果記錄,保證用戶的個人隱私。

3)會員付費用戶

  • 會員用戶可以無限次數下載內容
  • 會員用戶可以獲得有限排隊權
  • 會員用戶的后期定制權利提升(選擇后期的權利>一般用戶)
  • 會員用戶可以在社區發布懸賞貼(提出自己需求,由其他用戶嘗試得到prompt)
  • 開放高級定制模塊(輸入個人需求prompt)
  • 開放具備重繪功能
  • 開放controlnet功能

4)企業級用戶

對于需要批量生成結果用于推書/買量素材等的用戶,開放批量生成渠道。

對于有AI相機直播需求的用戶,可以定制AI相機直播軟件,適配用戶電腦,同時提供后勤服務。

2. 寫真功能

stable Diffusion 對于圖像生成效果有部分是極好的(在特定的prompt下),該類結果對于用戶而言是社交/收藏的選擇。

1)一般寫真使用流程

寫真功能是AI相機最核心的功能之一,我將工作流程中的用戶反饋細分,AI繪圖的關鍵問題有兩種,一種是用戶對生成結果直接不滿意,一種是對臉部表情不滿意,二者的實際處理方式不同,生成結果不滿——選擇重新生成的,臉部結果不滿意——采用模型中的臉部修復功能/選擇直接融合用戶臉部信息等,保證盡可能的想用戶,如何還不滿意開方人工服務。

同時在用戶重繪內容時,不應該再次排隊,應當預留用戶的操作響應時間,保證用戶的良好使用體驗,用戶結果生成后的10s內,服務器依舊分配給該用戶,在10s沒有進行再次生成,結束任務用戶重新排隊。

2)私密寫真

私密寫真是部分自我滿足需求用戶取悅自己的一種方式,如暴露的衣物加誘人的姿勢構成的圖片,這些圖片女性部分是用作收藏(同時部分用戶會用作販賣——福利姬模式)是否開放私密寫真模式這存在很大的討論空間,但是不變的是,在這發面無論是有需求的一般用戶也好,還是有商業目的用戶也好,她們都有很高的消費欲望(一套私房照500起步,同時會有不利的情況發生)。

私密照片應該作為限制功能,劃分到提示詞的高級模塊,保證該類功能不會被濫用,具體功能為用戶選擇了高級模塊后,可以自主輸入prompt,用戶同時在圖片prompt(給用戶選擇的生成內容提示詞用圖片展示)內容擴展——增加部分普通模式不具備提示詞。后續會介紹。

3)藝術圖片生成

藝術照片和寫真不同,用戶能接受圖片的怪異程度/不想自己的程度高,核心是藝術照片好不好看。

藝術中用戶的五官沒有圖片效果重要,藝術照片的核心是效果,同樣的部分藝術照片想要實現AI換臉的難度極大,不太現實,所以藝術照片的生成流程應該增加是否檢測到人臉布置。

藝術照片的流程:

同樣藝術照片也開設立高級模塊(高級模塊中也有藝術照片)。

4)背景照片/情侶頭像生成功能

用于用戶生成喜好背景,用于手機壁紙/生成畫面選擇等(高級模塊)。

用戶根據需求生成情頭。

具體功能設計略(功能較為場景)。

5)圖片玩法功能

單張圖片說話功能Stable diffusion+wav2lip效果如下(無法展示動態額)。

這是生成結果,限制圖片結果真實256*256,限制較大。

玩法2,生成動圖Stable Diffusion AnimateDiff軟件效果。

效果中會出現很詭異的生成結果,現階段實用性一般,同時真人模型效果一般。

玩法生成漫畫,輸入買火柴的女孩。

生成結果存在問題,但是效果能接受,后續添加用戶寫臺詞功能,會是很不錯的一種玩法。

玩法gan網絡的年齡變化,風格遷移等。

6)指導拍攝功能

生成式AI對于用戶來說是全新的獲得照片模式,但是很多時候AI商用往往是通過特效/圖生圖改變風格將AI作為獲得圖像玩法的一個工具。我簡單的梳理一下美顏相機和和AI相機的操作邏輯。

其實AI生成,用戶是沒有操作干預的,AI是基于提示詞的生成結果,這里就會有一個巨大優勢,當下環境無法滿足攝影需求,但是AI可以提前生成相似結果。生成不受到環境的干預。

場景案例:

明天和朋友外出游玩,需求拍攝好看的外景照片。

AI相機可以提前預設場景/用戶姿勢/光線/鏡頭等攝影參數,生成結果,用戶對于生成結果滿意。相機可以更加生成圖片的prompt,在現實中找到對應的教程,提前知道用戶操作,或者用戶可以記錄為筆記,在有需求的時候進行系統指導拍攝(人物框模式)。

通過指導拍攝,用戶會獲得實際的參與感,讓AI相機發揮相機的基礎職能。

7)預測拍攝功能

上面提到AI相機生產不受到環境影響,同時AI還能做出預測結果。

場景案例:

用戶健身;

用戶健身其實是個長期堅持的結果,用戶短期很難獲得成效,但是AI可以根據用戶訓練模型針對的做出預測訓練效果圖,給予健身用戶目標。

用戶減肥——同理;

房間裝修預測;

用戶根據生成結果,廉價的獲得無數方案,用于指導裝修。

預測效果對于AI相機來說是個實用性很高的功能,特別是涉及到設計類方面其實是個tob的工作流。

8)社區功能(簡單版)

社區交流版塊:

用戶分享生成/拍攝/有趣的事情。

功能:

  1. 一件復制商城圖片的prompt,并且收錄到用戶的筆記本中,方便用戶使用。
  2. 定期評選最佳攝影作品,該最佳作品會生成固定模板供用戶使用。
  3. 推出懸賞機制,用戶吧自己想要的風格做懸賞,用戶完成相應的prompt獲得獎勵。
  4. 推出用戶表情包制作功能。
  5. 推出照片后的故事,用戶賦予自己照片的故事(真實/杜撰),每月評選最佳的照片故事給予獎勵。

社區商業版塊:

  1. 用戶衣服定制,用戶生成結果的衣服可以在商城中發起我想要定制圖片衣物/首飾等,我們會將定制的價格公示,(價格隨著用戶數量的提升不斷減少,最低為成本價格的5倍)假設用戶數量不滿足基礎數量,則告知用戶,商品無法生成。
  2. 推出立牌/撲克牌/明信片等定制服務。
  3. 推出生成結果相識衣物推薦等。
  4. 圖片修復/精修功能。

9)用戶付費功能(簡易)

  • 參考用戶權限
  • 高級提示詞付費
  • 模型定制付費(普通模型/高定模型)
  • 會員付費
  • 直播軟件工具付費(暫時不提)

3. 提示詞設計

1)一般模塊

采用圖片展示代替輸入prompt的形式,讓用戶可以完成視覺操作。

如提示詞雪山,改為的圖像展示。

相機鏡頭的選著也是如此,繁瑣的提示詞不利于用戶的選擇。

其中的鏡頭語言更是讓人摸不著頭腦,光線也是繁瑣。

同樣采用圖片展示加標簽模式,方便用戶使用。

參考常見相機的濾鏡功能。

簡化用戶操作,讓小白也能懂怎么玩AI相機。

提升詞模版化。

根據基礎模板設計用戶選擇的提示詞(視覺操作)。

prompt對于專業使用的人來說是有跡可循的,但是對于普通用戶來說屬于是云里霧里,所以模版化提示詞是必須的(舉例說明:prompt就想做飯,調料的多少對于廚師來說不是問題,對于小白就不一樣了,模板化prompt就是方便面調料包,保證用戶最基本的產出結果)。

4. 高級模塊

開放提示詞輸入權限。

添加局部重繪功能。

添加更多的提示詞展示功能以及AI支援功能,讓用戶更了解這個參數的效果。

五、風險

1. 色情內容生產

核心問題,如何限制捏,我也不知道呀。

2. 肖像權問題

同理。

備注:有不足的地方希望大伙多多指點,小白真的很想轉行去做產品捏,如果有想要我分析的行業也能告訴我哦,跨行找工作太難了,嗚嗚嗚。

本文由 @楊文洪 原創發布于人人都是產品經理,未經授權,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!