# 如影數字人/如影聲音複刻采集標準
人物采集采集建議重點閱讀第1,5,6,7章節。
# 1. 快速數字人/普通數字人采集標準
# 1.1 拍攝環境&設備
# 1.1.1 拍攝環境要求
安靜的環境:拍攝時沒有外部聲音干擾錄音,包括其他人聲,空調、電扇等電器聲以及其他噪音或震動
乾淨的拍攝背景:
- 不可出現動態背景(視頻、動畫等)
- 不可出現反光、透明、半透明材質的背景
- 拍攝背景中不可出現直接的光源,比如采光窗戶或發光的燈泡
- 建議綠幕拍攝(數字人視頻可換背景)
依據拍攝質量要求配置相應光源,整體光照均勻,背景環境無明顯陰影

# 1.1.2 拍攝設備要求
- 使用可拍攝1080P以上分辨率的單反相機或攝像機拍攝(建議使用1080*1920分辨率竪屏拍攝)
- 配置可連接單反相機(或攝像機)的麥克風,麥克風不要夾在模特身上,建議放置在離模特盡可能近的鏡頭之外的位置,拍攝前提前確認采集的聲音清晰無底噪
- 建議配置提詞器(或使用iPad安裝提詞APP)
# 1.1.3 模特服化道準備
拍攝前清潔面部(男士注意修剪鬍鬚),依據需求適當化妝
整體妝容、服裝、道具以最終數字人想要呈現的效果爲准,但應避免如下情况:
- 避免過于寬鬆的髮型
- 避免有吊墜的耳飾或其他飾物
- 避免髮型或過大的眼鏡遮擋模特下半臉
- 避免反光過强的唇彩或眼影
# 1.2 拍攝采集
# 1.2.1 采集流程
- 拍攝采集的過程整體分爲兩個部分,靜默畫面與口播畫面
- 靜默畫面:整個采集流程前30秒爲靜默畫面采集,模特面向鏡頭保持嘴部閉合狀態(可以模擬傾聽的狀態,可以有自然得體的輕微點頭及微笑,但不宜過多;靜默30秒需始終保持嘴唇閉合狀態)
- 口播畫面:靜默畫面拍攝够30秒後,保持光照環境不變,保持模特pose不變,進入口播畫面采集階段(僅用于短視頻製作的數字人采集5分鐘口播畫面即可;用于直播的數字人可以適當延長口播畫面采集時長,建議可以錄製20-30分鐘)
- 在口播畫面采集階段,口播稿內容、模特語速、情緒、表情、手勢都儘量模擬將來數字人要應用的典型場景(比如將來數字人主要用于旅游産品直播售賣,那麽直接使用旅游産品直播稿,直播賣貨的語速、情緒、表情、手勢來完成采集,儘量模擬真實的使用場景)
# 1.2.2 采集過程注意事項
環境相關:
- 采集過程中保持現場安靜,拍攝時沒有外部聲音干擾錄音,尤其不可出現第二個人的聲音;儘量避免空調、服務器等設備噪音,避免場地其他噪音或環境震動
設備相關:
- 建議以1080*1920分辨率,25fps,竪屏錄製
- 拍攝時使用連接到相機的麥克風同步錄製現場聲音,確保采集的聲音清晰無底噪
模特相關:
- 模特妝容準備完畢,請模特入鏡就位(按具體拍攝要求坐姿或站姿)
- 如綠幕拍攝,模特背部距離綠幕2m以上,避免綠幕浸染(導致後期摳像效果差)
- 請確認模特面部光照均勻,無强陰影(尤其是鼻子下方,鼻側,脖子)

- 請確認模特所處位置位于畫面中合適位置,且不會因拍攝時的肢體動作,導致身體或手部超出鏡頭範圍

- 拍攝時,模特平視面向鏡頭,避免大角度仰視、俯視或側向、背向鏡頭

- 模特說話時口齒清晰,口型保持飽滿。停頓時嘴巴閉合,不留縫隙;避免“張嘴,但不出聲”的情况
- 斷句或兩句間隔時也儘量確保嘴部閉合,不留縫隙
- 提詞器文本幷不是嚴格逐字逐句朗讀,在保持適當情緒、表情的狀態下,允許模特在播報期間,銜接上下文自由發揮念詞
- 若口播視頻采集過程中,模特出現停頓,讀錯,失誤,或其他意外,可完全閉嘴2-3秒後繼續朗讀(但需要避免笑場、咳嗽、清嗓子以及其他發出無關聲音的情况)
- 采集過程,模特可以有自然肢體語言;但身體動作不要過大,避免肩部和頸部的大幅度動作
- 增加一些手勢可以讓生成的模型更自然,但需要確保手勢不要遮擋臉部
- 整個采集過程,保持模特的身體和手勢在視頻框內
- 整個口播視頻采集過程,表情和情緒請模仿想要的數字人場景,比如之後數字人主要用于直播帶貨,采集時就以直播帶貨主播的情緒與狀態去錄製
# 1.2.3 使用手機拍攝采集注意事項
使用iPhone拍攝請儘量關閉HDR,因爲iPhone的HDR算法非開源算法,無法將視頻中的HDR顔色表達完全還原;
iPhone輸出的格式爲mov格式,請轉爲mp4格式後幷確認整體視頻效果後,上傳提交進行人物生成訓練;
# 1.2.4 綠幕采集拍攝采集注意事項
綠幕分割的原理是去綠,將視頻中綠色的部分去除,所以使用綠幕分割需要注意不要有綠色、反綠、透綠的情况反發生,否則會將綠色扣掉,會出現一些錯誤的分割情况;
- 綠幕拍攝請保證只有一種綠色,多種綠色影響分割效果;
- 綠幕拍攝請保證光綫效果,做到綠色幕布區域都是綠色,但是人像物體等非綠幕區域不要有綠色,且不要有任何反綠,透綠,等現象;
- 模特或者非綠幕區域不要有透明,反光等情况,否則可能會將綠色反色,影響分割效果;
如果拍攝前或者拍攝過程中不確定綠幕效果,請參考下一章節"提前預覽視頻綠幕效果"章節內容,提前拍攝一段視頻來確認綠幕效果。
# 綠幕問題相關以及錯誤示例:
- 綠幕區域保證純綠色,下圖左上角和頭頂部有黑色物體、黑點
- 綠幕區域保證純綠色:下圖頂部、底部有非綠色區域
- 裙子縫隙處,有綠色陰影,會影響效果,儘量避免有可能出現陰影的區域;
- 裙子縫隙處,有綠色陰影,會影響效果,儘量避免有可能出現陰影的區域;
- 受光綫影響,底部鞋子中間區域可能會有黑色陰影,需要規避,不然黑綠色分割會出現問題;
- 避免反綠,反綠基本上無法有較好的綠幕效果,下圖中衣服幾乎受强光打到綠幕導致反光的影響,身上都是綠色,很難分割出比較好的效果;
- 避免透明物體,下圖眼鏡片有綠色透過去了,手機膜亮面會反綠,都會造成分割錯誤
- 避免反綠,下圖鞋子有反綠,造成鞋子會被替換爲背景圖
- 避免兩種綠色,下圖主要是身上有反綠,同時又因兩種綠色,無法非常合適地輸出一個好效果。建議避免雙色綠色的拍攝
- 避免剪輯後的圖像有黑邊問題:原視頻拍攝一般沒問題,但是部分綠幕視頻被剪輯軟件處理後,邊緣有非綠色的色條(有時候只有1像素的黑邊肉眼是無法看出來的,在最終合成視頻時才發現有錯誤黑邊問題)
- 支持藍幕、其他色幕布顔色分割,但是效果不如綠幕好,建議使用綠幕拍攝
# 1.2.5 數字人采集視頻驗收標準
請嚴格按照以下項目自檢,保證視頻符合要求,不然會出現任務訓練失敗的情况:
人臉缺失:確保每一幀不能有人臉丟失,不要手或者物品遮擋人臉已經唇部;
多人臉:確保每一幀都不能有兩張人臉(譬如海報中的人臉入境可能會導致失敗);
不要有任何一幀存在有手或者其他物體遮擋唇部的場景,避免髮型或過大的眼鏡遮擋模特下半臉 ,數字人僅僅是口型生成,唇部周邊區域如果有眼鏡框可能導致口型生成錯誤;
大角度人臉:人臉角度建議30°以內,大角度(45°或更多)支持識別,但是有一定概率會失敗。大角度走動示例視頻 (opens new window)
非連續幀:不連續的幀如果保證每幀都有人臉不會失敗,但是訓練後的結果會出現跳幀情况;如果非連續幀出現人臉缺失會導致任務失敗;
格式要求MP4;mov格式不支持;
分辨率推薦使用1080P,支持4k;
FPS要求爲25,若不是25,會將FPS强制轉爲25FPS;
視頻中不要出現外部聲音,尤其不可出現第二個人的聲音;
儘量避免空調、服務器等設備噪音,避免場地其他噪音或環境震動;
綠幕拍攝的視頻注意不要有任何反光的情况出現;如銀首飾,亮面眼鏡框,亮面腰帶等;
注意打光,不要讓人物的身上,或者非綠色物體有反綠的現象發生;如果出現反綠會很影響綠幕分割效果,後續會詳細講解提升綠幕效果的方式;
不可出現動態背景(視頻、動畫等);不可出現反光、透明、半透明材質的背景;
避免反光過强的唇彩或眼影可能會影響綠幕分割效果,唇部生成效果;
# 1.3 提前預覽視頻綠幕效果
使用PAAS平臺預覽綠幕效果
# 1.3.1 圖片綠幕效果預覽
使用PAAS賬號登錄平臺;
點擊頂部"人物模型"—"綠幕效果預覽;
點擊左側"圖片綠幕效果預覽";
填入任務名稱,幷上傳需要確認綠幕效果的圖片或者鏈接,背景色可以設置一些容易看出問題的效果色,如:
點擊"預覽效果"即可創建圖片綠幕效果預覽任務;
成功後,可以點擊預覽圖片,查看效果;也可以點擊右下角的"返回"—"任務類型"—"圖片綠幕效果預覽",查看任務返回結果;
若效果不符合要求可以通過調參更改綠幕效果;
# 1.3.2 視頻綠幕效果預覽
使用PAAS賬號登錄平臺;
點擊頂部"人物模型"—"綠幕效果預覽;
點擊左側第二個"視頻綠幕效果預覽";
填入任務名稱,幷上傳需要確認綠幕效果的視頻或者鏈接,背景色可以設置一些容易看出問題的效果色,如:
點擊"預覽效果"即可創建圖片綠幕效果預覽任務;
成功後,可以點擊預覽圖片,查看效果;也可以點擊右下角的"返回"—"任務類型"—"視頻綠幕效果預覽",查看任務返回結果;
若效果不符合要求可以通過調參更改綠幕效果;
# 1.3.3 綠幕參數說明以及應用到數字人模型訓練中
在創建任務或者任務完成後,都有"一鍵複製參數",具體參數釋義如下:
{
"greenParamsRefinethHBgr": 160,//背景保留程度
"greenParamsRefinethLBgr": 40,//人物邊緣保留寬度
"greenParamsBlurKs": 3,//平滑度
"greenParamsColorbalance": 100,//去綠程度
"greenParamsSpillByalpha": 0.5,//去綠色彩平衡
"greenParamsSamplePointBgr": [//采樣顔色
0,
255,
0
],
"greenParamsSampleBackground": {//背景顔色
"color": [
255,
0,
0
]
}
}
獲取參數後,可以在訓練人物形象或者更新人物形象時使用。
# 1.3.4 移動端綠幕效果確認方式
若只是簡單粗略的確認現場效果,也可以使用我們的移動端綠幕效果確認軟件,但是最終效果請以我們平臺效果確認爲准。
使用流程如下:
請先聯繫我們商務或者售後同事,申請試用我們的Effects Demo;
下載安裝Effects Demo後,進入首頁,點擊"特效";
選擇"分割"item;
可以切換到後置攝像頭,然後對準綠幕環境;
點擊綠幕分割可以確認效果,背景圖有默認的3張,也可以找手機的某張圖片作爲背景圖,確認效果;
# 2. 精品數字人采集標準
# 2.1 拍攝采集要求
模特相關:
- 采集視頻總長度5分鐘左右,無變化。
- 采集過程中模特的動作由兩部分構成:前30秒的靜默畫面,後4分半分左右的口播畫面。無變化。
- 將靜態部分身體姿勢設定爲默認姿態,整個靜態部分的拍攝以默認姿態爲主,可以模擬傾聽的狀態,可以有自然得體的輕微點頭及微笑,但不宜過多;靜默30秒需始終保持嘴唇閉合狀態。 =增加默認姿態概念= 。
靜態畫面示意
- 口播畫面的開始要求從默認姿態開始。在做一些身體動作,手臂動作後,需要模特回歸到默認姿態(身體姿勢一致,手臂位置一致,手部動作一致)。一般情况下,模特從默認姿態->做動作->回歸默認姿態的時間控制在10秒內比較合適,。回歸默認姿勢後即可開始下一個動作,以此循環,在完成業務動作後不斷回歸到默認姿勢。
- 進入口播畫面的動作

- 口播畫面中的動作1

- 恢復到默認狀態

- 口播畫面中的動作2

- 恢復到默認狀態

# 2.2 精品數字人驗收標準
請嚴格按照以下項目自檢,保證視頻符合要求,不然會出現任務訓練失敗或者效果不好的情况:
請參考2.5小章節,必須先符合普通數字人采集驗收標準;
回歸默認姿勢時,每次的靜默姿勢都要一致,請務必準確回到原位置。
# 3. 動作編輯數字人采集標準
# 3.1 視頻要求
動作編輯數字人的視頻要求輸出兩個部分的視頻:
標準數字人訓練視頻:用于口型訓練,要求時長3分鐘半,其中前面30秒靜默閉口狀態,3分鐘說話狀態;
動作編輯訓練視頻:用于不同的動作編輯訓練,要求比較嚴格,請務必按扎以下要求進行拍攝錄製,否則會出現效果不符合預期的情况; 動作編輯示例視頻 (opens new window)
# 3.2 拍攝要求
標準數字人訓練視頻部分用于口型訓練,拍攝方式和普通數字人拍攝方式一致;
標準數字人訓練視頻的人物姿態、相機狀態、場景與動作編輯訓練視頻必須保持一致。
動作編輯訓練視頻分爲idle動作,普通動作1,普通動作2,普通動作3,普通動作4,普通動作N..等動作。要求每個動作的開始和結束動作和idle測保證完全一致。這點非常關鍵,因爲如果每次做完動作沒有回歸到idle狀態,後期動作編輯展示時會出現錯誤。對拍攝模特要求較高,請儘量保證一致;
建議idle動作的長度在3分鐘以內,其他動作的長度在10秒鐘以內,推薦3秒左右,具體case見實際操作指引;
動作編輯訓練視頻,對環境音不做任何要求,可以有背景雜音,因爲只會使用當前視頻中的動作視頻內容;
idel動作,後續不同的動作,可以分開拍攝,但是最終提交是需要合幷成一個視頻進行提交;
因爲拍攝難度較大,建議提前準備好拍攝脚本,提前與模特溝通幷演練好,示例脚本如下:
拍攝內容 | 時間 | 參考效果 | ||
---|---|---|---|---|
1 | 基礎口型拍攝 | 5分30秒 | 標準同之前舊版本 | |
2 | idle靜態動作拍攝 | 開始:35.4結束:37.32 | ![]() | 頭部需要自然呼吸感動一動,模擬聆聽別人問題的狀態 |
3 | idle-右手揮手你好- idle | 開始:8.5結束:11.4 | ![]() | |
4 | idle-右手向右展示- idle | 開始:26.64結束:29.32 | ![]() | |
5 | idle-右手說話强調-idle | 開始:19.4結束:23.92 | ![]() | |
6 | idle-右手向前-idle | 開始:14.88結束:17.92 | ![]() | |
7 | idle-右手向上-idle | 開始:32.52結束:35.48 | ![]() | |
8 | idle-右手食指著重-idle | 開始:37.48結束:43 | ![]() | |
9 | idle-右手點贊-idle | 開始:47.12結束:49.56 | ![]() | |
10 | idle-右手OK-idle | 開始:53.56結束:55.72 | ![]() | |
11 | idle-右手比心-idle | 開始:59.8結束:62.12 | ![]() | |
12 | idle-右手握拳-idle | 開始:64.32結束:66.4 | ![]() | |
13 | idle-右手掌心介紹-idle | 開始:70.4結束:73.28 | ![]() | 右手掌心向上,從左往右劃過 |
14 | idle-左手向前展示- idle | 開始:78.48結束:81.88 | ![]() | 建議右手自然下垂 |
15 | idle-左手說話强調-idle | 開始:92.4結束:96.4 | ![]() | 建議右手自然下垂 |
16 | idle-雙手打開歡迎-idle | 開始:99.76結束:102.36 | ![]() | 打開停留一會兒收起 |
17 | idle-雙手打開著重-idle | 開始:107.68結束:114.4 | ![]() | 雙手著重輕微來回擺動强調 |
18 | idle-雙手鋪開- idle | 開始:116.84結束:121.8 | ![]() | 模擬在數字人前面播放視頻 請看屏幕下方展示的視頻 |
# 3.3 動作編輯數字人驗收標準
請嚴格按照以下項目自檢,保證視頻符合要求,不然會出現任務訓練失敗或者效果不好的情况:
標準數字人訓練視頻部分,請參考2.5小章節,必須先符合普通數字人采集驗收標準;
動作編輯訓練視頻,每隔動作的起始動作和回歸動作,每次都要和idel保證一致,務必準確回到原位置,不然影響實際效果
# 4. 多場景視頻數字人物形象采集標準
多場景數字人的采集是在1章節要求上的額外要求。用于拍攝同一個人的多套服裝/多個鏡頭,在同一個訓練任務中同時進行提交。
# 4.1 多場景拍攝要求
多場景數字人的拍攝視頻分爲主視頻和輔助視頻。
主視頻和輔助視頻拍攝的共同要求如下:
- 同一個被拍攝人(妝容造型一致),同一個人不同妝容造型視爲不同的被拍攝人。
- 人臉區域的燈光條件保持一致。例:主視頻燈光和輔助視頻燈光不一致,則不滿足條件。
- 人臉角度需要保持一直。例:主視頻和輔助視頻都是正向面朝相機。若一個偏左,一個偏右,則不滿足條件。
- 被拍攝人可以換不同的服裝。
- 被拍攝人可以在屏幕中呈現不同的大小(如全身,半身)
- 被拍攝場景道具可以發生變化(如有桌子,沒桌子,高脚椅,沙發等)
主視頻拍攝要求:
- 無特殊要求,前30秒靜默,後4分半說話,同2.1及2.2章節要求。
輔助視頻拍攝要求如下:
- 不需要30秒靜默。
- 開始拍攝直接開始說話及表演對應的肢體動作,總長度3-4分鐘即可。
# 5. 使用PAAS平臺生成數字人模型
# 5.1 生成人物形象訓練任務
使用PAAS賬號登錄平臺;
點擊頂部"人物模型"—"人物模型生成",當前頁面可以查看所有已經發起的任務狀態(只限7天內的任務);
點擊左側"人物模型生成",進入任務生成模型頁面;
詳細使用參數請見最後參數詳解;
提交任務後,2k視頻一般4-8小時會完成;
任務完成後,可以在"人物模型"—"人物模型生成"看到已完成任務,點擊"更多",查看生 成好的人物形象數據信息;
# 5.2 輔助視頻/多場景視頻人物形象訓練任務
使用PAAS賬號登錄平臺;
點擊頂部"人物模型"—"人物模型生成",當前頁面可以查看所有已經發起的任務狀態(只限7天內的任務);
點擊左側"人物模型生成",進入任務生成模型頁面;
先添加第一個視頻,然後依次添加其他視頻的具體信息;
提交任務後,多視頻訓練時間一般較長,具體時間視視頻個數而定;
任務完成後,可以在"人物模型"—"人物模型生成"看到已完成任務,點擊"更多",查看生成好的人物形象數據信息;
# 5.3 參數詳解
角色名稱:即人物形象生成的任務名稱;
模型類型:
數字人:普通數字人形象生成類型,可以支持綠幕分割、人像分割、不分割進行訓練生成數字人;
精品數字人:支持靜默狀態的數字人,主要應用到直播互動,1v1問答,智能客服等場景中,需要按照具體要求拍攝才能進行當前類型的數字人形象生成訓練,否則可能會出現效果不好的情况;
動作編輯數字人:支持觸發指定動作的數字人(當前版本僅支持視頻合成場景使用,直播場景還不支持觸發指定動作的數字人進行直播),需要按照具體要求拍攝才能進行當前類型的數字人形象生成訓練,否則可能會出現效果不好的情况;
快速數字人:實景數字人類型,無法使用綠幕分割、人像分割;
規格類型:"標準"即2K清晰度,"超清"即4K清晰度,請注意這個是口型生成的清晰度,不是視頻的清晰度,視頻清晰度取决于原始訓練視頻的分辨率; 通常狀態下,如果是2K清晰度的原始訓練視頻,選擇"標準",4K清晰度的原始訓練視頻,選擇"超清";請注意選擇超清訓練時長也會延長;
口型訓練版本:
原始口型:學習視頻中人物的口型,幷基于這個人的口型嘗試生成口型;
通用口型:廣義上大家認可方式嘗試生成口型;一般情况下通用口型效果優于原始口型,建議都勾選,優先使用通用口型;
視頻編碼質量:建議使用默認值;
視頻文件:可以傳入本地文件,也可以傳入文件的OSS鏈接;建議傳入OSS鏈接,防止文件太大,上傳失敗;
視頻起始時間:數字人在合成視頻或者直播時播放的起始時間;(不填的話算法自動檢索視頻中人物開始動的起始時間)
視頻截止時間:數字人在合成視頻或者直播時播放終止的時間;(不填的話算法自動檢索視頻中人物開始動的起始時間的5分鐘後的時間點,作爲截止時間)
數字人合成視頻或者直播時,只有口型部分,是根據文本或音頻來生成的,其他所有表情、肢體動作,都是基于原視頻播放的。播放的起始時間就是上面"視頻起始時間"設置的時間,播放終止時間是上面"視頻截止時間"設置的時間。播放邏輯是從"視頻起始時間"第一幀開始播放,然後播放到"視頻截止時間"最後一幀,然後倒序反向從"視頻截止時間"最後一幀,播放到"視頻起始時間"第一幀,然後重複循環此過程。
綠幕分割方式:
不分割:不使用分割,基于原視頻的人物和背景進行訓練;請注意此場景下無法更換背景圖片;
綠幕分割:使用綠幕分割的方式進行分割,輸出的數字人可以更換背景;
綠幕分割的原理是去綠,將視頻中綠色的部分去除,所以使用綠幕分割需要注意不要有綠色、反綠、透綠的情况反發生,否則會將綠色扣掉,會出現一些錯誤的分割情况;
- 普通分割:使用人像分割的方式進行分割,輸出的數字人可以更換背景;
人像分割的原理是把人物摳出來,因爲人物可能有戴帽子、卷髮、首飾、或者不同衣服與背景顔色接近等情况,整體效果無法完全可控,建議在無法使用綠幕分割的情况下,使用普通分割;
- 綠幕分割後處理:先進行人物形象生成,以及進行視頻合成後,再嘗試進行綠幕分割;一般情况下使用上面的"綠幕分割"就可以了,"綠幕分割後處理"適用于人臉扭動角度太大的情况,這樣口型生成後再進行綠幕分割,唇部區域的綠幕分割效果會更好;
視頻縮放比例:調整原始視頻的分辨率,如果原視頻是4K,後續輸出的人物模型zip包比較大,又或者直播場景中想使用2K的人物形象,可以調整該參數;
綠幕分割相關參數:
平滑度:默認值即可
采樣顔色:綠幕分割的顔色,默認都是綠色,也可以使用藍色(RGB爲0,0,255),不建議使用其他顔色進行分割,效果無法保證;
背景保留程度:摳圖程度,如果想扣綠程度更多一些,可以將該值設置小一些(145,130,120,100,80,60等,不建議當前值太小,否則會損失邊緣細節);
人物邊緣保留寬度:人物邊緣的扣綠程度,如果想扣綠程度更多一些,可以將該值設置小一些(30,20,10等,不建議當前值太小,否則會損失邊緣細節);
去綠程度:建議默認值,如果有黃色衣服或者黃色元素,使用綠幕分割可能導致黃色便宜,可以將該值設置爲1,保證黃色爲原始黃色表達;
綠幕色彩平衡:建議默認值;
精品數字人相關參數:
靜止部分開始時間:靜默狀態的開始時間,一般可以填寫前面30s靜默狀態的起始時間;
靜止部分結束時間:靜默狀態的結束時間,一般可以填寫前面30s靜默狀態的結束時間;
動態部分開始時間:模特剛剛開始動起來的開始時間;
動態部分結束時間:模特最後不動結束時間(可以選擇臨近視頻結束時某個動作的結尾時間);
過渡延遲:建議默認值;
過渡:建議默認值;
動作編輯數字人相關參數:
過渡延遲:建議默認值;
過渡:建議默認值;
動作1:動作1必須填idel時間段,本時間段是後續所有動作初始狀態和終止狀態,需要仔細挑選符合要求的時間段,建議找30s時間段即可;
動作名稱:每個動作的命名,如第一個動作名字爲"idel",動作2和後續動作需要填寫視頻中每個動作的名稱;
開始時間:當前動作的起始時間;
結束時間:當前動作的結束時間;請注意爲了更好的效果表達,最好具體到幀,如10s第十幀就是10.4秒(每秒25幀第十幀計算爲0.4秒);
備注:可以不填
# 6. 使用PAAS平臺更新數字人模型
# 6.1 使用流程
使用PAAS賬號登錄平臺;
點擊頂部"人物模型"—"人物模型更新",當前頁面可以查看所有已經發起更新的任務狀態(只限7天內的任務);
點擊左側"更新人物模型",進入任務生成模型頁面;
填入需要更新的任務內容,右下角點擊確定進行任務提交;
提交任務後,預計1-3小時完成任務;
任務完成後,可以在"人物模型"—"更新人物模型"看到已完成任務,點擊"更多",查看生成好的人物形象數據信息;
# 6.2 注意事項:
原模型文件和原視頻文件,必須是對應生成關係的一組數據,也就是這個模型文件必須是根據這個原視頻文件輸出的,不能填入無關的原視頻文件和原模型文件;
數字人的口型信息不會更新,FFID信息使用之前人物訓練生成的FFID信息;
模型類型:更新數字人模型時,僅限同類型更新,譬如無法將原普通數字人類型,更新爲精品數字人或者動作編輯數字人,反之亦然;
視頻起始時間和視頻截止時間:可以進行修改;
背景分割方式:僅支持之前類型的背景分割方式下的更新,如若之前是綠幕分割,無法更新爲普通分割;
背景分割參數:若之前爲綠幕或者普通分割方式,可以更新對應的參數;
視頻縮放比例:可以更新爲不同的分辨率;如在視頻合成場景需要一個4K分辨率的數字人,但是直播場景目前只能使用1080P分辨率才能保證不卡頓,可以通過人物形象更新,將視頻播放比例輸入0.5,即可輸入1080P分辨率的數字人模型包;
# 7. 數字人采集相關注意事項
# 7.1 采集視頻相關格式要求
- 格式要求爲MP4,不能使用其他格式;尤其是MOV格式:iPhone錄製的MOV格式,若打開了HDR,因iOS系統的HDR爲閉源算法,所以無法完全還原MOV視頻的色彩,請將MOV轉爲MP4再進行提交形象訓練任務;
- 推薦1080P,支持4k;儘量不要使用其他分辨率,因爲通用的分辨率可以適配更多的使用場景;
- FPS要求爲25,若不是25,會將FPS强制轉爲25FPS;
- 推薦竪屏拍攝,也支持橫屏(橫屏訓練輸出默認是橫屏格式的數字人);
# 7.2 視頻內容聲音畫面要求
- 視頻中不要出現外部聲音,尤其不可出現第二個人的聲音;儘量避免空調、服務器等設備噪音,避免場地其他噪音或環境震動;
- 綠幕拍攝的視頻注意不要有任何反光的情况出現;如銀首飾,亮面眼鏡框,亮面腰帶等;
- 注意打光,不要讓人物的身上,或者非綠色物體有反綠的現象發生;如果出現反綠會很影響綠幕分割效果,後續會詳細講解提升綠幕效果的方式;
- 不可出現動態背景(視頻、動畫等) ;不可出現反光、透明、半透明材質的背景; 拍攝背景中不可出現直接的光源,比如采光窗戶或發光的燈泡;
# 7.3 視頻靜默狀態和口播狀態檢查
- 靜默畫面:整個采集流程前30 秒爲靜默畫面采集,模特面向鏡頭保持嘴部閉合狀態(可以模擬傾聽的狀態,可以有自然得體的輕微點頭及微笑,但不宜過多;靜默30秒需始終保持嘴唇閉合狀態);
- 口播畫面:靜默畫面拍攝够30 秒後,保持光照環境不變,保持模特pose 不變,進入口播畫面采集階段;
- 在口播畫面采集階段,口播稿內容、模特語速、情緒、表情、手勢都儘量模擬將來數字人要應用的典型場景(比如將來數字人主要用于旅游産品直播售賣,那麽直接使用旅游産品直播稿,直播賣貨的語速、情緒、表情、手勢來完成采集,儘量模擬真實的使用場景)
# 7.4 形象訓練任務可能失敗的點
人臉缺失:確保每一幀不能有人臉丟失,不要手或者物品遮擋人臉已經唇部;
多人臉:確保每一幀都不能有兩張人臉(譬如海報中的人臉入境可能會導致失敗);
大角度人臉:人臉角度建議30°以內,大角度(45°或更多)支持識別,但是有一定概率會失敗。大角度走動示例視頻 (opens new window)
非連續幀:不連續的幀如果保證每幀都有人臉不會失敗,但是訓練後的結果會出現跳幀情况;如果非連續幀出現人臉缺失會導致任務失敗;
視頻其他要求說明:
- 拍攝時模特可以化妝,輸出數字人效果也會有美妝;當然也可以使用我們的後期美妝特效;
- 過于寬鬆的髮型,可能會影響綠幕分割效果(不考慮綠幕請忽略這點);
- 避免有吊墜的耳飾或其他飾物 ,可能有反光;
- 避免髮型或過大的眼鏡遮擋模特下半臉 ,數字人僅僅是口型生成,唇部周邊區域如果有眼鏡框可能導致口型生成錯誤;
- 避免反光過强的唇彩或眼影可能會影響綠幕分割效果,唇部生成效果;
# 8. 如影聲音複刻采集標準
尊敬的客戶,爲了能幫助您獲得高質量的錄音文件,我們特意爲您準備了一份錄音指南。請參照以下步驟進行錄音,以獲得最佳的 TTS 聲音複刻效果。
# 8.1 環境準備
- 請在一個安靜的小房間裏進行錄音(遠離交通噪音、人群喧嘩和其他干擾聲源的地點),錄音棚是最好的選擇。請避免在戶外、空曠的辦公室或有明顯噪音、回聲的場所進行錄製。
- 請確保只有一個人在錄音過程中發言,避免錄入其他人的聲音。
# 8.2 設備準備
- 我們建議您使用品質較好的麥克風,如 Sennheiser、AKG 等品牌的産品。您也可以選擇使用較新的頭戴式會議耳麥。如果條件有限,使用新款 iPhone 的機身麥克風也是可以的,但請避免使用 AirPods 等藍牙耳機。
- 在錄音過程中,請確保您始終處于麥克風的推薦收音範圍內,幷盡可能保持一致的距離。
# 8.3 發音要求
- 注意不要重複的文檔來回讀,文稿只讀一次;
- 錄製的時候盡可能保持同一個語速、語調、感情狀態;發音準確清晰,發音音色音調與期望克隆的音色一致;
- 音量適中,避免離話筒過近産生的爆音,雜音,以及過遠聲音過小;
- 避免呼吸聲,吸氣聲,句首句尾句中無意義的“嗯”“啊”等口語,避免雜音;
- 音頻格式盡可能是無損音頻;
- 必須做好降噪,保證音頻無環境噪音(否則克隆的音色會有雜音)。
# 8.4 聲音複刻注意事項
- 建議錄製至少20分鐘的有效音頻,推薦錄製30分鐘,更長時間對聲音完全複刻還原會更有幫助。
- 對于較長的錄製,可以分段進行,即中間休息一段時間,但所有錄製的音頻請保持一致的語速、音量、音高和音調。
- 需要一段聲音授權音頻文件,文件要求詳見附錄。
- 如果是大模型聲音複刻,建議錄製50-90秒的有效音頻。
# 8.5 格式要求
- 聲音複刻音頻文件和授權音頻文件素材支持格式:wav、mp3、m4a、mp4、mov、aac。
# 8.6 附錄
用戶授權音頻文件主要是用來確認用戶已經授權給我方進行聲音複刻,音頻內容必須按照指定文案發音進行錄製。
- 以下爲中文示例:
xx(發音人姓名)確認我的聲音將會被xx(公司名稱)使用于創建合成版本語音。
授權文件支持其他語言,具體如下:
- 英文:
I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice.
- 日語:
私(姓名を記入)は自身の音聲を(會社名を記入)が使用し、合成音聲を作り使用されることに同意します。
- 韓語:
나는 [본인의 이름을 말씀하세요] 내 목소리의 녹음을 이용해 합성 버전을 만들어 사용된다는 것을 [회사 이름을 말씀하세요]알고 있습니다.
# 9. 使用PAAS平臺進行聲音複刻
- 使用PAAS賬號登錄平臺;
- 點擊頂部"聲音合成"—"TTS個人音色模型生成-Qid(推薦)"—"點擊生成";
- 填入任務信息,幷上傳對應的音頻文件;
- 點擊"確定"即可創建音色複刻任務;
- 任務完成後,點擊"更多"可以下載結果文件;
- 結果文件中有對應的音色qid等信息,請留存以供請求使用。
以TTS6輸出結果爲例,結果文件示例如下:
{
"msg": "task is finished",
"stage": "deployment",
"voice": {
"qid": "eQz_IP:AEAyxxxxxxxxRSUpItdQ0szE10LCzSU3QtDS0tjVLMDMK",
"name": "-tts6",
"gender": 1,
"languages": [
"en-US",
"zh-CN",
"af-ZA",
"am-ET",
"de-AT",
"de-CH",
"de-DE",
"el-GR",
"en-AU",
"en-CA",
"en-GB",
"en-IE",
"en-IN",
"fr-BE",
"zh-HK",
"zh-TW",
"zu-ZA"
]
},
"taskId": "tts6-051370ad-96cd-43a4-8a42-8fcdfa8658e6",
"tenant": "116",
"modelUrl": "",
"taskType": "TTS6",
"taskStatus": 5,
"stageStatus": 5,
"updatedTime": "2024-06-25T13:11:10.000194872Z",
"sampleAudioUrl": ""
}
# 10. 如影聲音複刻相關注意事項
- TTS3 音色克隆時間約20小時左右;
- TTS6 音色克隆時間預計1小時以內;
- 聲音複刻音頻錄製的時長請確保按照對應要求來,TTS3 不少于20分鐘,推薦30分鐘;TTS6 建議1分鐘,不要超過90秒;
- 授權音頻請嚴格按照對應文案來發音,幷且要求與聲音複刻音頻爲同一個人;
- 所有聲音錄製都要求降噪,有環境噪音複刻的TTS效果會與本人音色出現非常大的差异;
- TTS3 僅複刻中文音色;TTS6 可以複刻中文、英文等多國語言音色,但是聲音還原度不如TTS3;
← 歡迎訪問 通用數據結構及平臺規範 →