首頁 > 技術(shù) > 正文

商湯如影AI隨形,打造高質(zhì)量、低門檻的數(shù)字人視頻生成平臺|播報

2023-05-15 18:40:14來源:中關(guān)村在線  

隨著移動互聯(lián)網(wǎng)的普及,視頻已經(jīng)成為人與人互動交流、品牌開展?fàn)I銷活動的重要媒介。但無論是短視頻的制作還是視頻直播,都需要在內(nèi)容策劃和拍攝、剪輯等環(huán)節(jié)消耗大量資源和精力。如今,在AI大模型的技術(shù)革新下,AI數(shù)字人視頻生成技術(shù)成為降低視頻創(chuàng)作成本,突破質(zhì)量和效率天花板的有效路徑。

前不久,商湯科技公布了其自主研發(fā)的“日日新SenseNova”大模型體系,并推出基于該體系下的“商湯如影SenseAvatar”AI數(shù)字人視頻生成平臺。該平臺基于AI數(shù)字人視頻生成算法、語言大模型、AI文生圖、AIGC等多種能力,能夠輕松實現(xiàn)高質(zhì)量、高效率的數(shù)字人視頻內(nèi)容創(chuàng)作,推動視頻內(nèi)容創(chuàng)作的范式革新。


(資料圖片)

如影數(shù)字人生成方案只需一次真人素材錄入,就能生成超寫實的數(shù)字分身,實現(xiàn)視頻制作效率的指數(shù)級提升。作為全棧式的AI數(shù)字人視頻生成平臺,“如影”平臺旨在幫助企業(yè)和個人輕松開展數(shù)字人短視頻、直播等內(nèi)容創(chuàng)作,同時也可為教育培訓(xùn)、企業(yè)宣傳,娛樂文化等領(lǐng)域提供視頻解決方案,提高品牌知名度和用戶粘性。

大模型+大算力,數(shù)字人生成效果好、速度快

“大模型”和“大算力”是實現(xiàn)高質(zhì)量、高效率數(shù)字人生成的核心驅(qū)動力。在商湯“日日新SenseNova”大模型體系和AI大裝置SenseCore的支持下,“如影”平臺在生成效率和效果方面雙雙突破,引領(lǐng)行業(yè)前沿。

出眾的生成效果源于大模型強大的數(shù)據(jù)學(xué)習(xí)能力。通過對海量真人基礎(chǔ)數(shù)據(jù)的有效學(xué)習(xí),“如影”平臺生成的數(shù)字人外貌更真實、動作表情更自然,對輸入的素材也更加魯棒。其中真人相似度高達(dá)90%~95%,口型匹配度可達(dá)95%,遠(yuǎn)超業(yè)界平均水平。大模型更強的泛化能力,也讓“如影”平臺能夠更好地支持不同類型、不同風(fēng)格的數(shù)字人生成,并覆蓋更多種語言。

高效的生成速度則依托全自動化的處理流程和AI大裝置強大的算力利用能力。通過打通從上傳視頻、處理數(shù)據(jù)、訓(xùn)練模型、轉(zhuǎn)換模型到模型部署的自動化閉環(huán),“如影”平臺可將傳統(tǒng)視頻制作流程中的人工處理時間大幅減少90%,模型訓(xùn)練時間減少60%,只需1天,即能完成各類定制數(shù)字人訓(xùn)練。結(jié)合商湯AI大裝置SenseCore的強大算力和并發(fā)處理效率,平臺更可以做到數(shù)字人的批量生產(chǎn),同時滿足不同客戶的定制化需求。

依托大模型和大算力,無論是2D數(shù)字人還是3D數(shù)字人的視頻生成,“如影”平臺均能夠為客戶提供低門檻的創(chuàng)作工具,賦能客戶將質(zhì)量、效率發(fā)揮到極致。

僅需5分鐘真人視頻,就能打造超寫實2D數(shù)字分身

2D數(shù)字人如同用戶的數(shù)字分身,可以代替真人出鏡開展視頻創(chuàng)作,實現(xiàn)效率躍遷?;趶姶箢I(lǐng)先的AI生成能力和便捷易用的使用體驗,“如影”平臺僅需一段5分鐘手機拍攝的真人視頻素材,就能生成動作、表情、口型都能如真人一般自然逼真,且多語種精通的數(shù)字分身。平臺還打通了從文生文、文生視頻的整個流程,通過文字驅(qū)動,即可自由無門檻地開展各類視頻內(nèi)容制作。

以文案創(chuàng)作為例,用戶只需要輸入粗略想法,平臺就會自動生成相關(guān)視頻文案。從換裝到換背景,素材選擇同樣靈活自由。用戶不僅可以使用平臺內(nèi)置的豐富的已有素材或上傳自己的素材,還可以借助平臺的AI文生圖能力,給定相應(yīng)的提示詞,生成“腦中所想”的其他素材,并直接應(yīng)用于視頻創(chuàng)作。

對于有跨國交流需求的用戶,“如影”平臺還支持多語言文本生成及多語言語音合成,涵蓋超過100個國家和地區(qū)。用戶通過簡單操作,就可直接將生成好的視頻切換成不同語言版本,發(fā)音、口型自動匹配,輕松完成“本土化”內(nèi)容創(chuàng)作。

創(chuàng)建鮮活飽滿的3D數(shù)字人

3D數(shù)字人虛擬主播或“虛擬IP”,有著更靈活廣泛的使用場景,但制作成本更高。

和現(xiàn)實世界的交互,不僅需要一顆聰明的大腦來生成可靠的文字,還需要通過靈動自然、語義契合的動作,來增加3D數(shù)字人的表現(xiàn)力和感染力。

基于商湯原創(chuàng)OpenXRLab擴(kuò)展現(xiàn)實平臺的領(lǐng)先算法,打造了一套多模態(tài)的動作生成解決方案,無需專業(yè)設(shè)備進(jìn)行動捕,就能夠根據(jù)文字語義和聲音韻律生成風(fēng)格多樣、語義準(zhǔn)確、長時間自然連貫的表情和動作。

得益于全棧生成式AI能力,讓用戶輕松開啟直播之旅?;谏虦恼Z言大模型,針對直播帶貨場景進(jìn)行了優(yōu)化,可以根據(jù)產(chǎn)品內(nèi)容快速生成多風(fēng)格的帶貨文本,配合多風(fēng)格的聲音及動作生成,讓你一鍵擁有百變主播。借助商湯大模型的精細(xì)化3D物件生成能力和文生圖大模型,數(shù)字人的交互能力和直播場景中的內(nèi)容元素亦可持續(xù)拓展。

直播過程中,數(shù)字人還可以自主完成帶貨、粉絲互動、疑難解答等實時交互,以更低的運營成本實現(xiàn)24小時直播運營,全天候觸達(dá)用戶。

除視頻、直播場景外,數(shù)字人也可廣泛適用于文旅、展館、金融、教育、商超等各類線下場景,提供多樣化服務(wù)。在今年上海車展期間,商湯展示了數(shù)字人在車艙場景的應(yīng)用,既能自動提煉郵件關(guān)鍵信息,還會整理會議紀(jì)要,是一位智能有溫度的絕佳行車伴侶。

在推動AI數(shù)字人視頻生成技術(shù)創(chuàng)新和應(yīng)用的過程中,商湯還致力于打造“可信數(shù)字人”,在可信原則的指導(dǎo)下推動虛擬人市場健康、可持續(xù)、高質(zhì)量發(fā)展。每個在“如影”平臺創(chuàng)作的數(shù)字人,都經(jīng)過了嚴(yán)格的可信認(rèn)證,確保其不被盜用或篡改。同時,由中國信通院牽頭,商湯科技參編的《可信虛擬人生成內(nèi)容管理系統(tǒng)技術(shù)要求》已完成立項,將于年內(nèi)出臺團(tuán)體標(biāo)準(zhǔn),推動可信數(shù)字人行業(yè)標(biāo)準(zhǔn)建立,讓數(shù)字人生成內(nèi)容與真人意愿不“脫鉤”,數(shù)字人產(chǎn)業(yè)快速發(fā)展不從監(jiān)管“脫韁”,肖像權(quán)、所有權(quán)與現(xiàn)實約束不“脫節(jié)”。

目前,“如影SenseAvatar”平臺已面向多家企業(yè)開放服務(wù),幫助各行各業(yè)突破原有內(nèi)容制作模式的瓶頸,打破內(nèi)容創(chuàng)意的天花板,讓更易用、更智能的數(shù)字人生成技術(shù),成為智能時代的全新生產(chǎn)力工具。

標(biāo)簽:

相關(guān)閱讀

精彩推薦

相關(guān)詞

推薦閱讀