比AI作圖更離譜 AI聲音克隆是否為大眾所接受？全球快資訊

2023-03-22 06:45:03來源：中關(guān)村在線

隨著ChatGPT和AI繪圖的持續(xù)火熱，人工智能已不可阻擋地被推上風(fēng)口浪尖。

ChatGPT完成了從3.5到4.0大模型的飛躍，StableDiffusion同樣經(jīng)歷了從原始SD模型，到借助Lura、ControlNet等插件和其他模型的快速進(jìn)階，其所生成的圖片已達(dá)到真假難辨的效果，讓即便沒有美術(shù)功底的用戶，也能生成大師級的繪畫作品，且效率驚人。

(資料圖片僅供參考)

相較于ChatGPT，AI繪圖的入口更多，且可以本地部署，甚至不需要聯(lián)網(wǎng)。尤其是以StableDiffusion為首的免費(fèi)開源程序，隨著越來越多自由創(chuàng)作者的加入，已經(jīng)延伸出許多功能強(qiáng)大的插件和風(fēng)格各異的模型，其所生成的圖片相較于ChatGPT也更具娛樂性和傳播性，可以預(yù)測其在不久的將來還會更加強(qiáng)大。

與之相似的還有AI聲音克隆工具，同樣可以本地部署，通過輸入同一個人的不同聲音進(jìn)行訓(xùn)練，能夠還原出所訓(xùn)練對象的音色，達(dá)到以假亂真的效果。

如果使用自己的音色，則可以借助AI生成自己所要表達(dá)的話語內(nèi)容，還可以使用歌手的聲音來訓(xùn)練，還原歌手的音色來翻唱其他歌曲。

人工智能所發(fā)展的速度超乎了許多人的想象，因此也不可避免的帶來了許多問題。比如AI繪畫作品的版權(quán)糾紛問題，AI繪畫使用名人圖片進(jìn)行訓(xùn)練的侵權(quán)行為，借助AI繪畫生成不良圖片并傳播的違法行為等等。

而比AI繪圖要冷門的AI聲音克隆，其所暴露的問題可能更加突出。

由于線上的口語傳播具有很強(qiáng)的隱蔽性，AI聲音克隆所生成的內(nèi)容很可能被用來遠(yuǎn)程詐騙，即便有些人能夠分辨真人和AI生成語音的區(qū)別，但對于一些文化程度低或年齡較高的中老年人來說，還是容易上當(dāng)受騙。

而如果用來制造虛假消息，其很大程度上降低了造謠的成本，很容易利用互聯(lián)網(wǎng)的病毒式傳播散布謠言。

在未得到正視以及法律保障之前，有關(guān)AI的這些問題估計(jì)很難為大眾所接受，更多需要用戶自發(fā)來約束自己的行為。

另一方面，如果盡可能規(guī)避負(fù)面影響，AI能夠幫助用戶極大地提升工作效率，這一點(diǎn)是毋庸置疑的，且隨著人工智能的快速發(fā)展，我們可以預(yù)見AI將會與我們的工作和生活息息相關(guān)。

運(yùn)用AI工具進(jìn)行創(chuàng)作還有一定門檻限制，比如StableDiffusion繪圖要調(diào)用模型的參數(shù)，需要強(qiáng)有力的GPU硬件來協(xié)助完成，顯存和算力越高做圖效率以及圖形質(zhì)量會更好，創(chuàng)作512 x 512分辨率圖片大約占用5G顯存，創(chuàng)作1024x 1024分辨率圖片大約占用14G顯存，創(chuàng)作1920x 1080分辨率圖片大約占用21G顯卡顯存。

使用AI聲音克隆工具，如果想要獲得比較好的音色模仿，需要使用GPU訓(xùn)練十幾個小時以上的時間，且建議使用8G以上顯存的顯卡，顯卡性能越強(qiáng)訓(xùn)練所使用的時間越少，二者對CPU和內(nèi)存的硬件要求則不高。

影馳新一代GeforceRTX 40系列新品已經(jīng)陸續(xù)上線，散熱系統(tǒng)全面升級，極力釋放新一代性能級顯卡的澎湃動力，使用影馳RTX 40系列顯卡，為創(chuàng)作加速！

影馳（Galaxy）GeForce RTX4080星曜OC 16G N卡電競專業(yè)臺式機(jī)電腦游戲顯卡RTX 4080星曜+鼠標(biāo)墊套裝

[經(jīng)銷商]京東商城

[產(chǎn)品售價]￥9999元

進(jìn)入購買

標(biāo)簽：