ICC訊 據(jù)報道,英偉達(Nvidia)開發(fā)了一種新型人工智能(AI)模型,可以創(chuàng)造聲音效果,改變?nèi)说陌l(fā)音方式,并使用自然語言提示生成音樂。
這個模型被命名為Fugatto,即Foundational Generative Audio Transformer Opus 1,是一個研究項目。英偉達表示,它不會宣布任何發(fā)布這項技術(shù)的計劃,但它可能會對從音樂、娛樂到翻譯服務(wù)等行業(yè)產(chǎn)生廣泛的影響。
英偉達應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro在接受采訪時表示:“Fugatto最令人興奮的地方在于,它擁有一個模型,你可以要求它以某種方式發(fā)出聲音,這真的打開了你對它應(yīng)用范圍的想象?!?
他進一步解釋說,市場上的其他模型,有些可以合成語音,有些可以為音樂添加音效,但Fugatto全部都可以做到。Catanzaro說,可以將其視為視頻和圖像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的一種補充。
“這里最基本的改進是……我們能夠使用語言合成音頻,我認為,這為人們可以用來創(chuàng)造驚人音頻的工具開辟了新的前景?!彼a充說。
根據(jù)英偉達的說法,F(xiàn)ugatto是第一個具有新興特性的基礎(chǔ)模型,這意味著它能夠混合經(jīng)過訓(xùn)練的元素,并遵循“自由形式的指令”。
具體而言,該模型可以通過標準的文字提示生成音頻,也可以處理您上傳的音頻文件。所以,如果你有一個人說話的文件,你可以把那個人的話翻譯成另一種語言,同時讓它聽起來像他的聲音。你也可以選擇一個簡單的曲調(diào),讓它聽起來像管弦樂表演,或者在音樂中添加不同的節(jié)拍。
此外,你也可以上傳一個文檔,讓模型用你喜歡的任何聲音朗讀。更重要的是,你可以告訴模型發(fā)出帶有情感分量的聲音。
不過,Catanzaro也補充說,這種模型并不總是完美的。而且,就像生成圖像和視頻的模型一樣,F(xiàn)ugatto也會催生藝術(shù)家、音響工程師和相關(guān)領(lǐng)域人員的擔憂。但Catanzaro指出,他的本意是希望這項技術(shù)能幫助音樂家。
“我希望這是藝術(shù)家探索的新工具?!薄拔艺J為音頻一直是一個富有成效的探索領(lǐng)域。你知道,當我們獲得新的音頻工具時,有時我們會獲得新的音樂形式?!彼f。