您現(xiàn)在的位置:首頁 > 科技 > 正文

時(shí)訊:AI偽造人聲無敵了么?

時(shí)間:2022-12-15 16:49:12    來源:科普中國(guó)網(wǎng)    

2014 年的一個(gè)清晨,瓦爾·基爾默醒來,發(fā)現(xiàn)自己置身血泊之中。全身上下唯一的異樣是喉嚨,里面出現(xiàn)了一個(gè)腫塊,讓他吞咽困難。


(資料圖)

他很快得到診斷,是喉癌導(dǎo)致的嘔血。為了治療,他不得不接受氣管切開術(shù)。手術(shù)在喉嚨上留下一個(gè)洞,進(jìn)食時(shí)需要接入一根管子。此后,“呼吸還是吃飯?”,變成了一個(gè)二選一的問題。

瓦爾·基爾默在《壯志凌云》中與阿湯哥的對(duì)手戲 | 來源:Looper

對(duì)于這位曾扮演 95 版蝙蝠俠的好萊塢演員,更嚴(yán)重的后果是,他失去了自己的聲音。如今,當(dāng)他嘗試說話,只能發(fā)出介于“吱吱聲和低吼”之間的聲音。

去年,基爾默決定與人工智能公司 Sonantic 合作,恢復(fù)自己“說話的能力”。憑借有限的錄音,他們成功克隆出了跟生病前的基爾默十分相像的聲音,未來將可以替代他進(jìn)行發(fā)言。

AI 合成人聲的技術(shù)已經(jīng)十分成熟。一些開放免費(fèi)測(cè)試的主流平臺(tái),例如 Resemble AI、Descript ,僅需要你錄入 25 句話或 10 分鐘錄音,就能克隆你的聲音——當(dāng)然,訓(xùn)練集的時(shí)長(zhǎng)越長(zhǎng),模型就會(huì)與你越相像。最低要求呢?3.7 秒就可以。

除了服務(wù)基爾默這樣的病人,語音克隆還有一大用處,是“復(fù)活故人”,不論是去世的親人,還是已故的名人。不久前,語音合成公司 Play.ht 釋出了一集播客,內(nèi)容是喬布斯與著名播客主播喬·羅根對(duì)談——其中的文本和人聲全都是 AI 合成的。

“冒牌貨”們?cè)诓タ屠镎勑︼L(fēng)生,從頭至尾本尊都不用參與其中。這是否會(huì)涉及到侵權(quán)呢?尤其是已過世者,他們的聲音所有權(quán)歸屬于誰呢?任何人都可以使用么?

更棘手的問題是,真假如何分辨呢?

挺好的技術(shù),卻被用來行騙?

別說你一定分得出人聲與 AI。

2019 年 3 月,英國(guó)一家能源公司的員工接到老板電話,要求他在一個(gè)小時(shí)內(nèi)轉(zhuǎn) 22 萬歐元給匈牙利的一家供應(yīng)商,電話那頭“老板”略帶德國(guó)口音,和平時(shí)老板說話的聲音不差分毫,他毫不懷疑立刻照辦了,轉(zhuǎn)賬后這筆錢很快被轉(zhuǎn)移到墨西哥,難再追回;2020 年,香港的一名銀行經(jīng)理被克隆語音欺騙,向詐騙者批準(zhǔn)了一筆 3500 萬美金的轉(zhuǎn)賬。

這種事情正在變得越來越多, VMware 今年的調(diào)查顯示,三分之二的受訪企業(yè)表示過去一年收到的詐騙攻擊中存在音頻或視頻偽造的成分。

當(dāng)你在電話里聽到一個(gè)熟悉的聲音,大多數(shù)人“沒有建立起肌肉記憶來真正應(yīng)對(duì)它?!卑I馨踩径驴偨?jīng)理麗莎?奧康納表示。

生理結(jié)構(gòu)上,人類大腦面對(duì)假聲音時(shí)會(huì)變得蠢蠢的。

2019 年加州大學(xué)河濱分校的一項(xiàng)研究發(fā)現(xiàn),在觀看倫勃朗畫作的真跡和贗品時(shí),人們的腦部掃描會(huì)顯現(xiàn)出明顯的差異;聆聽摩根 · 弗里曼、機(jī)器弗里曼和模仿者說話時(shí),卻沒有同樣表現(xiàn)。

“結(jié)果表明,人類可能在本質(zhì)上無法區(qū)分真實(shí)的和非真實(shí)的聲音?!?/p>

聆聽真人和合成人聲時(shí),人腦活動(dòng)沒有顯現(xiàn)出顯著差異 | 來源:論文配圖

AI 偽造人聲無敵了么?

科學(xué)家正在試圖應(yīng)對(duì)它。

最近的一項(xiàng)研究中,佛羅里達(dá)大學(xué)的研究者們發(fā)現(xiàn)了機(jī)器的一個(gè)破綻:沒有聲道?;蛘哒f,人類發(fā)聲方式的局限,在于每一個(gè)人的聲道結(jié)構(gòu),而 AI 不具備這樣的“局限性”。

數(shù)十年來,科學(xué)家都試圖重現(xiàn)史前生物的聲音。猛犸象、恐龍……它們的嘯叫、呼喊,聽起來會(huì)是怎樣的?骨骼的形狀提供了許多線索,比如副櫛龍,它們的頭骨中有一個(gè)很長(zhǎng)的腔,科學(xué)家據(jù)此來估測(cè)它的共振頻率。

人類發(fā)聲也是如此,通過使用聲道的各種結(jié)構(gòu),聲帶、舌頭、嘴唇,協(xié)作擠壓空氣來發(fā)出聲音并改變聲音。使用聲學(xué)和流體動(dòng)力學(xué)模型,研究者可以倒推出怎樣的一個(gè)結(jié)構(gòu)發(fā)出了這段聲音。

通常會(huì)像是這樣,一個(gè)不規(guī)則的,有突起和凹陷的通路。

口腔的打開程度會(huì)決定我們發(fā)出怎樣的聲音|來源:論文截圖

然而,當(dāng)他們把機(jī)器生成的聲音放入同樣模型時(shí),奇怪的事情就發(fā)生了:

紅圈中為機(jī)器的“聲道結(jié)構(gòu)” |來源:論文截圖

機(jī)器人聲倒推出來聲道,就像一根又細(xì)又長(zhǎng)的吸管,這跟人體的正常結(jié)構(gòu)完全不同。僅憑這樣的側(cè)面解剖圖,就幾乎可以立刻分辨這是人發(fā)出的聲音,還是機(jī)器的。通過這個(gè)方法,他們檢驗(yàn)了 4966 個(gè)音頻語段,準(zhǔn)確率高達(dá) 99.9%。

想象一下,這或許很快會(huì)成為一個(gè)基礎(chǔ)配置,當(dāng)你接起一通電話,一個(gè)附加的插件會(huì)同時(shí)開始運(yùn)轉(zhuǎn),判斷對(duì)面是真人還是機(jī)器合成人聲,再向你發(fā)出警告。

已經(jīng)有很多人在為此努力。2019 年,為了對(duì)抗克隆語音、假音頻,Google 發(fā)布了一個(gè)合成語音數(shù)據(jù)庫,來推動(dòng)對(duì)假音頻檢測(cè)的研究,里面包含了谷歌深度學(xué)習(xí)模型所“說”的上千個(gè)短語,用 68 種不同的聲音覆蓋了各式各樣的口音,希望以此鼓勵(lì)外界開發(fā)出更多語音鑒真的方案。

沒有科學(xué)家的工具,我們自己怎么辦?

有一些小竅門,但主要靠直覺。

語音認(rèn)證服務(wù)公司 Pindrop 一直在開發(fā)合成聲音,這個(gè)過程中他們也發(fā)現(xiàn)了機(jī)器的一些缺陷:

不善于處理摩擦音,比如 f,s,v,z ,因?yàn)檐浖茈y將它們與噪音區(qū)分開來

愛拖長(zhǎng)音,算法很難區(qū)分單詞的末尾和錄音中的背景噪音,會(huì)出現(xiàn)斷句的問題

過于“干凈”,像是在錄音室里用專業(yè)設(shè)備錄制的,且質(zhì)量始終如一

Pindrop 也發(fā)現(xiàn)了一些異?!奥斆鳌钡姆缸锓肿?,為了掩蓋這些缺陷,故意放入嘈雜的環(huán)境音來干擾對(duì)方的判斷。有一位他們稱之為“雞人”的詐騙犯,總是在背景中播放公雞的叫聲;還有一位女士會(huì)利用嬰兒的啼哭聲做背景音,試圖來博取對(duì)方的同情。

因此,當(dāng)發(fā)現(xiàn)對(duì)面有持續(xù)奇怪的噪聲,你就要小心了。

對(duì)于涉及重大交易的對(duì)話,深度偽造偵測(cè)公司 Deeptrace 的主管亨利?阿杰德給出了一個(gè)實(shí)用建議:考慮使用暗號(hào)進(jìn)行對(duì)話,或者在通話開始時(shí)提出或回答一個(gè)秘密問題。

以當(dāng)前 AI 的學(xué)習(xí)速度,相信很快,這些拙劣的破綻就會(huì)被逐一擊破——曾有一篇論文研究發(fā)現(xiàn),通過人物眨眼的不規(guī)律,可以判斷視頻是否為深度偽造。可僅僅幾個(gè)月之后,開發(fā)者就解決了這個(gè) bug 。

但至少現(xiàn)在,人類仍能通過細(xì)枝末節(jié)的線索,判斷出對(duì)方非我同類。比如,在羅根與喬布斯的對(duì)談中,總有詭異的笑聲穿插在流利的對(duì)話中,“呵呵呵、嘻嘻嘻”,十分突兀,語調(diào)也會(huì)因此變形。

這讓人想起 Resemble 在語音生成后,會(huì)給你一些選項(xiàng),可以在段落中加入停頓或是“憤怒”、“喜悅”這樣的情緒。從反饋來看,模型似乎并尚不能很好地處理情緒。

但終有一天,我們要懷疑一切。

前幾天同事小楊接到一個(gè)推銷電話,開了免提,熱火朝天地跟辦公室里其他人討論對(duì)方是不是機(jī)器人。

突然,電話對(duì)面緩緩傳來:“對(duì)不起,我說話的方式讓您誤解了?!?/p>

“你信這是真人了么?”

他回答:“哼,我才不信,這肯定是 AI 的伎倆?!?/p>

參考文獻(xiàn)

[1] https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_08-3_Neupane_paper.pdf

[2] https://theconversation.com/deepfake-audio-has-a-tell-researchers-use-fluid-dynamics-to-spot-artificial-imposter-voices-189104

[3] https://www.nytimes.com/2020/05/06/magazine/val-kilmer.html

[4] https://www.yahoo.com/entertainment/val-kilmer-cancer-treatment-lost-voice-142401511.html

[5] https://www.hellomagazine.com/healthandbeauty/health-and-fitness/20210825120419/val-kilmer-heartbreaking-reveal-cancer-diagnosis/[6] https://arstechnica.com/information-technology/2022/10/fake-joe-rogan-interviews-fake-steve-jobs-in-an-ai-powered-podcast/

[7] https://www.howtogeek.com/682865/audio-deepfakes-can-anyone-tell-if-they-are-fake/

[8] https://senseient.com/wp-content/uploads/Deepfakes-updated.pdf

[9] https://mitsloan.mit.edu/ideas-made-to-matter/deepfakes-explained

作者:翁垟

果殼(IDGuokr42

如需轉(zhuǎn)載,請(qǐng)聯(lián)系sns@guokr.com

歡迎轉(zhuǎn)發(fā)到朋友圈

來源果殼

標(biāo)簽: 從頭至尾 加州大學(xué)河濱分校 談笑風(fēng)生

上一篇:
下一篇:

相關(guān)新聞

凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

熱文推薦

焦點(diǎn)資訊