最新一波人工智能技術可以模仿幾乎任何人的聲音——總統、親戚或銀行客戶。
這就是成立10年的音頻技術初創公司Pindrop Security Inc正在解決的問題和機遇。該公司長期以來一直為銀行和保險公司提供語音認證服務。上周,該公司發布了一款新產品,據稱可以在電話和數字媒體中檢測人工智能生成的語音。它正在向媒體組織、政府機構和社交網絡推銷這一功能。
越來越多具有安全意識的公司致力于打擊人工智能假貨和欺詐的威脅,Pindrop就是其中之一。這些公司包括Protect AI Inc .和山姆·奧特曼(Sam Altman)的Tools For Humanity Corp .或Worldcoin等公司,它們通過掃描眼睛來識別人。
Pindrop是音頻方面的專家,今年1月,該公司發現了喬·拜登(Joe Biden)總統通過語音電話呼吁人們不要在新罕布什爾州初選中投票的深度偽造視頻的來源,從而登上了頭條。攻擊的規模正在上升:該公司表示,自去年以來,針對其客戶的攻擊次數增加了五倍多。
SocialProof Security的首席執行官雷切爾·托巴克(Rachel Tobac)說:“把語音克隆和欺騙軟件結合在一起,看起來就像電話里的其他人,這很容易。”
Pindrop吸引了包括Andreessen Horowitz和GV在內的一批知名投資者的投資。今年,該公司從Hercules Capital Inc.籌集了1億美元(4.348億令吉)的債務融資。該公司的最新估值為9.25億美元。
該公司聯合創始人維賈伊·巴拉蘇布拉馬尼揚(Vijay Balasubramaniyan)在讀博士期間在印度旅行時,試圖購買一套西裝,之后他開始思考音頻偽造的問題。他的美國銀行在凌晨3點左右打電話給他核實交易。他的時間,詢問他的社會保險號。由于無法核實來電者是誰,也沒有從銀行獲得太多信息,他掛斷了電話。
“這太瘋狂了,”巴拉蘇布拉馬尼揚回憶說,他在回美國的飛機上這么想。“自亞歷山大·格雷厄姆·貝爾(Alexander Graham Bell)發明以來,手機已經存在了很長時間,但我們仍然沒有辦法確定互動的另一端是什么。(他沒有得到那套西裝。)
Pindrop的技術通過分析音頻來判斷一個聲音是真正的人,還是只是像人。Balasubramaniyan說,人類通過發出特定的聲音來說話,這些聲音形成了單詞。但機器不能像人類那樣發出聲音,偶爾會產生一些變體,突破人類嘴巴發出聲音的物理限制。因為每一秒的語音音頻都有8000個樣本,所以人工智能可能會在數千個點上出錯。
Balasubramaniyan說:“當你得到越來越多的音頻時,你就會開始發現這些異常現象。”他補充說,因為所有人都以同樣的方式發出聲音,所以他們的檢測軟件是語言不可知性的。
該公司表示,其新工具可以以99%的準確率識別人工智能生成的音頻,但業內仍存在關于人工智能檢測局限性的爭論。對于教師、研究人員和社交媒體用戶來說,隨著技術的進步,識別人工智能文本和圖像一直是一個誘人的問題。今年3月,當OpenAI發布了一款可以復制人聲音的工具時,該公司在一篇博客文章中建議,企業應該逐步取消訪問銀行賬戶和其他敏感信息的語音認證。
思科系統公司(Cisco Systems Inc .)前首席執行官約翰?錢伯斯(John Chambers)是Pindrop的董事會成員,他稱贊語音識別是一種異常安全的在線身份驗證方式。錢伯斯通過他的公司JC2 Ventures投資了這家初創公司。“語音將是未來識別你身份的主要網絡安全方式,”他說。他說,當語音與生物識別技術和所使用設備的數據相結合時,“有人幾乎不可能完全破壞它。”
一些業內人士對人工智能公司增加以應對人工智能問題表示擔憂。身份盜竊研究中心(Identity Theft Research Center)的詹姆斯·e·李(James E. Lee)表示,除非通過法律來減少網上可用的個人數據量,否則該行業可能會發現自己陷入了一場好人工智能與壞人工智能之間的長期斗爭。
隨著安全技術的發展,威脅也會隨之發展。斯坦福大學(Stanford University)網絡安全政策專家安德魯·格羅托(Andrew Grotto)說,壞人可能會訓練一種算法,以逃避Pindrop等公司用來識別深度假貨的檢查。格羅托說:“你最終會陷入這場軍備競賽,這場防御者和威脅者之間的貓捉老鼠游戲。”- - - - - -布隆伯格
×