您現(xiàn)在的位置:首頁 > 科技 > 正文

為聽障人士提供新體驗(yàn) 百度智能云曦靈發(fā)布AI手語平臺

時(shí)間:2022-03-10 16:45:46    來源:搜狐科技    

在不久前結(jié)束的冬奧會(huì)各類賽事直播中,有不少虛擬人前來助陣,其中就有AI手語主播,為聽障人士提供了共享奧運(yùn)精彩的可能。但在日常生活中,聽障人士想要方便地獲取信息仍面臨著眾多困難,國內(nèi)不少科技公司都意圖通過技術(shù)的力量解決這些問題。

3月3日下午,百度智能云曦靈的發(fā)布AI手語平臺和AI手語平臺一體機(jī),則為手語服務(wù)普及、緩解無障礙窗口短缺困境提供了新解法。

百度智能云曦靈是百度在去年底的Create 2021上推出,是數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體的平臺級產(chǎn)品。目前已服務(wù)數(shù)十個(gè)用戶和多個(gè)場景,包含數(shù)字員工、虛擬偶像等,AI手語數(shù)字人也是其中一個(gè)重要方向。在此次冬奧會(huì)央視新聞客戶端上,百度智能云曦靈打造的AI手語主播就已上崗,目前已經(jīng)生產(chǎn)了超過200條視頻和進(jìn)行數(shù)場直播,總觀看次數(shù)已超過1億次。

百度集團(tuán)副總裁吳甜在發(fā)布會(huì)上表示,新代際用戶越來越多的在接受和喜愛數(shù)字內(nèi)容的消費(fèi),以及虛擬世界帶來的新鮮感,數(shù)字人的需求正在不斷提升。同時(shí),人工智能呈現(xiàn)融合創(chuàng)新和降低門檻的新特點(diǎn),綜合運(yùn)用多技術(shù)的數(shù)字人帶來新體驗(yàn),AI加持使數(shù)字人制作和運(yùn)營成本與門檻降低,AI手語平臺將讓更多聽障人士享受科技帶來的便利。

搜狐科技在發(fā)布會(huì)上了解到,中國有超過2000萬的聽障用戶,它占到全球總聽障用戶的39%,但專業(yè)的手語翻譯不足1萬人,相較于日美等國家,手語翻譯人員與聽障用戶的比例是1比100,而我國的比例是1比2780,巨大的需求缺口亟待補(bǔ)足。

這些反映到具體生活中,就會(huì)對聽障人士的生活造成諸多不便。百度AI人機(jī)交互負(fù)責(zé)人李士巖就介紹到,絕大多數(shù)的線上場景,無論是APP電視還是智能硬件,都沒有提供手語服務(wù)。線下的場景則更為復(fù)雜,醫(yī)院有超過97%的聽障用戶因?yàn)闆]有手語翻譯而在就診遇到困難;在火車站有超過75.73%的用戶沒有使用過火車站的無障礙手語設(shè)施。

此次百度智能云發(fā)布的AI手語平臺及AI手語平臺一體機(jī)有望改變這一現(xiàn)狀。據(jù)介紹,AI手語平臺具備視頻手語合成、直播手語合成、文本轉(zhuǎn)手語、語音轉(zhuǎn)手語四大功能,只需幾小時(shí)的部署,即可實(shí)現(xiàn)普通視頻合成為手語視頻、實(shí)時(shí)直播中增加手語畫面、文字翻譯為手語、語音實(shí)時(shí)翻譯為手語等多種效果。AI手語平臺可搭載在各類APP、網(wǎng)站、小程序中,讓聽障人士也能輕松實(shí)現(xiàn)線上社交、娛樂休閑、課程學(xué)習(xí)等各類需求。

對于醫(yī)院、銀行、機(jī)場等線下場景,此次發(fā)布的全離線一體機(jī)V3以及端云結(jié)合一體機(jī)P3,搭載了AI手語平臺的核心功能,可實(shí)現(xiàn)ASR語音識別、語音翻譯、人像渲染等多功能。通過將普通服務(wù)窗口轉(zhuǎn)換為“無障礙窗口”,聽障人士在醫(yī)院可輕松實(shí)現(xiàn)掛號、看診、繳費(fèi)、取藥等全系列流程,在車站、機(jī)場可獨(dú)立完成值機(jī)、托運(yùn)、改簽、中轉(zhuǎn),在法院、警局等特殊場景中也可對各類緊急情況進(jìn)行實(shí)時(shí)平等的溝通。

但AI手語的實(shí)現(xiàn)也需要克服諸多技術(shù)挑戰(zhàn)。和傳統(tǒng)翻譯相比,手語翻譯并非按照日常說話的順序,而要根據(jù)語句意思進(jìn)行語言精煉和語序調(diào)整。同時(shí),手語是真正的小語種,數(shù)據(jù)量難以支撐訓(xùn)練,各類場景聲學(xué)環(huán)境復(fù)雜難部署,還需要唇語及表情的配合輔助理解。

因此想實(shí)現(xiàn)高可懂度的AI手語能力,就需要解決三個(gè)技術(shù)難點(diǎn):語音識別的清晰度、手語翻譯的準(zhǔn)確度和手語動(dòng)作的流暢度。那么,百度智能云曦靈-AI手語平臺在提供聽得清、翻得準(zhǔn)、打得好的手語服務(wù)上做得怎么樣?

據(jù)了解,在語音識別清晰度上,百度智能云曦靈的AI手語平臺通過SMLTA語音識別算法模型,實(shí)現(xiàn)聲學(xué)、語言一體化端到端建模語音識別,在手機(jī)端近場語音識別率可達(dá)98%以上。

百度語音技術(shù)部總監(jiān)高亮表示,百度語音在手語平臺里主要需要解決實(shí)時(shí)的問題,要把它做的又快又要準(zhǔn),對模型的要求就特別高。“語音大模型SMLTA能夠做到實(shí)時(shí)識別和非常高的準(zhǔn)確度,還可針對諸如旅游、醫(yī)院、司法等不同領(lǐng)域的詞準(zhǔn)率進(jìn)行針對性訓(xùn)練,詞準(zhǔn)率可達(dá)96%。”

解決了語音的問題,如何準(zhǔn)確翻譯成手語也是一大挑戰(zhàn)。百度人工智能技術(shù)委員會(huì)主席何中軍在交流會(huì)上表示,手語翻譯面臨語序順序不同、詞匯語義差異、效率和實(shí)時(shí)性等挑戰(zhàn),為此百度研發(fā)了首個(gè)基于神經(jīng)網(wǎng)絡(luò)的精煉度可控手語翻譯模型,并聯(lián)合手語語言學(xué)專家、特殊教育專家等制定了自然手語標(biāo)注規(guī)范,建設(shè)了大規(guī)模自然手語翻譯語料庫,使得模型可以從真實(shí)數(shù)據(jù)中學(xué)習(xí)手語翻譯知識,比如語序的調(diào)整、詞語的映射以及長度控制等,從而生成符合聽障人群習(xí)慣的自然手語。

“手語翻譯有點(diǎn)像同聲傳譯,對表達(dá)的準(zhǔn)確性和時(shí)間延時(shí)低,但打手勢速度比說話要慢,所以更加需要對語言的提煉。”何中軍表示,這就需要在模型里面去學(xué)精煉度,同時(shí)引入長度的控制模型,可以動(dòng)態(tài)調(diào)整語句的長短,做到既能夠把主要意思傳遞出來,又能夠把一些不太重要的內(nèi)容忽略掉,從而達(dá)到準(zhǔn)確度和凝練度都能兼得的效果。

值得注意的是,在自然手語翻譯語料庫的建立也離不開諸多聽障人士的助力,天津理工大學(xué)聾人工學(xué)院的500多名學(xué)生就參與了百度手語數(shù)字人的語料庫標(biāo)注工作。 “去年11月份在接到這個(gè)任務(wù)的時(shí)候,真的是時(shí)間緊任務(wù)急,學(xué)生聽說要為冬奧會(huì)服務(wù),所以也是特別高興,其實(shí)也是為了服務(wù)聾人朋友自己。”天津理工大學(xué)聾人工學(xué)院副院長袁甜甜分享到。

在手語動(dòng)作的流暢度上, AI手語平臺通過動(dòng)作融合算法, 基于《國家通用手語詞典》規(guī)范精修近11000多個(gè)手語動(dòng)作,讓每一個(gè)動(dòng)作的起落之間自然銜接,實(shí)現(xiàn)連貫性表達(dá)。再配合4D掃描技術(shù)訓(xùn)練,使得AI手語數(shù)字人表情自然生動(dòng),口型生成準(zhǔn)確度高達(dá)98.5%。百度表示,未來將在不斷完善產(chǎn)品的基礎(chǔ)上,加快覆蓋和落地,解決各類場景中無障礙窗口稀缺的問題。

標(biāo)簽: AI手語主播 聽障人士 AI手語平臺 AI手語平臺一體機(jī)

相關(guān)新聞

凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

熱文推薦

焦點(diǎn)資訊