近日來(lái),社交平臺(tái)上的英語(yǔ)密集程度遠(yuǎn)超以往,大量TikTok創(chuàng)作者蜂擁進(jìn)入國(guó)內(nèi)的社交App。隨便打開(kāi)軟件首頁(yè),一個(gè)個(gè)全是英文內(nèi)容。不少外國(guó)人還總是喜歡“懟臉自拍”,舉著手機(jī)就是一串英文,讓當(dāng)下熱衷于網(wǎng)上沖浪的年輕人驚呼,玩手機(jī)也成了練習(xí)英語(yǔ)聽(tīng)力。
當(dāng)下機(jī)器翻譯技術(shù)的進(jìn)步,已經(jīng)可以讓不同語(yǔ)言的人們進(jìn)行交流。但這種交流遠(yuǎn)稱不上是流暢。比如,市面上流行的機(jī)器翻譯大多數(shù)還是交傳技術(shù),很難實(shí)現(xiàn)真正端到端的語(yǔ)音同傳。也就是說(shuō),簡(jiǎn)單的文字溝通或許還可以借助簡(jiǎn)單的翻譯機(jī)器來(lái)解決,但要無(wú)障礙地與外國(guó)友人視頻連線、語(yǔ)音通話,當(dāng)下的機(jī)器翻譯還不太能支持。
過(guò)去兩年大模型技術(shù)的進(jìn)步讓機(jī)器翻譯有了突破口。1月15日,科大訊飛對(duì)外發(fā)布了星火語(yǔ)音同傳大模型。這是國(guó)內(nèi)首個(gè)具備到端到端語(yǔ)音同傳能力的大模型,將機(jī)器語(yǔ)音同傳的效果提升至媲美人類專家譯員的水平。
和過(guò)去慣常采用交傳技術(shù)的機(jī)器翻譯相比,擁有端到端能力的語(yǔ)音同傳大模型最大的特點(diǎn)是變得“更像人類”了。事實(shí)上,它本身就是通過(guò)模仿人類同傳譯員的思維鏈路進(jìn)行訓(xùn)練而成,具備實(shí)時(shí)意群理解和切分、上下文語(yǔ)境精準(zhǔn)選詞以及碎片化信息重組的能力,這一特性使得星火語(yǔ)音同傳大模型在處理復(fù)雜句式和語(yǔ)境時(shí)表現(xiàn)出色,能夠迅速準(zhǔn)確地傳達(dá)原意。
發(fā)布會(huì)上,上海外國(guó)語(yǔ)大學(xué)高級(jí)翻譯院院長(zhǎng)張愛(ài)玲教授專門介紹了過(guò)去機(jī)器翻譯在同傳領(lǐng)域面臨的問(wèn)題。比如同傳時(shí)延,機(jī)器翻譯的速度往往跟不上說(shuō)話者的語(yǔ)速,翻譯存在較大延遲。
展開(kāi)全文
更關(guān)鍵的還在于人類口語(yǔ)交流的復(fù)雜性。張愛(ài)玲教授介紹,源語(yǔ)發(fā)言,往往會(huì)邏輯復(fù)雜、層層嵌套,口譯員必須具備超高的信息提取能力,才能在繁雜的線索中鎖定關(guān)鍵信息,確保信息的完整和可靠。不同語(yǔ)言的表達(dá)方式、音節(jié)長(zhǎng)度也不一樣。如果只是機(jī)械式地照搬原意,往往無(wú)法流暢地跟上口譯速度。
也正因此,雖然過(guò)去幾年機(jī)器翻譯普及迅速,但在同傳領(lǐng)域,機(jī)器翻譯相較于人類專業(yè)口譯員仍有不少劣勢(shì)。
訊飛研究院研究員亞楠介紹,訊飛10年前就想去做語(yǔ)音同傳,但當(dāng)時(shí)技術(shù)難度太大。直到過(guò)去兩年大模型技術(shù)的突破,他們結(jié)合訊飛在智能語(yǔ)音技術(shù)上的獨(dú)特算法積累,才終于實(shí)現(xiàn)了端到端的語(yǔ)音同傳。
底層技術(shù)的不同,讓星火語(yǔ)音同傳大模型實(shí)現(xiàn)了對(duì)傳統(tǒng)機(jī)器翻譯的降維打擊。據(jù)介紹,相較訊飛之前的翻譯技術(shù),星火語(yǔ)音同傳大模型的全場(chǎng)景效果提升30%以上,端到端響應(yīng)時(shí)間最快可以達(dá)到平均5s以內(nèi)。和國(guó)外最優(yōu)競(jìng)品的交傳技術(shù)相比,訊飛語(yǔ)音同傳在內(nèi)容完整度、信息準(zhǔn)確度以及語(yǔ)言質(zhì)量上也都處于領(lǐng)先水平。
不過(guò),如果你只是想當(dāng)然地認(rèn)為,在大模型技術(shù)的加持下,其他廠商也能實(shí)現(xiàn)端到端語(yǔ)音同傳的突破,這就完全低估了智能翻譯的難度。
科大訊飛專門將星火語(yǔ)音同傳大模型與國(guó)外的主流大模型進(jìn)行了對(duì)比測(cè)試,在長(zhǎng)達(dá)5H的音視頻測(cè)試中,8s時(shí)延模式在內(nèi)容完整度、信息準(zhǔn)確度等評(píng)價(jià)維度超過(guò)了Gemini2.0、GPT-4o等國(guó)外主流大模型。
這背后,離不開(kāi)科大訊飛多年來(lái)的積累。事實(shí)上,科大訊飛是國(guó)內(nèi)智能翻譯及語(yǔ)音識(shí)別領(lǐng)域積累最深、研究時(shí)間最長(zhǎng)的龍頭企業(yè)??拼笥嶏w不僅擁有在業(yè)內(nèi)率先通過(guò)全國(guó)翻譯專業(yè)資格考試的機(jī)器翻譯系統(tǒng),且在最近連續(xù)3屆IWSLT國(guó)際口語(yǔ)機(jī)器翻譯比賽都獲得了冠軍。
和大模型浪潮來(lái)臨前各家廠商尚處在同一起跑線上不同,語(yǔ)音識(shí)別與翻譯技術(shù)更是考驗(yàn)技術(shù)積累與應(yīng)用經(jīng)驗(yàn)的領(lǐng)域。
在技術(shù)上,科大訊飛多年來(lái)圍繞語(yǔ)音及翻譯取得了多項(xiàng)核心專利技術(shù)突破,曾多次獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)、中國(guó)專利金獎(jiǎng)等多項(xiàng)榮譽(yù)。目前,科大訊飛已累計(jì)獲得國(guó)內(nèi)外有效專利4000余件。
應(yīng)用層面,國(guó)內(nèi)外諸多行業(yè)論壇、國(guó)際會(huì)議中都有訊飛翻譯的身影,包括進(jìn)博會(huì)、世界人工智能大會(huì)、中關(guān)村論壇、聯(lián)合國(guó)教科文會(huì)議等。迄今為止,科大訊飛已累計(jì)服務(wù)了50多個(gè)國(guó)家和地區(qū),支撐了40萬(wàn)場(chǎng)會(huì)議,覆蓋全球4億觀眾。
正是這些多年來(lái)在語(yǔ)音識(shí)別與智能翻譯領(lǐng)域的積累與探索,才讓科大訊飛在大模型技術(shù)加持下率先突破了端到端語(yǔ)音同傳的難題。這是其他大模型廠商難以做到,同時(shí)也幾乎無(wú)法追趕的核心技術(shù)突破。
更關(guān)鍵的是,自然語(yǔ)言交互已成為當(dāng)下AI智能體應(yīng)用最廣的交互方式,未來(lái)人類與機(jī)器的互動(dòng)將更多的依靠語(yǔ)音進(jìn)行,科大訊飛過(guò)去多年積累的深厚技術(shù)有望在人工智能時(shí)代進(jìn)一步釋放。
發(fā)布會(huì)上,科大訊飛同時(shí)介紹了集成了最新同傳技術(shù)的訊飛翻譯機(jī)。無(wú)論是海外旅游場(chǎng)景中的景點(diǎn)介紹,還是國(guó)際展會(huì)上的專業(yè)產(chǎn)品介紹,翻譯機(jī)能在短時(shí)間內(nèi)完成高質(zhì)量的英到中和中到英的雙向同傳任務(wù)。
科大訊飛透露,針對(duì)語(yǔ)音到語(yǔ)音的同傳場(chǎng)景,訊飛翻譯機(jī)將會(huì)配置耳機(jī)、音箱、麥克風(fēng),在2025年推出商務(wù)套裝,滿足用戶在不同的商務(wù)洽談場(chǎng)景的使用需求。
評(píng)論