科技資訊:谷歌的Translatotron是一個模仿人類聲音的端到端的模型

導讀新時代高科技不計其數越來越發達,小伙伴們看過不少科技新聞吧,在我們生活中應該也用到很多這些高科技東西,有哪些小伙伴值的關注的呢,今

新時代高科技不計其數越來越發達,小伙伴們看過不少科技新聞吧,在我們生活中應該也用到很多這些高科技東西,有哪些小伙伴值的關注的呢,今天就跟大家分享一篇有關科技方面知識,希望大家會喜歡。

谷歌人工智能今天分享了關于Translatotron的詳細信息,這是一個實驗的人工智能系統,能夠將一個人的聲音直接翻譯成另一種語言,這種方法允許對一個人的聲音進行綜合翻譯,以保持原始說話人的聲音。

傳統上,語音翻譯使用自動語音識別將語音轉換為文本,應用機器翻譯,然后使用文本到語音來產生翻譯,但Translatotron是端到端的翻譯模型。 研究人員說,與傳統的級聯模型相比,Translatotron可以更快地完成翻譯,并減少并發癥。

“據我們所知,Translatotron是第一個端到端的模型,它可以直接將一種語言的語音轉換成另一種語言的語音。 它還能夠在翻譯的演講中保留源說話人的聲音。

測量機器翻譯質量的BLEU評分發現實驗的Translatotron比傳統的級聯系統質量低,但Translatotron比基線級聯翻譯獲得了更準確的翻譯。

機器翻譯的端到端模型的出現始于法國研究人員于2016年在Neur IPS接受的一篇論文。

為了使Translatotron能夠進行端到端的翻譯,研究人員使用序列對序列模型和譜圖作為輸入訓練數據。 揚聲器編碼器網絡用于捕獲揚聲器聲音的特征,多任務學習用于預測源和目標揚聲器使用的單詞。

Translatotron在今天發表的一篇題為“使用序列對序列模型的直接語音到語音翻譯”的論文中得到了更詳細的闡述。

Translatotron的發布是在谷歌推出SpecAugment一個月后出現的,SpecAugment是一種人工智能模型,它使用計算機視覺和多種技術從光譜圖像中理解單詞。

Translatotron可以應用于類似Google Assistant的口譯模式,該模式在今年1月首次面向家庭演講者。 口譯模式能夠以27種語言進行聽力和語音翻譯。 像谷歌和微軟這樣的公司也在使用他們的語言翻譯作為贏得iOS用戶的一種方式。

Translatotron是谷歌在機器翻譯和語言處理方面的最新進展。

上周,在谷歌的I/O開發者大會上,谷歌分享到,它縮小了其反復出現的神經網絡和語言理解模型,用于智能手機設備上的機器學習,使谷歌的速度提高了10倍。 谷歌還推出了鏡頭翻譯,這樣你的相機就可以翻譯100多種語言。

免責聲明:本文由用戶上傳,如有侵權請聯系刪除!