亚洲免费看av,亚洲欧美日本在线,日韩中文字幕国产精品,91天天在线,国产va免费精品观看精品老师,九一av,黄色一级电影免费观看

BAT、谷歌、Facebook都在搞的神經(jīng)機(jī)器翻譯,真的就
腦極體 2017-09-07 08:55:23

BAT、谷歌、Facebook都在搞的神經(jīng)機(jī)器翻譯,真的就地表最強(qiáng)了嗎?

2014年到2016年,機(jī)器翻譯領(lǐng)域可以說(shuō)是翻天覆地。

這期間發(fā)生的大事,是以神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)的機(jī)器翻譯,開(kāi)始在全面超越此前以統(tǒng)計(jì)模型為基礎(chǔ)的統(tǒng)計(jì)機(jī)器翻譯(SMT),并快速成為在線翻譯系統(tǒng)的主流標(biāo)配。

在這場(chǎng)革命之后,機(jī)器翻譯徹底進(jìn)入了Neural Machine Translation,即NWT神經(jīng)機(jī)器翻譯時(shí)代。

很多人為此歡欣鼓舞?;叵肴ツ辏雀柙谥杏⒎g系統(tǒng)上部署了GNWT——谷歌神經(jīng)機(jī)器翻譯之后,當(dāng)時(shí)網(wǎng)上有一句廣為流傳的話:“作為翻譯,看到這個(gè)新聞的時(shí)候,我理解了18世紀(jì)紡織工人看到蒸汽機(jī)時(shí)的憂慮與恐懼。”

怎么樣?是不是感受到了深深的絕望?

但是先讓咱們的小情緒平靜一下。時(shí)過(guò)一年,市面上的NWT系統(tǒng)越來(lái)越多,國(guó)內(nèi)的BAT、搜狗,國(guó)外的谷歌、Facebook、微軟等都在布局。雖然翻譯質(zhì)量確有提高,但遠(yuǎn)沒(méi)到上述引文中描繪的發(fā)生“質(zhì)變”的程度。這到底是為什么?

于是,我們選取了目前最有代表性的谷歌GNWT和屢獲大獎(jiǎng)的搜狗的SogouNWT,來(lái)摸索一下今天神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的真實(shí)水平和進(jìn)化空間。

應(yīng)用效果測(cè)試

考慮到要求連貫性、語(yǔ)句準(zhǔn)確的在線翻譯技術(shù),其應(yīng)用場(chǎng)景無(wú)非兩種:一是海外旅游、購(gòu)物為代表的實(shí)時(shí)溝通場(chǎng)景;二是垂直領(lǐng)域的專業(yè)內(nèi)容翻譯(畢竟日常翻譯需求查單詞就夠了),所以這里選取了一些旅游用語(yǔ)和專業(yè)論文,來(lái)檢測(cè)一下SogouNMT和GNMT的翻譯實(shí)力。

此外,今年6月搜狗在發(fā)布翻譯APP時(shí)表示SogouNMT的獨(dú)門(mén)秘籍之一是翻譯古詩(shī)詞,所以我們也找來(lái)了古詩(shī)詞與文言文來(lái)折磨兩個(gè)“小家伙”。

首先是來(lái)看一句基本的旅游用語(yǔ):

英譯漢:What is the possibility of my getting a seat if I wait?

谷歌答案:如果我等待,我可以得到座位的可能性?

搜狗答案:如果我等待的話,我有座位的可能性是多少?

漢譯英:如果我等下去的話有多大幾率有座位?

谷歌答案:What is the chance of having a seat if I wait?

搜狗答案:How often do I have a seat if I wait?

從中可以看出,英譯漢的語(yǔ)序調(diào)整大體正確,搜狗對(duì)漢語(yǔ)的語(yǔ)法理解更準(zhǔn)確。但漢譯英卻沒(méi)有那么樂(lè)觀,對(duì)于表述比較口語(yǔ)化的“幾率”,兩個(gè)系統(tǒng)都沒(méi)有表現(xiàn)出對(duì)上下文的理解能力。

我們來(lái)找點(diǎn)論文里的長(zhǎng)句子虐一下。

英譯漢:

ItseemsanachronistictotalkaboutintertextualityinthebeginningoftheTwentyFirstCentury,almostfortyyearssincethetermfirstappearedwithJuliaKristeva’sintroductionofMikhailBakhtintotheWesternworld.

谷歌答案:

在二十一世紀(jì)初談?wù)摶ノ男运坪醪缓蠒r(shí)宜,自從Julia Kristeva將Mikhail Bakhtin引入西方世界以來(lái),已經(jīng)有四十年了。

搜狗答案:

在二十世紀(jì)初開(kāi)始談?wù)摶ノ男运坪跏遣缓蠒r(shí)宜的,近四十年來(lái),從Juliakristeva引進(jìn)米哈伊爾·巴赫金到西方世界第一次出現(xiàn)。

漢譯英:

自四十年前朱麗婭·克里斯蒂娃在介紹巴赫金思想時(shí)首次將"互文性"概念引進(jìn)西方世界以來(lái),到21世紀(jì)初的今天再針對(duì)“互文性”進(jìn)行討論已經(jīng)顯得有些不合時(shí)宜。

谷歌答案:

Since the introduction of the "intertextuality" concept for the first time in the introduction of Bakhtin's thought forty years ago, the discussion of "intertextuality" at the beginning of the 21st century has become somewhat outdated.

搜狗答案:

Since Julia Christie introduced the concept of " intertextuality" to the western world for the first time 40 years ago, it has become an anachronism to discuss the " intertextuality" in the early 21st century.

從長(zhǎng)句子的翻譯上看,中英之間的語(yǔ)序調(diào)整還是大問(wèn)題。而且語(yǔ)序引發(fā)的意義差別會(huì)影響整個(gè)翻譯的結(jié)果。另外漢譯英中,谷歌表現(xiàn)稍微好一點(diǎn),搜狗出現(xiàn)了很嚴(yán)重的漏譯。值得肯定的是,二者對(duì)專有名詞的翻譯都比較準(zhǔn)確,但是人名庫(kù)顯然還不夠大。

我們?cè)賮?lái)一點(diǎn)有意思的,杜甫的《石壕吏》:

暮投石壕村,有吏夜捉人。老翁逾墻走,老婦出門(mén)看。吏呼一何怒!婦啼一何苦!

谷歌翻譯版:

Twilight cast stone trench village, there are officials to catch the night.

The old man went over the wall and the old woman went out to see.

Official call an anger! Women cry one bitter!

搜狗翻譯版:

Twilight lapidation the village, there are officials and night catchers.

The old man went over the wall and the old woman went out to see.

The guards cried so fiercely The old lady cried so sad.

參考巴頓·華茲生公認(rèn)比較權(quán)威的譯文:

At evening I put up at Stone Moat Village; that night an official came to round up people. The old man at the inn scaled the wall and ran away; the old woman came to open the gate. The official, how fiercely he shouted! The old woman, how pitiful her cries!

可以看出谷歌對(duì)古詩(shī)詞的理解確實(shí)不如搜狗,比如婦啼一何苦搜狗翻譯長(zhǎng)了“old women”應(yīng)該是對(duì)應(yīng)上了前文。再比如“夜捉人”變成了“catch the night”似乎不如搜狗的貼邊。當(dāng)然了,兩邊對(duì)于“逾墻走”這類表達(dá)都無(wú)法準(zhǔn)確理解,另外搜狗完全漏了石壕村。

另外還有一種情況,翻譯過(guò)程中根據(jù)詞的表面意義直翻的現(xiàn)象比較嚴(yán)重,并且應(yīng)該是在算法的加持下強(qiáng)行組成句子。而這種翻譯模式下,漏翻現(xiàn)象會(huì)很嚴(yán)重。

從以上測(cè)試可以得出以下兩個(gè)問(wèn)題:

  • 首先,中英文之間的語(yǔ)序?qū)φ{(diào),也就是機(jī)器翻譯中的對(duì)齊問(wèn)題還是沒(méi)有得到妥善解決。

  • 其次,在于神經(jīng)網(wǎng)絡(luò)翻譯應(yīng)該會(huì)根據(jù)算法自己生成整句內(nèi)容。這是因?yàn)樗惴ò丫渥赢?dāng)做單獨(dú)的序列,所以無(wú)論短語(yǔ)和單詞是否正確,都必須生成句子。并且,語(yǔ)位關(guān)系與動(dòng)詞的翻譯經(jīng)常出錯(cuò)。

當(dāng)然以上只是根據(jù)我們的實(shí)驗(yàn)得到的特征,不一定全面和準(zhǔn)確,但似乎確實(shí)說(shuō)明了神經(jīng)機(jī)器翻譯沒(méi)有那么神,甚至有一些技術(shù)迭代后出現(xiàn)的新問(wèn)題。

找鑰匙,搶鑰匙

目前來(lái)看,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯未來(lái)很長(zhǎng)時(shí)間都會(huì)處在主要位置。并且可能會(huì)短時(shí)間內(nèi)不斷突破。而針對(duì)上面分析到的問(wèn)題,有一些解決方案可以作為比較高效的補(bǔ)充,也許這些會(huì)成為神經(jīng)網(wǎng)絡(luò)翻譯企業(yè)接下來(lái)的重點(diǎn)戰(zhàn)場(chǎng)。

這里探討的是以其他技術(shù)力量完善神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的方式,說(shuō)不定其中某項(xiàng)會(huì)成為促進(jìn)真人翻譯進(jìn)一步失業(yè)的“鑰匙”:

一、引進(jìn)NMT以外的人工智能技術(shù):巧合的是,近兩年關(guān)于機(jī)器翻譯的技術(shù)突破往往來(lái)自其他人工智能領(lǐng)域。比如注意力模型,是來(lái)自Deepmind在機(jī)器視覺(jué)領(lǐng)域的技術(shù)構(gòu)想。主動(dòng)引入其他領(lǐng)域的算法和模型,或許在翻譯領(lǐng)域有神奇的效果。

二、建立機(jī)器學(xué)習(xí)使用的用戶數(shù)據(jù)庫(kù),激發(fā)互動(dòng):在機(jī)器學(xué)習(xí)的原理當(dāng)中,對(duì)錯(cuò)誤樣本糾錯(cuò)往往是最好的學(xué)習(xí)途徑,但翻譯上的糾錯(cuò)行為顯然是企業(yè)難以完成的。調(diào)動(dòng)用戶主動(dòng)糾錯(cuò)翻譯結(jié)果,并以之建立數(shù)據(jù)庫(kù),或許是非常便捷的辦法。

三、嘗試優(yōu)質(zhì)訓(xùn)練資料下的弱監(jiān)督學(xué)習(xí):目前的NMT體系,歸根結(jié)底是個(gè)有監(jiān)督學(xué)習(xí)過(guò)程,很多所謂“莫名其妙”的翻譯結(jié)果都來(lái)自翻譯機(jī)制無(wú)法優(yōu)化。嘗試一些深度學(xué)習(xí)架構(gòu)讓翻譯系統(tǒng)自我優(yōu)化,也許是個(gè)解決方案。

四、垂直領(lǐng)域語(yǔ)料數(shù)據(jù)庫(kù)&數(shù)據(jù)抽調(diào)系統(tǒng):解決具體的專業(yè)領(lǐng)域,甚至文言文的中英互譯(當(dāng)然也包括英文的詩(shī)歌和文學(xué)文本),其實(shí)也沒(méi)什么特別的辦法,擁有強(qiáng)大的垂直領(lǐng)域數(shù)據(jù)庫(kù)是硬實(shí)力,當(dāng)然好的數(shù)據(jù)抽調(diào)模型會(huì)事半功倍。

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí),還是個(gè)標(biāo)準(zhǔn)的新生事物。業(yè)界愿意選擇它只是因?yàn)樗却饲暗姆桨父鼉?yōu)化,也更有發(fā)展?jié)摿?。絕不是因?yàn)樗怀鍪志兔霘⒈娚?,達(dá)到了取代人類同行的地步。

翻譯依舊是一個(gè)非常安全的工作,至少今天還是。

4
歡迎關(guān)注商界網(wǎng)公眾號(hào)(微信號(hào):shangjiexinmeiti)
標(biāo)簽神經(jīng)  谷歌  

評(píng)論

登錄后參與評(píng)論

全部評(píng)論(89)

廣告
廣告
廣告
商界APP
  • 最新最熱
    行業(yè)資訊

  • 訂閱欄目
    效率閱讀

  • 音頻新聞
    通勤最愛(ài)

廣告