青青河边草免费观看西瓜动漫 ,超级yin荡的高中女h文校园 ,绿色椅子在线观看,最近韩国日本免费观看MV

微信
關(guān)注官方微信
手機版

黃學東:以人為師,機器翻譯達人類專業(yè)水平

今年是黃學東加入微軟的第25年,但這位微軟老將至今仍活躍在人工智能領域科學研究的前線。

2018年3月份,他帶領的團隊在機器翻譯領域拿下一項里程碑式的成就:其研發(fā)的機器翻譯系統(tǒng)在通用新聞報道的newstest2017中譯英測試集上,達到了人工翻譯水平。這是首個在新聞報道的翻譯質(zhì)量和準確率上媲美人工翻譯的翻譯系統(tǒng)。在去年8月,也是在黃學東的帶領下,其團隊在產(chǎn)業(yè)標準Switchboard語音識別基準測試中實現(xiàn)了對話語音識別詞錯率(word error rate,簡稱WER),低至5.1%,創(chuàng)造了當時該領域內(nèi)錯誤率最低紀錄,首次達成與專業(yè)速記員持平而優(yōu)于絕大多數(shù)人的表現(xiàn)。

在兩年不到的時間里,黃學東的團隊接二連三地取得突破。他的成績也獲得了微軟的認可。2017年,他被評選為微軟技術(shù)院士(Technical Fellow),這代表著微軟技術(shù)人員的最高榮譽,獲得這一榮譽的人還包括圖靈獎得主Butler W Lampson、Charles P. Thacker等。

\

黃學東

近日,在北京微軟亞洲研究院里,這位國際電子電氣工程師學會(IEEE)和美國計算機學會(ACM)的雙科院士,微軟認知工具包CNTK的締造者之一,用一口帶著湖南鄉(xiāng)音的普通話接受了澎湃新聞(www.thepaper.cn)的采訪。

從大學時代到加入微軟,踏上25年的技術(shù)征程,再到帶領團隊屢創(chuàng)佳績,黃學東談到了自己為什么能堅持這么久的原因:就是想讓語言交流能夠更美好,人與人之間的語言障礙可以消除。目前,黃學東的團隊已經(jīng)在語音識別的詞錯率上達到了專業(yè)速記員的水平,并且在機器翻譯上比肩人類專業(yè)譯者。在采訪中,除了談到最新的機器翻譯突破背后的故事外,黃學東還談到了人工智能技術(shù)發(fā)展最終是否會取代人的問題,以及中美之間的人工智能之爭。

以人為師:微軟機器翻譯提前7年超越人類譯者

在2017年,牛津大學曾向機器學習(Machine Learning)的研究人員做過一項調(diào)查,調(diào)查的內(nèi)容是對人工智能未來發(fā)展的預測。根據(jù)這些研究人員的預測,未來10年的人工智能會在很多方面超過人類。其中,他們預測機器翻譯想要超過人類業(yè)余譯者需要8年時間。

根據(jù)這項預測,微軟今年3月份研發(fā)出的機器翻譯系統(tǒng),實際上將機器翻譯中譯英方面超越人類業(yè)余譯者的時間提前了7年,并達到了比肩人類專業(yè)譯者的水平。

“這是一個歷史性的突破,因為語言一直是我們?nèi)祟惤涣髯钪匾臇|西,尤其中國要走向世界,中翻英現(xiàn)在可以達到專業(yè)的水平,這是一個歷史性的突破。這對中國走向世界,對人工智能的推進都有正面意義,非常鼓舞人心。”黃學東告訴澎湃新聞(www.thepaper.cn)。

據(jù)黃學東介紹,這個項目由來自微軟亞洲研究院和微軟雷德蒙研究院的三個研究組,進行了跨越中美時區(qū)、跨越研究領域的聯(lián)合創(chuàng)新。

自1954年開始,機器翻譯一直是人類想要攻堅的領域。無奈在過去的幾十年中,由于技術(shù)方法,計算力和訓練數(shù)據(jù)等原因,研究人員一直未能找到有效的突破口。直到進入21世紀,研究人員引入深度學習的神經(jīng)網(wǎng)絡,構(gòu)建了神經(jīng)機器翻譯(Neural Machine Translation)才有了突破。

神經(jīng)機器翻譯,簡要的說,就是對源語言的句子進行編碼,即轉(zhuǎn)化為計算機可以“理解”的形式,編碼的結(jié)果會形成很多隱含變量,每個隱含變量代表從句首到當前詞匯為止的語義信息。然后通過一個解碼的過程,一個詞、一個詞輸出譯文。

這一次微軟的突破可謂是既站在了巨人的肩膀上,又用到了自己的創(chuàng)新:微軟的機器翻譯系統(tǒng)不僅用了最新的神經(jīng)網(wǎng)絡技術(shù),還用了微軟自己研發(fā)的一些獨到的技術(shù),做到了集大成者。

在微軟這次的創(chuàng)新中,微軟的研究團隊借鑒了人類在翻譯時的一些思維方式。第一個是對偶學習(Dual Learning)。這有點像人類在學習英語時,當把中文翻譯成英文后,通常還需要檢查,即將英文再翻譯回中文,看是否正確,做到翻譯的一致性。這樣做的目的是能在中翻英、英翻中的過程中做到聯(lián)合優(yōu)化。微軟就將這一方法“教”給了機器。

第二個是推敲網(wǎng)絡(Deliberation Networks)。在中文詩詞里“僧敲月下門”中的“敲”就是一個作者在寫詩時反復推敲,將語言表達到極致的結(jié)果。在微軟的機器翻譯系統(tǒng)中,就借鑒了這樣的方式。機器翻譯完成翻譯后,為了讓其做的更好,研究人員使用推敲網(wǎng)絡讓機器不斷推敲,不斷修改,把翻譯完的結(jié)果再輸入,再全盤考慮,做到不斷優(yōu)化。

第三個是一致性規(guī)范(Agreement Regularization)。一致性規(guī)范讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結(jié)果。

黃學東解釋說,這一點就像人類在翻譯的過程中,我們通常會左看右看,兩邊都看順眼了,才覺得放心。

除此之外,此次機器翻譯系統(tǒng)還使用了聯(lián)合訓練(Joint Training),這個方法可以認為是從源語言到目標語言翻譯(Source to Target)的學習與從目標語言到源語言翻譯(Target to Source)的學習的結(jié)合。中英翻譯和英中翻譯都使用初始并行數(shù)據(jù)來訓練,在每次訓練的迭代過程中,中英翻譯系統(tǒng)將中文句子翻譯成英文句子,從而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統(tǒng)的數(shù)據(jù)集中。同理,這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統(tǒng)的訓練數(shù)據(jù)集大大增加,而且準確率也大幅提高。

值得一提的還有,微軟研究團隊這次還為整個翻譯研究找了雙語的語言顧問,對機器翻譯的結(jié)果進行評測。就人們像學習英語時,通常需要有專業(yè)的老師對我們的學習成果進行評測一樣,對于機器翻譯而言,專業(yè)老師給出的結(jié)果也非常重要。“機器翻譯其實相當于一題有多個答案,答案好壞跟老師的水準有關(guān)系,所以用機器自動評分很難評判,我們現(xiàn)在用專業(yè)的人員來評,就是要把好質(zhì)量關(guān)。”黃學東說。

在上述幾個技術(shù)的加持下,微軟的研究團隊將原本設定為兩年的研究周期,提前一年完成了機器翻譯達到人類專業(yè)水平的研究成果。

三所不同大學的熏陶和近30年的堅持

黃學東加入微軟已經(jīng)25年了,算上大學時期的研究,他在人工智能領域里已經(jīng)堅持了30多年時間。從最初的默默無聞到最近幾年,自己帶領的團隊接二連三的完成突破,黃學東說這是堅持不懈的成果,也是自己的幸運。

黃學東祖籍湖南,在現(xiàn)場接受澎湃新聞采訪時,仍可以聽出他普通話里的湘音。15歲時,他便參加了高考,考上了湖南大學計算機專業(yè)。回憶起自己的本科時光,黃學東說印象最深的是湖南大學岳麓書院門前的對聯(lián):“惟楚有才,于斯為盛” 。

“岳麓書院有一千余年歷史,同樣在岳麓書院這個地址,湖南大學一直保持了教育的連續(xù)性。我每天從宿舍經(jīng)過岳麓書院,都要看岳麓書院門前的對聯(lián),它為自信心,有情懷的追求打下了基礎。因為很多事情,以及你在追求事業(yè)的過程中一定要有耐力,要有內(nèi)力,這是湖南大學給我最好的訓練。”黃學東說。

湖南大學的本科學習結(jié)束后,黃學東北上來到了清華大學念碩士和博士。在清華,黃學東學習了5年時間,完成了碩士學業(yè),但博士沒有讀完就“跑”了。原因是,當時在自己導師的鼓勵下,黃學東提前到了英國的愛丁堡大學學習。

但正是學習環(huán)境的改變,讓黃學東找到了自己想要研究的方向。

“30年前,我在清華學的都是美式英語,留學去了英國,而且去的是蘇格蘭的愛丁堡,盡管學校非常漂亮,也是出大牛的地方?墒巧险n,我聽不懂,因為我的英文不好,再加上蘇格蘭口音。所以我當時就想要是一邊講一邊有字幕多好。”黃學東笑著說,“當時英國還是很厲害的,1987年,BBC的所有電視節(jié)目都有字幕,我當時就調(diào)到蘇格蘭的當?shù)仡l道看字幕學蘇格蘭式英語,講的我現(xiàn)在英文都帶蘇格蘭口音。”

深切體會到自己學習過程中的痛點后,黃學東希望能幫助其他人也解決這個問題。他在微軟后來所做的許多工作和研究也跟這些經(jīng)歷相關(guān)。例如,微軟的語音翻譯,它們擁有Skype translator、Microsoft translator兩個落地產(chǎn)品。目前,Microsoft translator不管是iPhone還是Android設備都可以使用,還和微軟Office整合起來了。這款應用可以在有語言障礙的面對面溝通時,同時支持100個人用60多種不同語言自由的交流。

堅持了30年后,黃學東說他的最終夢想是能讓機器理解人類的語言,并讓機器能夠像人一樣說話、交流。目前,他的團隊在語音識別、機器翻譯上已經(jīng)取得成功,下一個目標是能在語音合成上取得突破。

中美人工智能競爭格局

從中國的大學出發(fā),黃學東在英國、美國都有過學習、工作的經(jīng)歷。微軟作為全球科技巨頭,在人工智能領域已經(jīng)有了深入的布局。設在北京的微軟亞洲研究院,更是被外界稱為是人工智能人才培養(yǎng)的“黃埔軍校”。

對于中美兩國之間,在人工智能領域里,越來越明顯的競爭火藥味,黃學東有自己的看法。

在他看來,人工智能想要獲得成功,離不開三個要素:計算力、數(shù)據(jù)和算法。 從這三個維度出發(fā),中國用戶量大、數(shù)據(jù)豐富,在數(shù)據(jù)上有優(yōu)勢,這是中國一大亮點。但是僅有數(shù)據(jù),沒有計算力和算法還遠遠不夠。

“目前,大的格局是這樣,從計算力來講,美國公司還是占優(yōu)勢,像英偉達的GPU,他們剛出的芯片很厲害,但中國目前還沒有。從算法來看,比如深度學習也是谷歌的TensorFlow、微軟的CNTK,這也是西方的工具。所以從計算力和算法來看,西方現(xiàn)在還是絕對占優(yōu)勢。中國的優(yōu)勢是數(shù)據(jù)豐富,這三個里面至少中國有一個優(yōu)勢。”黃學東說。

在采訪最后,回顧自己25年的職業(yè)生涯,看到目前中國掀起的人工智能浪潮,黃學東感慨頗多。對于當下想投身于人工智能的青年研究人員,黃學東說最好的建議是堅韌不拔。

“不要動不動就想著一炮打紅,一夜成名,哪有那么好的事。任何成績的獲得,不僅僅是個人的成果,是從好幾代人的研發(fā)基礎上一步步往前走的。這是事實,整個社區(qū)不是微軟一個公司,是大學研究機構(gòu)和各個公司一起的努力才做到今天這個結(jié)果的。”黃學東說。

編輯:Array
返回頂部