中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

紀念機器翻譯概念的誕生:重新認識瓦倫·韋弗先生

發布時間:2020-08-11 20:19:36 來源:ITPUB博客 閱讀:146 作者:AIBigbull2050 欄目:互聯網科技
2020-07-16 19:17:47
紀念機器翻譯概念的誕生:重新認識瓦倫·韋弗先生

作者 | 張家俊

編輯 | 叢 末

機器翻譯旨在利用計算機實現自然語言之間的自動翻譯,一直是自然語言處理與人工智能領域的重要研究方向,近年來更是取得了突破性進展,已成為大眾較為熟知和常用的技術。

現在一提起機器翻譯技術的起源,對該研究領域稍有了解的人們都知道是美國的瓦倫·韋弗(Warren Weaver,后面簡稱韋弗)最先于1947年提出機器翻譯概念并于1949年7月正式記錄于名為《翻譯》的備忘錄。不過,可能大多數人不是特別了解韋弗究竟是何許人也以及他怎么會提出機器翻譯的概念。作為機器翻譯領域的一名研究者,我對這些問題非常感興趣,也希望讓更多人了解機器翻譯概念誕生的那些趣事和史實。

紀念機器翻譯概念的誕生:重新認識瓦倫·韋弗先生

瓦倫·韋弗

如果讓大家猜測的話,可能會認為韋弗是一位從事語言翻譯的學者,由于人工翻譯任務繁重從而產生利用計算機進行自動翻譯的想法。其實不然,他的人生經歷著實會讓人驚嘆不已。

如果您認為他提出了機器翻譯的概念已經足夠偉大,那么可以再告訴您 韋弗是位數學家,二戰期間曾幫助美軍革新了防控火控系統和轟炸機技術,而且他首次提出了分子生物學的概念,他還與信息論之父香儂一同撰寫了劃時代意義的著作《通信的數學原理》(The Mathematical Theory of Communication)。有點尷尬的發現,機器翻譯似乎僅僅是他的一個小小愛好而已。

如此多不同領域的貢獻竟然集中于一人之身,足見韋弗的不凡之處。可能我們會有疑問,韋弗到底從事哪種職業呢?實際上很難用教授、研究員或者科學家某個稱謂概括他的職業生涯。下面,讓我們慢慢走進韋弗的人生。

1

從威斯康星到紐約

韋弗1894年7月17日出生于美國威斯康星州的里茲堡市,從小酷愛各種搗鼓,立志成為一名工程師。進入威斯康星大學后,受到查爾斯·斯萊希特(Charles Slichter)和馬克思·馬森(Max Mason)兩位老師的影響(需要重點記得馬森,他似乎要對韋弗的職業生涯負責到底),韋弗發現自己的興趣和熱情并不在工程技術,而是應用數學和理論物理,從而毅然轉向數學,于1916年獲得數學學位,并于1917年獲得了土木工程的學位,看來他還是沒有完全放棄工程技術。大學畢業后在馬森的推薦下去施羅普大學(大名鼎鼎的加州理工學院的前身)做過短暫的數學老師,之后在美國空軍服役了兩年。退役后回到威斯康星大學繼續博士研究,1921年獲得博士學位。畢業后留校擔任數學教授,并于1928年起擔任威斯康星大學數學系主任,按照韋弗自己的說法他不太擅長數學研究,如果這樣下去人生注定平淡無奇。

這時候,韋弗的人生導師馬森再次出場,先是邀請韋弗一起撰寫了經典物理教科書《電磁場》(The electromagnetic field),并且在其擔任洛克菲勒基金會總裁后力邀韋弗擔任馬森之前負責的該基金會自然科學部的主任。洛克菲勒基金會總部位于紐約,換工作的話意味著不僅要搬家還要面臨職業方向的轉變,從大學教授變成科研項目管理人員可能并不那么吸引人。但是,韋弗思考良久后決定跟隨老師到紐約去,1932年正式就任洛克菲勒基金會自然科學部主任,從此開啟了他不凡的科學探索、規劃和管理生涯。這里要稍微介紹一下給韋弗提供充分施展其才華的洛克菲勒基金會。

洛克菲勒基金會正式成立于1913年,已經是一個百年老字號,也差不多是世界范圍內慈善事業做得規模最大成果最多的私人基金會。這里簡單列舉幾點我們可能比較熟知的成就:1,醫學領域,洛克菲勒基金會建立了現代公共衛生領域,開發疫苗幫助根除黃熱病和瘧疾等疾病;2,農業領域,推動了20世紀第三世界國家農業生產技術改革的綠色革命;3,信息領域,資助了于1956年召開的標志人工智能起源的達特茅斯會議;4,在中國,資助建立了北京協和醫學院及其附屬北京協和醫院。洛克菲勒基金會的偉大成就還有很多很多。有了這樣的舞臺,韋弗得以大展拳腳,盡情展現其對未來科學趨勢把控和科研管理的才能。

2

向生物領域進軍

洛克菲勒基金會的錢很多,理論上想資助什么就資助什么,那么資助方向就顯得尤為重要。上任伊始,韋弗憑借其物理學背景以及對生物技術即將爆發的敏銳嗅覺,成功說服洛克菲勒基金會的董事會將資助重點從物理學轉向生物學中的新興領域(當然,這個過程應該也得到了總裁兼老師馬森的大力支持)。

方向只要對了,一切就會順利。僅僅5-6年時間,這些新興領域被資助的科研項目進展十分迅速,1938年韋弗在基金會自然科學年報中將這些生物學中新興技術統稱為分子生物學。由此,分子生物學的概念誕生了,從而開辟了一個嶄新的生物、化學與物理交叉融合的學科方向。

現在,我們熟知的DNA研究以及新冠肺炎中的核酸檢測都屬于分子生物學領域。在韋弗的推動下,洛克菲勒基金會資助了這一領域的諸多研究者,其中很多學者若干年后都成為了具體學術方向的執牛耳者。舉個例子,1954-1965年分子生物學相關領域洛克菲勒基金會資助的學者中有15位獲得了諾貝爾獎(該領域一共18位),可以說韋弗的最大貢獻之一就是極大地推動了20世紀全球生物學的發展。

3

為信息論做點貢獻

在擔任洛克菲勒基金會自然科學部主任期間,韋弗一直保留著他對應用數學(特別是概率和統計)的研究熱情。其中,一個突出成就是1949年與克勞德·香儂(Claude Shannon)共同撰寫了劃時代意義的著作《通信的數學原理》。不過,香儂一直在貝爾實驗室工作,實際上兩人并沒有交集,那么為什么會成為這部巨著的共同作者呢?其中的故事非常有趣。

1948年,香儂在貝爾系統科學雜志《Bell System Technical Journal》上發表了《通信的一個數學理論》(A Mathematical Theory of Communication),奠定了信息論和通信理論的基石。這樣來看信息論的奠基性工作跟韋弗一點關系沒有。但是,香儂著作中的數學描述比較晦澀難懂,而且闡述該理論僅適用于工程通信領域,因此該著作的受眾很少。

韋弗一直對信息論保持很高的興趣,并且理解非常深刻,也有自己獨到的見解,他于是采用通俗易懂的語言闡述并擴展了香儂的理論,并于1949年在《科學美國人》(Science American)雜志上發表了《通信中的數學》(The Mathematics of Communication)。時任美國伊利諾伊大學出版社主編的威爾伯·施拉姆教授(傳播學之父)認為兩者結合最完美,因此將韋弗和香儂的文章分別作為第一和第二部分重新修正編排,出版了劃時代意義的《通信的數學原理》(The Mathematical Theory of Communication)著作(從低調的“通信的一個數學理論”直接修改成了霸氣的“通信的數學原理”)。現在,“ 香儂-韋弗模式”已經成為通信和傳播領域無人不知的基本理論,足見韋弗在信息論的發展和傳播中扮演了何其重要的作用。

4

機器翻譯概念的誕生

現在,讓我們回歸正題,探尋韋弗提出機器翻譯概念的過程以及對后續機器翻譯發展的影響。據韋弗本人回憶,整個過程源于他的一位杰出數學家朋友經歷的真實故事。我們稱這位數學家朋友為P,他之前是德國人,在土耳其伊斯坦布爾待過一段時間,并且學習過土耳其語。該故事發生于二戰期間,由于戰爭的需要,那些年密碼學的研究十分盛行。有一天,P的一位同事F聲稱想出了一個解密算法,于是請P設計一段密文,然后測試一下這個解密算法。P對密碼學也十分感興趣,鑒于F不懂土耳其語,P想為難一下F,于是用土耳其語寫下包含100個詞語的一段話,然后將土耳其語中的非英文字母替換為英文字母,最后經過稍微復雜點的替換等操作,生成了一段數字序列的密文。沒想到F第二天就將解碼結果呈現給P。雖然F聲稱沒能成功解碼出結果,只得到一串沒有意義的英文字母組成的字符串序列(由于不懂土耳其語,所以認為沒有意義),但是P稍加修改后就能還原土耳其語的信息。

這個故事深深觸動了概率論和統計學背景的韋弗。本來韋弗就對語言翻譯有點興趣,這個在后面會提到。經過深入思考, 韋弗認為不同語言中字母頻率和組合方式等都具有相似的規律,因而可以通過利用這些特征進行語言的解密,也即語言的自動翻譯。

但是,利用什么工具進行自動翻譯成為一個關鍵性問題。正好,1946年誕生了世界上第一臺電子計算機ENIAC, 受語言解密和計算機的啟發,韋弗于1947年提出了機器翻譯的思想,并與控制論之父諾伯特·維納針對機器翻譯的可行性進行了書信探討。首先一個疑問是韋弗為什么要和維納討論呢?實際上,一方面韋弗主導洛克菲勒基金會資助了維納,幫助其創立了控制論學科,彼此應該比較熟悉;另一方面,韋弗認為語言的自動翻譯是一個復雜系統,而維納是復雜系統研究的權威,討論機器翻譯非維納不可。只不過,維納和韋弗僅討論了一個回合,并且認為機器翻譯面臨的假設空間太大、歧義性太強,基本不可行。韋弗非常失望,希望擺事實講道理繼續和維納探討,最終想說服維納,可是然后就沒有了然后。

韋弗深知要讓機器翻譯的概念被人們(當然也包括維納)接受,就需要提出切實可行的設計方案和實現技術,證明其可行性。于是,韋弗經過兩年的思考,并且在1948年與有類似想法的英國倫敦大學伯克貝克學院的布斯(Andrew D. Booth)進行了深入探討,最終于1949年7月正式在 《翻譯》備忘錄中提出機器翻譯概念以及四種可能的實現策略

第一種實現策略基于簡單的詞語替換方法,其核心是解決詞義消岐問題。韋弗認為一種自然語言到另一種自然語言的自動轉換面臨的關鍵問題是不同語境中的詞語多義現象。他提出的一個可行方案是用N個詞語窗口的上下文信息來幫助預測中心詞語的語義,并且認為N不需要太大。該思想在最初實現的基于直接轉換的機器翻譯方法中得到了應用。

第二種實現策略假設語言是一種邏輯表達。語言之間的自動轉換就可以形式化為一種邏輯表達到另一種邏輯表達的自動推導。韋弗希望利用這個策略說明機器翻譯是形式上可解決的。后來,基于規則的翻譯方法和統計機器翻譯中基于同步上下文無關文法的譯文推導模型與該策略的基本思想可以說是一致的。

第三種實現策略假設語言間的自動翻譯實際上可以看作通信過程,即一種輸入信號(未知的目標語言文本,也可以稱為密碼學中的明文)經過信道輸出另一種信號(可觀察的源語言,密碼學中的密文),翻譯過程就是根據輸出信號恢復輸入信號的過程。作為信息論先驅的韋弗受到二戰期間破譯密碼的啟發,認為機器翻譯實際上與密碼破譯問題十分類似,挖掘兩種語言之間的統計模式就可以實現語言的自動轉換。1990年左右統計機器翻譯的興起就是基于這個策略的基本思想。

第四種實現策略假設所有語言之間存在相同的邏輯特征,可以視為一種通用語言或者中間語言。韋弗認為源語言到目標語言的自動翻譯可以首先將源語言轉換為中間語言,然后再從中間語言轉換為目標語言。后來,美國卡內基梅隆大學開發的JANUS機器翻譯系統就采用了基于中間語言的翻譯方法。不過,中間語言的定義和表示一直是一個未解難題。當前,基于統一編碼器和解碼器的多語言神經機器翻譯框架本質上類似于基于中間語言的翻譯思想。所有語言通過相同的編碼器生成分布式的語義表示,然后解碼器從分布式語義表示生成目標語言。

可以看出,上述第一種策略到第四種策略,想法越來越大膽,難度也越來越大。不過,從歷史的發展來看基本上符合機器翻譯方法的進階過程,不得不佩服韋弗對未來科學發展的戰略眼光。

機器翻譯的概念誕生后,逐漸吸引了越來越的學者進入這個新興研究領域。三年后,韋弗主導洛克菲勒基金會資助了1952年6月17-20日于麻省理工學院召開的第一屆機器翻譯會議,會議由另一位機器翻譯先驅巴爾-希列爾(Yehoshua Bar-Hillel,大數學家、哲學家、羅輯學家和語言學家)組織,一共18位專家與會。后來的事情大家就比較熟悉了,例如1954年第一個機器翻譯系統在紐約公開演示,1976年加拿大的天氣預報機器翻譯系統讓人眼前一亮,1990年左右IBM的統計機器翻譯模型誕生,推動了谷歌、微軟和百度等在線翻譯系統的開發,2014年之后深度學習給機器翻譯帶來了突破性進展。

5

退休后的生活

從1932年擔任自然科學部主任到1959年退休,韋弗將其大半的職業生涯都貢獻給了洛克菲勒基金會。退休后被邀請繼續擔任了5年斯隆基金會(Alfred P Sloan Foundation)的副總裁。退休后直至1978年去世的十幾年,韋弗一方面利用更多時間陪伴家人,以另一方面開始將更多精力放在自己的興趣上。從后續的著作來看,韋弗的興趣主要集中于概率論和語言翻譯。1963年,韋弗出版了一本科普專著《幸運女神:概率理論》(Lady Luck: The Theory of Probability),希望將概率理論介紹給更廣泛的人群。

在語言翻譯方面,韋弗并沒有繼續研究機器翻譯方法,而是對文學作品的不同語言的翻譯版本產生了興趣。作為劉易斯·卡羅爾(Lewis Carroll)的超級粉絲,韋弗對《愛麗絲夢游仙境》不同語言的翻譯版本特別感興趣。

1964年,韋弗出版了另一本專著《很多語言中的愛麗絲》(Alice in Many Tongues),在這部著作中他詳細對比了40種不同語言的版本,希望傳遞給大家一個信息:將《愛麗絲夢游仙境》翻譯為其他語言面臨非常大的挑戰。但是韋弗不可能懂40種語言,于是他采用了一種back-translation的方法,將其他語言回翻為英語,然后再對比不同的英語版本。Back-translation的概念對如今神經機器翻譯的研究者來說太熟悉不過了,已經成為神經機器翻譯領域的流行技術,也是各種機器翻譯競賽的必備技術。不過,back-translation的技術應用于神經機器翻譯也只是在2016年被正式提出,沒想到的是韋弗老爺子早在半個多世紀前就已經在利用back-translation的思想了,還能說什么呢,除了佩服還是佩服。

從韋弗的人生經歷以及所取得的成就中我們至少可以得到兩點啟示。首先,興趣是成功的關鍵因素。其次,對趨勢和方向的把控和選擇不僅決定個人的成就,也將對國家和全球的技術發展起到至關重要的作用。

參考文獻:

Warren Weaver. 1955. Translation. Machine Translation of Languages, 14:15-23, 1955.

Weaver, Warren. 1964. Alice in Many Tongues: The Translations of “Alice in Wonderland.” Madison: University of Wisconsin Press.

Warren Weaver. National Academy of Sciences. 1987. Biographical Memoirs: V.57. Washington, DC: The National Academies Press.

Lily E. Kay. 1996. The Molecular Vision of Life: Caltech, the Rockefeller Foundation, and the Rise of the New Biology, Oxford University Press, Reprint 1996.

John Hutchins.1998. Milestones in machine translation. Language Today, no. 13. 1998. pp. 12-13.

本文作者:張家俊,中國科學院自動化研究所研究員,主要研究方向為機器翻譯、自然語言處理、深度學習。知乎專欄: https://www.zhihu.com/people/zhang-jia-jun-29-18

https://www.toutiao.com/i6850035899368145421/

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

柯坪县| 砀山县| 乌拉特中旗| 通山县| 富平县| 拜城县| 库尔勒市| 皮山县| 定西市| 扎赉特旗| 义乌市| 张北县| 博野县| 北海市| 河曲县| 云梦县| 共和县| 巨野县| 察隅县| 商都县| 三台县| 疏附县| 嘉荫县| 沙洋县| 潮安县| 福泉市| 宾阳县| 清远市| 罗山县| 永新县| 昌乐县| 绍兴县| 河北区| 岫岩| 驻马店市| 平果县| 和龙市| 定远县| 辽源市| 两当县| 上饶市|