国外一级黄色片-国外成人在线视频-国外成人在线视频网站-国外成人免费视频-一色综合-一线高清视频在线观看www国产

首頁 > 實用技巧 > 干貨教程 > 漢語是不是AI研究的優勢工具?復旦教授給出答案

漢語是不是AI研究的優勢工具?復旦教授給出答案

發布時間:2025-06-14 17:08:35

20世紀50年代,現代語言學的重要理論之一——依存語法誕生,其核心思想是通過分析詞與詞之間的依存關系(如主謂、動賓、修飾等)來揭示句子的結構模式和語義聯系。

70多年后的今天,它從冷門變成“顯學”,為人工智能(AI)處理自然語言提供了清晰的理論框架和實踐工具。隨著AI技術向“認知智能”發展,依存語法與深度學習的結合(如將語言學先驗知識融入神經網絡)成為提升AI語言理解能力的重要方向。

前不久加盟復旦大學的國際知名計量語言學和依存語法研究專家劉海濤,憑借在計量依存語法等領域的研究,連續11年入選愛思唯爾“中國高被引學者”榜單。

在“教機器說人話”的人工智能發展歷程中,文科能夠助力幾何?漢語是不是AI研究的優勢語言?初夏的一個上午,記者走進復旦大學外文樓5樓辦公室,專訪了身穿紅藍格子襯衫的劉海濤教授。

作為一個母語為漢語的中國人,我們很愿意聽到對它的贊美。但作為觀察人類語言系統規律的研究者,可能要更謹慎、客觀地來看待。

周末周刊:您是一位語言學研究專家,研究內容是人類語言中關于句法的普遍規律,而這也可能成為開啟人工智能的鑰匙之一。DeepSeek崛起之后,有一種聲音認為,漢語在研究人工智能的領域中是一種優勢工具,能否站在語言學家的立場談談您的看法?

劉海濤:這個問題好像給我挖了個“坑”。我也注意到這個說法。作為一個母語為漢語的中國人,我們很愿意聽到對它的贊美。但作為觀察人類語言系統規律的研究者,可能要更謹慎、客觀地來看待。

我查了一下這個說法的來源和根據。有趣的是,檢索到的很多相關信息,在很不起眼的地方都標注著“內容由AI生成”。

他們的主要依據有三個:一是漢語相比其他拼音文字來說,文字比較獨特。二是漢語是孤立語(特點是詞的形態不會隨詞的語法功能變化)。三是漢語文本的信息熵大,即表達同樣內容時,采用漢字的文本最短。

從語言科學的角度來講,語言和文字不能混為一談,字和詞也不是一回事。從類型學的角度來講,漢語也不是唯一的孤立語。作為孤立語言來講,它們既有優點也有缺點,和其他類型的語言一樣。

能不能揚長避短,充分利用這些漢語的優勢構造出一個更好的我們所希望的人工智能,可能是更值得關注的。以我目前對于大模型的粗淺了解來看,目前廣泛采用的大數據+深度學習的AI技術還難以充分利用以上三個特點。

而且,根據團隊這些年來基于幾十種語言真實語料進行的語言規律的發現和研究,我們看到漢語與人類其他語言之間的共性是多于個性的。因為人類語言的普遍性是由人的生物意義的普遍性來決定的。

不過,在漢語與人類其他語言的比較過程中,我們確實發現了漢語的一個特殊之處,這也是我們在這個方向堅持研究的驅動力之一。

哈德森開玩笑說:你把這個搞清楚了,肯定就名揚全球了。我說我不是很想名揚全球,但這個事情確實值得去搞清楚。

周末周刊:您所說的漢語的特殊之處是什么?

劉海濤:這可能要從依存語法中的一些基本概念說起。依存語法是建立在依存關系基礎上的一個現代語法理論。這個理論的一個核心想法是,句子中的詞不是孤立的,它和這個句子中的其他詞是有關系的,我們把這種關系叫作詞之間的依存關系。

比如,在“我吃了一個紅蘋果”這個句子中,“我”和“吃”之間有一個主語關系,“吃”和“蘋果”之間有一個賓語關系。通過這樣一些關系,我們就能把一個句子連成一個整體。

這種聯系對于我們理解和生成語言的意義何在呢?依存語法的奠基人、法國語言學家泰尼埃講過這樣一句話:“造句就是在一群不定型的詞之間建立起一個整體,成為一個整體的各種依存關系,從而賦予這一堆不定型的詞以生命;反之,理解一個句子,就是要找出連接句子中各個不同詞之間的所有依存關系。”

顯然,人的語感單憑一個句子是形成不了的,而是需要許許多多的句子。計算機也是如此。為了發現人類使用語言的句法規律,我們需要千千萬萬個經過句法分析的句子。對一種語言中大量真實話語進行依存語法標注后的數據,就形成了句法樹庫。樹庫不僅是發現句法規律的重要資源,也是機器學習人類語言知識的寶貴源泉,而樹庫標注是人類語言知識外化的過程。

樹庫的重要性也可從普遍依存關系(Universal Dependencies)項目的發展看出,該項目可能是目前人工智能領域為數不多的需要語言學家參與的項目。截至2025年5月,該項目已有179種語言的319個可供人工智能領域使用的依存句法標注語料庫(樹庫)。

有了樹庫,就可以對人類語言進行多層次多角度的分析研究,這種數據驅動的方法所發現的語言的概率性規律,有益于構建可解釋的AI,因為大語言模型AI的本質差不多就是“建模自然語言的概率分布”。在我們研究的幾十種語言樹庫里,小的大概有兩三萬詞,大的有幾百萬詞,如此不帶感情地把人類的各種語言都抽象出來,就可以形成人類語言的趨勢、規律和模式。

這種“抽象”,可以讓我們更清晰地看到一種語言的“依存距離”。依存距離指句子中兩個有句法關系的詞之間的線性距離,其大小取決于間隔詞的數量。上面這個例句中,動詞 “吃”和賓語“蘋果”之間間隔了“了”“一”“個”以及“紅”這4個詞,因此,它們之間的依存距離是4。

依存距離看起來簡單,但實際上,涉及很多不簡單的東西。比如,我們在說一句話的時候,說出來的詞,怎么排序呢?如果語義密切相關的詞相隔太遠,這個詞就很難找到和它語義直接相關的那個詞,所以兩個有關系的詞一旦在句子中距離較大,比如超過四五個詞,不僅你自己記不住,聽話的人也難以理解。因此,人在說話時,由于受人類記憶容量的約束,會遵循一種“依存距離最小化”的規律。

所謂依存距離最小化就是指,在造一個句子的時候,我們把句法或語義上相關的詞盡可能地靠得近一點,從而使它們之間的“依存距離”盡可能短。

大概在20多年前,我用20種語言的依存樹庫,發現了“依存距離最小化”可能是人類語言的一種普遍規律。有趣的是,在這20種語言中,漢語的依存距離最大。

當我把這個結果告訴同樣是依存語法研究的專家、英國的哈德森(Hudson)教授時,他很激動。在我寫的《依存語法的理論與實踐》一書的序言中,他這樣寫道:“劉海濤的研究發現不同語言之間的依存距離是有明顯差異的,這是一個極為重要的發現,應當激發更多的后續研究。為什么兩種語言的工作記憶容量會如此不同?是不是因為漢語詞語更容易記憶,所以以此可以激活更多的詞語,或者因為說中國話的人有更大的工作記憶容量?”

后來哈德森開玩笑說:你把這個搞清楚了,肯定就名揚全球了。我說我不是很想名揚全球,但這個事情確實值得去搞清楚。

一系列后續研究表明,哈德森的這些問題不好回答,目前可以肯定的是,漢語的依存距離無論換何種語料都是大于英語的,盡管我們也發現了一些影響依存距離的因素,如漢語的虛詞會增加依存距離等,但要回答“講漢語的人是不是工作記憶就大”這類涉及語言會影響認知結構的重大問題,還需要更多學科的人來合作探究。

這個例子說明,有時候,我們從一個小切口入手,能夠引出一些意想不到的東西,而這些東西可能比你原先想要研究的東西更重要。這可能也是科學研究的樂趣之一。

數據與智能的關系對于傳統語言學而言,是非常陌生的一個話題。事實上,正是這種陌生使主流語言學與這個時代漸行漸遠。

周末周刊:在您看來,人工智能中的“語言學元素”約占多少?語言學中的“AI元素”又是如何產生的?

劉海濤:毫無疑問,人工智能是一個涉及多種學科的交叉學科。在一本名為《大數據入門》的書中,提到了有助于構建AI的學科,其中包括計算機、數學、醫學、心理學、工程和語言學。

應該說,在目前的數基智能中,在這幾個學科中,起主要作用的是計算機、工程和數學。有一些學科,比如語言學,更多的是一種不提似乎說不過去的東西,是繞不開的。因為語言不僅是智能的窗口,也是這次數智革命的引爆點和人工智能破解人類軟件系統的切入點。

但傳統意義的語言學對數基智能的價值和意義很小,因為數據與智能的關系對于傳統語言學而言,是非常陌生的一個話題。事實上,正是這種陌生使主流語言學與這個時代漸行漸遠,也就有了“解雇一個語言學家,系統性能會更好一些”的說法。當然,也有諸如“每當你雇傭一位受過良好訓練的語言學家時,你的樹庫就會更好一些”等更積極的說法。

換言之,人工智能一定是需要語言學的,但需要的可能不是脫離人類日常語言的語言學,而是能從大量日常語言材料中發現語言系統運作的統計規律的語言學,因為語言是一個由人驅動的概率系統。

總的說來,數據、概率、統計、系統、規律等可能是數智時代需要的“AI元素”。這樣一來,語言學家需要盡快在自己的研究中引入這些“元素”。與其他語言學理論語法相比,依存語法從一開始就比較重視真實的語言、人們在日常生活中使用的語言。這可能也是它能夠在數智時代煥發青春的一個主要原因,因為人工智能要面對的是人類使用的語言,而不是語言研究者們為了驗證自己的假說或理論造出來的各種句子。

我關于“依存距離最小化”研究的文章,由于所采用的數據驅動的方法與當時認知科學習慣的方法有很大不同,因此發表之路很艱難,最終發表在2008年的《Journal of Cognitive Science(認知科學雜志)》上,如今已成為該刊被引用最多的文章。這說明,AI需要語言學,但需要的是與時俱進的語言學,需要的是能反映人類語言系統真實運作規律的語言學。

干貨教程更多>>

華為“RTS-AL00”終端產品通過星閃認證,預計為 HUAWEI WATCH 5 系列鴻蒙 AI 智能手表 最強游戲小平板!紅魔電競平板3 Pro首發24小時安卓單品銷量第一 又一款玄戒O1新品!小米平板7S Pro來了:對標iPad Air 東莞企業捐贈41套電腦,助韶關南雄教育信息化升級 三星Z Fold 7相機升級細節曝光:深度融合AI+2億像素 三星Galaxy S25 Edge超廣角鏡頭折疊深圳時空 聯想拯救者Y9000P 2023款游戲本限時特惠 石化耦合新能源——行業綠色發展新動能 從小開到大 上汽大眾讓品質SUV走進千家萬戶 交銀國際:維持小鵬汽車-W“買入”評級 目標價134.69港元 不到168萬!廣汽首款量產飛行汽車來了,但我并不看好 不到168萬!廣汽首款量產飛行汽車來了,但我并不看好 高校招生“隴原行”活動今日啟動 游泳耳機排行榜10強品牌出爐!游泳耳機推薦性價比高不踩雷 AMD推出又一款AM4處理器:Ryzen 5 5500X3D 目前最便宜的X3D型號 迄今最強迷你主機!ROG NUC 2025有何特別之處? 促進高質量充分就業 擦亮民生幸福底色 呂梁赴濟南、青島舉行跨省招聘?——287個崗位誠意滿滿 68名學生當場“下單” 包頭二附院公開招聘33人 深圳大學今年本科招7060人,還有這些變化考生必看 我國最好考的2所985大學,最低錄取分已跌破600,堪稱“白菜價” 詳解錄取規則+科學定位技巧!6月14日公益報告會,手把手教你填高考志愿 2025年濰坊市初中學業水平考試正式拉開帷幕 小學有什么真相,可以讓普娃走走捷徑?網友:真相就是降低目標! 三姿挺立“正氣竹”!這所小學讓清廉在挺拔脊梁中生長 幼兒園取消寒暑假?多地回應 非洲媒體:432個機器人讓上海老建筑搬家 漢語是不是AI研究的優勢工具?復旦教授給出答案 快手平臺現象背后的思考:凈化網絡環境之我見 頂流主播同臺競技:直播江湖的“冰火兩重天”
主站蜘蛛池模板: 欧美日韩一区二区三区免费 | 在线观看国产日本 | 亚洲区一区| 欧美在线三级 | 日韩一级影片 | 国产三级网站在线观看 | 亚洲一区中文 | 99久热在线精品视频观看 | 91精品国产高清久久久久 | 视频一区视频二区在线观看 | 欧美国产综合日韩一区二区 | 在线亚洲成人 | 亚洲精品色一区二区三区 | 亚洲大片免费 | 在线 中文字幕 日韩 欧美 | 亚洲最大看欧美片网站 | 国产一级做a爰片久久毛片男 | 国产成人精品午夜视频' | 青青草原色 | 欧美日韩一区二区中文字幕视频 | 免费人成网站免费看视频 | 我想看三级特黄 | 黄到让你下面湿的视频 | 波多野结衣视频免费 | 欧美日韩在线观看一区 | 久久国产一片免费观看 | 日本精品在线观看 | 一级视频在线免费观看 | 欧美日韩国产亚洲一区二区 | 午夜爽爽性刺激一区二区视频 | 久久国产午夜精品理论片34页 | 久久亚洲国产欧洲精品一 | 久久偷看各类wc女厕 | 欧美aaa毛片免费看 欧美aaa视频 | 亚洲国产精品欧美日韩一区二区 | 日本在线观看不卡免费视频 | 飘花国产午夜精品不卡 | 美女毛片在线看 | 一区二区三区四区在线免费观看 | 手机看片1024久久精品你懂的 | 一区二区三区在线 | 日本 |