當語言學遇上統計學

mily186 · 發表于 2015-5-28 11:53

本帖最后由考研論壇于 2015-5-28 11:57 編輯

　　寫在前面：很多人認為語言學是人文類學科，但其實并不是這樣，它也需要許多數理學的輔助。今天我就和大家分享一下統計學和語言學結合后的內容，這篇文章還挺有意思的呢！

語言學是數學和人文科學之間的橋梁。　　——[法] 數學家阿達瑪（J.Hadamard）
　　一、統計學下的創作調侃
　　幾年前，從網上有篇很火的文章，題目叫做《文科生終于可以被消滅了》。是一位程序員心血來潮地對《全宋詞》中的兩字詞語做了頻率統計，并取了頻率最高的前100名。[1]
　　數據統計結果的前24名制成表格后顯示如下：

排名	詞語及其出現頻率	排名	詞語及其出現頻率	排名	詞語及其出現頻率	排名	詞語及其出現頻率
1	** 1485	2	東風1382	3	何處1230	4	人間1202
5	風流 857	6	歸去 812	7	春風 802	8	西風 779
9	歸來 771	10	江南 765	11	相思 753	12	梅花 732
13	千里 676	14	回首 656	15	明月 651	16	多少 648
17	如今 642	18	闌干 630	19	年年 613	20	萬里 590
21	一笑 582	22	黃昏 550	23	當年 542	24	天涯 537

（注：排名第一的“**”為無效詞）　　　　
　　
接下來，這位網友指出，使用一個最基本的無理數，就能寫下一手頗有意境的宋詞[2]：
　　《清平樂·圓周率》
　　回首明月
　　14 15
　　悠悠心事空
　　92 65
　　西湖何事寂寞中
　　35 89 79
　　風吹斜陽匆匆
　　32 38 46
　　自然，這樣的創作失去了文學的真情，也不一定符合格律。但對語言學家來說，統計學方法的確具有很大的啟發性。
　　制作上述表格的時候，小編注意到，關于回憶、孤獨的詞語和凄涼、冷清的意象成為宋詞中出現頻率最高的詞匯。這樣的表格，更加直觀并且客觀地反應了當時文人墨客的傷春懷秋的心情，隨之展現出當時的時代特征。
　　千百年來，不同的語言逐漸形成了自己的規律與體系。然而這個過程是緩慢且無意識的，語言含義的繁復性與多樣性，讓研究工作變得非常龐大。面臨古今中外宏大的文學寶庫或者語言資料時，即使是學者，單憑自己的感受和記憶，也不能有效整理大量的信息。
　　而借助數學的客觀性，或許能夠幫助我們找到語言發展的脈絡，或是從整體上宏觀地分析一個時代的語言。

　　二、幾個運用統計學研究語言的小例子
　　小編原來看過一本書，叫做《語言與數學》[3]。里面有一個章節論述了語言符號與統計數學的關系。書中指出，語言符號具有極強的隨機性。那么自然，可以引進統計學的知識對它進行統計和分析。
　　也許想不到，有了統計學做武器，語言學家可以做出許多有價值的分析：
　　——可以通過研究漢語語音中聲母與韻母的統計，繪制漢語中五個聲調在一個單字里的音節分布直方圖，得出漢語的發聲規律。由此得出漢語富有音樂性的奧秘所在。
　　——可以通過對中國十七個城市方言的聲母、韻母以及聲調的分析，得到漢語各方言之間的親屬關系的聚類樹形圖。以清晰地展現各大方言的組合情況，找出各地的人學習普通話時容易出現的不同問題。
　　——可以通過對基本詞匯保留情況的百分比估算出語言的起源時間，也可以將英語與德語基本詞匯保留情況百分比代入公式，估計出它們大約在公元六世紀時開始分化。

　　三、計算風格學與作者考證
　　以上幾種研究的公式都比較復雜，有興趣的讀者可以參考原書。下面，小編為大家介紹其中一種稍微簡單一點的“計算風格學”（1964年提出）。
　　首先，有人分析過22部風格迥異的，包括文學、文學理論、哲學、經濟學、考古學和自然科學的德語作品。統計其平均詞長（音節總數/單詞總數）和平均句長（單詞總數/句子總數）。

序號	作者	平均詞長	平均句長	序號	作者	平均詞長	平均句長
1	凱斯特奈	1.732	8.432	12	索墨菲爾德	2.100	21.597
2	里爾克	1.451	8.747	13	紹爾	2.270	22.600
3	法拉達	1.530	10.676	14	歌德《意》	1.715	22.724
4	封丹奈	1.724	14.440	15	歌德《赫》	1.575	22.825
5	施托姆	1.631	18.825	16	普朗克	2.019	23.531
6	托馬斯·曼	1.804	18.850	17	霍夫曼	1.721	24.868
7	沙米索	1.612	19.754	18	艾森多夫	1.566	24.900w
8	海斯	1.716	20.011	19	歌德《詩》	1.686	29.100
9	海森堡	1.919	20.530	20	黑格爾	1.836	21.381
10	豪夫	1.645	20.700	21	馬克思	2.021	32.688
11	愛因斯坦	1.929	21.097	22	施里曼	1.892	42.134

（注：《意》為《意大利游記》，《赫》為《赫爾曼與多羅苔》，《詩》為《詩與真實》。）

　　看到這份統計表，我們可以非常直觀地說：1）由18世紀到20世紀德語的書面語句子在逐漸變短；2）人文科學和社會科學的作品句長要長于文學作品；3）句長和詞長沒有直接聯系；以及4）歌德的作品風格如此多變…
　　通過這樣的分析，我們直觀地感受到了不同文體與不同作者的風格，而不僅僅是給出一系列描述詞來闡述文體間的差異。
　　這種統計學的方法也被成功地運用到“作者考證”這個充滿爭議的研究領域中。以往，某本名著的作者產生爭議時，我們只能夠憑借經驗和歷史文獻、作家生平記錄來進行考證。如今有了計算風格學，我們可以拿出嚴謹而有說服力的證據。
　　《靜靜的頓河》的作者曾在肖洛霍夫和克留柯夫之間存在爭議。然而當學者采取了肖洛霍夫、克留柯夫其它作品和《靜靜的頓河》中140, 000個單詞的樣品之后，對其句長、語言要素（主謂賓定狀補）在句子中的位置以及詞頻進行了統計和分析，發現肖洛霍夫的作品風格與《靜靜的頓河》幾乎完全吻合。這就比任何謠言和匿名的誹謗信都更能說明真正的作者是誰。也比學者的學術考證更能讓公眾普遍接受和信服。
　　讀者們一定十分熟悉《紅樓夢》的作者之爭。從前，普遍的說法是，《紅樓夢》的后四十回系高鶚所作。然而這個結論遭到了進入文學研究領域的統計學的挑戰。1981年美國威斯康星大學的講師陳炳藻發表論文《從詞匯上的統計論<紅樓夢>的作者問題》。通過對重要關鍵詞的詞頻統計與分析得出后四十回仍為曹雪芹所寫的結論。[4]
　　同樣的分析也發生在美國。美國歷史上，有12篇歷史文獻署名“聯邦主義者”。為了找出這個人的真實身份，數學家也利用統計學，將兩位候選人漢密爾頓與麥迪遜的虛詞使用頻率進行了對比。發現漢密爾頓喜歡用“while”，而麥迪遜喜歡用“whilst”；漢密爾頓常用“upon”和“enough”，而麥迪遜則幾乎不用。最終，漢密爾頓的風格特征與“聯邦主義者”合拍，解決了這個長時間困擾美國的問題。
　　這些，都是離開了統計學后，我們難以得到的結論。

　　四、你也可以來點統計方法
　　那位程序員的統計使宋詞的樣貌變得簡單起來。雖然這種用模板寫詩的方式實在不可取，不過我們仍然可以通過這些系統化的分析研究更多關于語言學的問題。
　　比如，通過統計二十世紀英美詩人（如奧登、王爾德、艾略特等人）詩作里相似詞性與句長的統計分析，可以比較這些人之間的相互影響程度。
　　比如，統計莎士比亞作品中最常出現的意象，以了解這位偉大的詩人和作家生平最關注的事物——這也許是莎翁自己都不甚了解的。
　　比如，可以研究某種語言（如蓋爾語）與其平行分支的相似性，追溯其共同的源頭，來復原、拯救和保存這些瀕危的語種。
　　正如國外的新聞媒體會將一年的新聞熱點詞匯進行頻率統計，選出“年度單詞”，歷史學家也曾將過去幾個世紀不同時期的詞匯進行頻率統計，從詞語使用的逐漸變化中，清晰的看出人類發展的歷程。
　　同樣，統計學也為語言研究帶來了實用的方法。當語言學遇見統計學，就好像遇見了一位理智的引導者。像一切探索本質的旅程一樣，往往會有意料之外的發現。

　　參考資料：
　　1．yixuan，《東風何處是人間》，2011年3月2日
　　2．魯西西的北，《文科生終于可以被消滅了！》，2011年12月2日
　　3．馮志偉，《語言與數學》，世界圖書出版社，2011年1月第1版
　　4．葛斌華，梁超，武修文，《數學文化漫談》，經濟科學出版社，2009年10月第1版

【本文轉自語言學午餐】

　------------------------
　考研之路征文，千元獎學金等你來拿　

314413 · 發表于 2015-5-28 12:36

有趣

陳辰橙orange · 發表于 2016-2-18 13:21

統計學考研有哪些方向？求指導

冰激凌與奧利奧 · 發表于 2017-3-14 20:29

有意思誒！

冰激凌與奧利奧 · 發表于 2017-3-14 20:29

		自動登錄	找回密碼
密碼			注冊

国产丝袜美女一区二区,精品久久免费影院,久久91精品久久久水蜜桃,亚洲人成网站999久久久综合,天天2023亚洲欧美,久久久久日韩精品,久久这里只是精品最新,999精品欧美一区二区三区

[其他] 當語言學遇上統計學

NEW最新資料推薦

池塘