国产丝袜美女一区二区,精品久久免费影院,久久91精品久久久水蜜桃,亚洲人成网站999久久久综合,天天2023亚洲欧美,久久久久日韩精品,久久这里只是精品最新,999精品欧美一区二区三区

考研論壇

 
查看: 4287|回復: 4
打印 上一主題 下一主題

[其他] 當語言學遇上統計學

[復制鏈接]

26

主題

28

帖子

108

積分

一般戰友

Rank: 2

精華
0
威望
0
K幣
108 元
注冊時間
2014-2-1
跳轉到指定樓層
樓主
發表于 2015-5-28 11:53 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
本帖最后由 考研論壇 于 2015-5-28 11:57 編輯

  寫在前面:很多人認為語言學是人文類學科,但其實并不是這樣,它也需要許多數理學的輔助。今天我就和大家分享一下統計學和語言學結合后的內容,這篇文章還挺有意思的呢!


      語言學是數學和人文科學之間的橋梁。  ——[法] 數學家阿達瑪(J.Hadamard)
  一、統計學下的創作調侃
  幾年前,從網上有篇很火的文章,題目叫做《文科生終于可以被消滅了》。是一位程序員心血來潮地對《全宋詞》中的兩字詞語做了頻率統計,并取了頻率最高的前100名。[1]
  數據統計結果的前24名制成表格后顯示如下:

排名

詞語及其出現頻率

排名

詞語及其出現頻率

排名

詞語及其出現頻率

排名

詞語及其出現頻率

1

**  1485

2

東風1382

3

何處1230

4

人間1202

5

風流 857

6

歸去 812

7

春風 802

8

西風 779

9

歸來 771

10

江南 765

11

相思 753

12

梅花 732

13

千里 676

14

回首 656

15

明月 651

16

多少 648

17

如今 642

18

闌干 630

19

年年 613

20

萬里 590

21

一笑 582

22

黃昏 550

23

當年 542

24

天涯 537

(注:排名第一的“**”為無效詞)    
  
      接下來,這位網友指出,使用一個最基本的無理數,就能寫下一手頗有意境的宋詞[2]:
  《清平樂·圓周率》
  回首明月
  14 15
  悠悠心事空
  92 65
  西湖何事寂寞中
  35 89 79
  風吹斜陽匆匆

  32 38 46
  自然,這樣的創作失去了文學的真情,也不一定符合格律。但對語言學家來說,統計學方法的確具有很大的啟發性。
  制作上述表格的時候,小編注意到,關于回憶、孤獨的詞語和凄涼、冷清的意象成為宋詞中出現頻率最高的詞匯。這樣的表格,更加直觀并且客觀地反應了當時文人墨客的傷春懷秋的心情,隨之展現出當時的時代特征。
  千百年來,不同的語言逐漸形成了自己的規律與體系。然而這個過程是緩慢且無意識的,語言含義的繁復性與多樣性,讓研究工作變得非常龐大。面臨古今中外宏大的文學寶庫或者語言資料時,即使是學者,單憑自己的感受和記憶,也不能有效整理大量的信息。
  而借助數學的客觀性,或許能夠幫助我們找到語言發展的脈絡,或是從整體上宏觀地分析一個時代的語言。

  二、幾個運用統計學研究語言的小例子
  小編原來看過一本書,叫做《語言與數學》[3]。里面有一個章節論述了語言符號與統計數學的關系。書中指出,語言符號具有極強的隨機性。那么自然,可以引進統計學的知識對它進行統計和分析。
  也許想不到,有了統計學做武器,語言學家可以做出許多有價值的分析:
  ——可以通過研究漢語語音中聲母與韻母的統計,繪制漢語中五個聲調在一個單字里的音節分布直方圖,得出漢語的發聲規律。由此得出漢語富有音樂性的奧秘所在。
  ——可以通過對中國十七個城市方言的聲母、韻母以及聲調的分析,得到漢語各方言之間的親屬關系的聚類樹形圖。以清晰地展現各大方言的組合情況,找出各地的人學習普通話時容易出現的不同問題。
  ——可以通過對基本詞匯保留情況的百分比估算出語言的起源時間,也可以將英語與德語基本詞匯保留情況百分比代入公式,估計出它們大約在公元六世紀時開始分化。

  三、計算風格學與作者考證
  以上幾種研究的公式都比較復雜,有興趣的讀者可以參考原書。下面,小編為大家介紹其中一種稍微簡單一點的“計算風格學”(1964年提出)。
  首先,有人分析過22部風格迥異的,包括文學、文學理論、哲學、經濟學、考古學和自然科學的德語作品。統計其平均詞長(音節總數/單詞總數)和平均句長(單詞總數/句子總數)。

序號

作者

平均詞長

平均句長

序號

作者

平均詞長

平均句長

1

凱斯特奈

1.732

8.432

12

索墨菲爾德

2.100

21.597

2

里爾克

1.451

8.747

13

紹爾

2.270

22.600

3

法拉達

1.530

10.676

14

歌德《意》

1.715

22.724

4

封丹奈

1.724

14.440

15

歌德《赫》

1.575

22.825

5

施托姆

1.631

18.825

16

普朗克

2.019

23.531

6

托馬斯·曼

1.804

18.850

17

霍夫曼

1.721

24.868

7

沙米索

1.612

19.754

18

艾森多夫

1.566

24.900w

8

海斯

1.716

20.011

19

歌德《詩》

1.686

29.100

9

海森堡

1.919

20.530

20

黑格爾

1.836

21.381

10

豪夫

1.645

20.700

21

馬克思

2.021

32.688

11

愛因斯坦

1.929

21.097

22

施里曼

1.892

42.134

(注:《意》為《意大利游記》,《赫》為《赫爾曼與多羅苔》,《詩》為《詩與真實》。)
  看到這份統計表,我們可以非常直觀地說:1)由18世紀到20世紀德語的書面語句子在逐漸變短;2)人文科學和社會科學的作品句長要長于文學作品;3)句長和詞長沒有直接聯系;以及4)歌德的作品風格如此多變…
  通過這樣的分析,我們直觀地感受到了不同文體與不同作者的風格,而不僅僅是給出一系列描述詞來闡述文體間的差異。
  這種統計學的方法也被成功地運用到“作者考證”這個充滿爭議的研究領域中。以往,某本名著的作者產生爭議時,我們只能夠憑借經驗和歷史文獻、作家生平記錄來進行考證。如今有了計算風格學,我們可以拿出嚴謹而有說服力的證據。
  《靜靜的頓河》的作者曾在肖洛霍夫和克留柯夫之間存在爭議。然而當學者采取了肖洛霍夫、克留柯夫其它作品和《靜靜的頓河》中140, 000個單詞的樣品之后,對其句長、語言要素(主謂賓定狀補)在句子中的位置以及詞頻進行了統計和分析,發現肖洛霍夫的作品風格與《靜靜的頓河》幾乎完全吻合。這就比任何謠言和匿名的誹謗信都更能說明真正的作者是誰。也比學者的學術考證更能讓公眾普遍接受和信服。
  讀者們一定十分熟悉《紅樓夢》的作者之爭。從前,普遍的說法是,《紅樓夢》的后四十回系高鶚所作。然而這個結論遭到了進入文學研究領域的統計學的挑戰。1981年美國威斯康星大學的講師陳炳藻發表論文《從詞匯上的統計論<紅樓夢>的作者問題》。通過對重要關鍵詞的詞頻統計與分析得出后四十回仍為曹雪芹所寫的結論。[4]
  同樣的分析也發生在美國。美國歷史上,有12篇歷史文獻署名“聯邦主義者”。為了找出這個人的真實身份,數學家也利用統計學,將兩位候選人漢密爾頓與麥迪遜的虛詞使用頻率進行了對比。發現漢密爾頓喜歡用“while”,而麥迪遜喜歡用“whilst”;漢密爾頓常用“upon”和“enough”,而麥迪遜則幾乎不用。最終,漢密爾頓的風格特征與“聯邦主義者”合拍,解決了這個長時間困擾美國的問題。
  這些,都是離開了統計學后,我們難以得到的結論。

  四、你也可以來點統計方法
  那位程序員的統計使宋詞的樣貌變得簡單起來。雖然這種用模板寫詩的方式實在不可取,不過我們仍然可以通過這些系統化的分析研究更多關于語言學的問題。
  比如,通過統計二十世紀英美詩人(如奧登、王爾德、艾略特等人)詩作里相似詞性與句長的統計分析,可以比較這些人之間的相互影響程度。
  比如,統計莎士比亞作品中最常出現的意象,以了解這位偉大的詩人和作家生平最關注的事物——這也許是莎翁自己都不甚了解的。
  比如,可以研究某種語言(如蓋爾語)與其平行分支的相似性,追溯其共同的源頭,來復原、拯救和保存這些瀕危的語種。
  正如國外的新聞媒體會將一年的新聞熱點詞匯進行頻率統計,選出“年度單詞”,歷史學家也曾將過去幾個世紀不同時期的詞匯進行頻率統計,從詞語使用的逐漸變化中,清晰的看出人類發展的歷程。
  同樣,統計學也為語言研究帶來了實用的方法。當語言學遇見統計學,就好像遇見了一位理智的引導者。像一切探索本質的旅程一樣,往往會有意料之外的發現。

  參考資料:
  1.yixuan,《東風何處是人間》,2011年3月2日
  2.魯西西的北,《文科生終于可以被消滅了!》,2011年12月2日
  3.馮志偉,《語言與數學》,世界圖書出版社,2011年1月第1版
  4.葛斌華,梁超,武修文,《數學文化漫談》,經濟科學出版社,2009年10月第1版
     【本文轉自語言學午餐】


 ------------------------
 考研之路征文,千元獎學金等你來拿 

    回復

    使用道具 舉報

    162

    主題

    1萬

    帖子

    5萬

    積分

    論壇元老

    Rank: 7Rank: 7Rank: 7

    精華
    3
    威望
    18106
    K幣
    32053 元
    注冊時間
    2014-7-27

    池塘

    沙發
    發表于 2015-5-28 12:36 | 只看該作者
    有趣
    回復

    使用道具 舉報

    2

    主題

    65

    帖子

    208

    積分

    一般戰友

    Rank: 2

    精華
    0
    威望
    0
    K幣
    208 元
    注冊時間
    2016-2-15
    板凳
    發表于 2016-2-18 13:21 | 只看該作者
    統計學考研有哪些方向?求指導
    回復

    使用道具 舉報

    0

    主題

    83

    帖子

    110

    積分

    一般戰友

    Rank: 2

    精華
    0
    威望
    2
    K幣
    108 元
    注冊時間
    2017-2-4
    地板
    發表于 2017-3-14 20:29 | 只看該作者
    有意思誒!
    回復

    使用道具 舉報

    0

    主題

    83

    帖子

    110

    積分

    一般戰友

    Rank: 2

    精華
    0
    威望
    2
    K幣
    108 元
    注冊時間
    2017-2-4
    5
    發表于 2017-3-14 20:29 | 只看該作者
    回復

    使用道具 舉報

    您需要登錄后才可以回帖 登錄 | 注冊 人人連接登陸

    本版積分規則   

    關閉

    您還剩5次免費下載資料的機會哦~

    掃描二維碼下載資料

    使用手機端考研幫,進入掃一掃
    在“我”中打開掃一掃,
    掃描二維碼下載資料

    關于我們|商務合作|小黑屋|手機版|聯系我們|服務條款|隱私保護|幫學堂| 網站地圖|院校地圖|漏洞提交|考研幫

    GMT+8, 2025-5-11 17:49 , Processed in 0.090188 second(s), Total 11, Slave 11(Usage:7M, Links:[2]1,1_1) queries , Redis On.

    Powered by Discuz!

    © 2001-2017 考研 Inc.

    快速回復 返回頂部 返回列表
    × 關閉
    主站蜘蛛池模板: 潮州市| 青神县| 宁远县| 建德市| 彭泽县| 同心县| 辽阳县| 靖边县| 海盐县| 滨海县| 娄底市| 武威市| 淮安市| 泰和县| 瓦房店市| 长泰县| 夏津县| 会宁县| 汝城县| 英德市| 如皋市| 阜平县| 徐汇区| 天镇县| 佛学| 乌拉特前旗| 通城县| 抚松县| 九寨沟县| 昂仁县| 房产| 宜宾县| 垣曲县| 汉川市| 顺昌县| 阳新县| 嘉兴市| 石城县| 张家界市| 左云县| 绥滨县|