編者按:來自中國傳媒大學的研究人員進一步證實了語言中存在的Zipf定律,并發現人類說話時也遵循雙過程理論。
早在1935年,美國語言學家George Zipf就有了一個驚人的發現。Zipf對常用單詞和不常用單詞之間的關系很感興趣。所以他計算了單詞在日常語言中出現的頻率,然后根據它們的頻率對單詞進行排序。
這一研究揭示了一個顯著的規律。Zipf發現一個單詞的頻率與它在排序中的位置成反比。也就是說,排名第二的單詞出現的頻率是最常出現的單詞的一半。排名第三的單詞出現的頻率是最常出現的單詞的三分之一,以此類推。
在英語中,最常用的單詞是the,占所有單詞的7%,然后是and, 占所有單詞的3.5%,以此類推。事實上,大約有135個單詞出現的頻率占了所有單詞的一半。因此,一些單詞經常出現,而大多數幾乎從未出現過。
但這是為什么呢?一種有趣的可能性是,大腦處理常用單詞的方式不同與處理生僻單詞的方式不同,研究Zipf的單詞使用頻率分布對研究大腦的這種處理過程非常重要。
不過,這里有一個問題。語言學家并不都同意,單詞頻率的統計分布是認知過程的結果。
相反,一些人認為Zipf發現的分布是與低頻詞匯相關的統計錯誤的結果,這些錯誤可以產生相似的分布。
當然,為了解決這個問題,我們需要做更大范圍的研究,囊括更廣泛的語言。這樣一項大規模的研究能使Zipf分布在統計上更有說服力,已驗證其是否為統計錯誤。
如今,我們有了相關的研究成果,這要歸功于中國傳媒大學的Shuiyuan Yu和他的同事們的努力。他們已經在50種語言中發現了Zipf定律,這些語言包括印歐語系、烏拉爾語、阿爾泰語、高加索語、漢藏語、德拉威語、非亞語系等。
Yu和他的同事說,這些語言中的單詞的頻率遵循一個共同的分布結構,這種結構不同于統計錯誤所產生的結構。更重要的是,他們說這種結構表明大腦處理常見詞匯的方式與不常見詞匯不同,這一觀點對自然語言處理和自動生成文本的研究有重要的影響。
Yu和他的同事采用的方法很簡單。他們從兩大語料庫開始,分別為英國國家語料庫和萊比錫語料庫。這些語料庫包括50種不同的語言樣本,每個樣本包含至少3萬句話,多達4300萬的詞匯。
研究人員發現,所有語言中的頻率都遵循一個經過修正的Zipf定律,在這個定律中,分布可以被分成三個部分。Yu說:“統計結果表明,在50種語言中Zipf定律都遵循一個相同的三段結構模式,每一段都表現出獨特的語言特性。”
這個三段結構很有趣。Yu和他的同事試圖用一些能創建單詞的模型來模擬這種結構。
其中一種模型叫做“monkey-at-a-typewriter”模型,它可以生成隨機的字母,每當有空格出現時,就會形成單詞。
這個過程產生一個冪律分布,就像Zipf定律那樣。然而,它不能產生于Yu和同事們所發現的三段結構。這種結構也不能由與低頻詞相關的統計錯誤產生。這也證明Zipf定律不是由統計錯誤造成的。
然而,Yu和他的同事能夠利用具有大腦工作方式的模型來重現這種結構,即雙重過程理論。
這就是大腦以兩種不同的方式運作的觀點。
第一種方式是快速直觀的思維,幾乎不需要推理。這種類型的思維被認為是進化所致,它允許人類在危險的情況下做出快速反應。它通常能為困難問題的解決提供很好的方案,比如模式識別,但是也很容易被非直覺的情況所欺騙。
不過不用擔心,人類還可以進行更理性的思考。第二種思維方式更慢,更精于算計,更深思熟慮。正是這種思維讓我們能夠解決諸如數學難題之類的復雜問題。
雙重過程理論認為,像the、and和if這樣的常用詞匯,都是通過快速、直觀的思維來處理的,因此被更頻繁地使用。這些詞匯構成了句子的主要部分。
然而,像假設和hypothesis 和Zipf’s Law 這種不太常見的詞匯和短語在應用時需要更仔細的思考。也正是因為如此,它們很少出現。
事實上,當Yu和他的同事模擬雙重過程理論時,他們得到了在單詞頻率分布中產生的三段結構,類似之前研究50種不同的語言時得到的結構。
在三段結構中,第一部分反映了常見詞匯的分布,最后一部分反映了不常見詞匯的分布,中間部分是這兩種詞匯交叉的結果。Yu和他的同事說:“這些結果表明,語言中的Zipf定律是由認知機制所激發的,類似控制人類語言行為的雙重過程。”
這是一項很有趣的研究。近年來,人類大腦以兩種不同方式處理信息的想法獲得了長足發展,尤其是因為諾貝爾獎得主、心理學家丹尼爾卡尼曼的《思考,快與慢》一書,對雙重過程理論進行了詳細的研究。
下面這個眾所周知的問題,可以觸發快速和緩慢的思考:
“一個球拍和一個球總共花費了1.10美元。球拍比球貴1美元,一個球要多少錢?”
答案當然是5美分。但幾乎每個人的第一反應都是10美分。這是因為10美分在直觀感覺上是正確的。這個答案來自于你大腦快速、直觀的一面。
但這是錯誤的。正確的答案需要你大腦中較慢、更精于計算的部分來思考。
Yu和他的同事說,人類造句是也經過同樣的兩個過程。你大腦中快速思考的部分創造了句子的基本結構。另外一些詞匯需要你的大腦更慢,更精于計算的部分。
正是這個雙重過程導致了具有三段結構的Zipf定律。
這應該會對從事自然語言處理的計算機科學家的研究產生有趣的結果。這一領域的發展得益于近年來的巨大進步。他們得益于機器學習算法,或者像谷歌這樣的公司收集的大量文本數據庫。
但是,生成自然語言仍然很困難。你不需要和Siri、Cortana或谷歌助手聊太長時間,就遇到和他們的談話限制。
因此,搞清楚人類如何造句,可能會對機器生成自然語言有很大的幫助。Zipf也肯定會被這項技術深深吸引。