作為習慣權利的形成和演化論文參考

　　【摘要】對民俗的田野觀察與對人類學文獻的深入研究無疑為習慣和習慣法研究提供了洞察力的源泉。但一個根本性的問題是被觀察或發現的習慣已經存在了。對於研究者來說習慣是既定的，習慣究竟是如何產生的則並不清楚。如果不能揭開習慣產生的“黑箱”，習慣法一直依賴既定習慣的狀況在邏輯上可能會導致一直追溯歷史的無限遞迴。新制度經濟學和演化博弈論的結合使得揭開制度“黑箱”成為可能。因此這一融合後的理論也許是習慣法研究的一種新進路。

　　【關鍵詞】小費博弈；重複博弈；習慣

　　一、引言

　　在歐美社會，一個人在諸如餐館之類的消費場所消費後一般會給侍者一些小費，後者也不會有任何覺得不好意思的地方。消費者給服務者一定的小費，服務者提供優質服務，這在很多場合成為了一項清晰的習慣，並具有規範效力。

　　任何習慣的生成固然有自己的歷史，但這並非說我們要了解某一習慣的內在演化機理就必須回到它當初的歷史當中。從理論上說，如果我們理解了習慣的內生機理，那麼不僅可以解釋既存的習慣，而且可以瞭解某一習慣產生的條件，甚至可以在一定程度上預測習慣的變遷。

　　二、小費博弈：習慣的演化

　　（一）小費博弈的構建

　　我們構建一個小費習慣博弈模型來說明該習慣產生的過程。根據博弈理論，一個博弈是由參與人、規則、資訊、策略、效用函式和時間等要素構成的結構化系統，或者說一個博弈就是一個制度。但演化博弈論不是從既定規則出發，而是經過博弈產生規則。這和我們欲求的習慣生成機制是完全相容的。

　　假設1：假定存在一個封閉的社群，有一個不大的小餐館，服務方和消費者幾乎全是該社群的成員。這樣交易就是在人格化關係的社會網路中展開的。

　　假定消費者來這裡就餐有兩種需求：一是消費到價廉物美的美食；二是服務員的優質服務，也就是說他們就算很滿意餐館提供的美食也仍然希望享受到“微笑”服務。

　　那麼沒有規則的博弈是從偶然開始，畢竟有無數的事物的產生和發展都是源於歷史的偶然。小費博弈也同樣開始於歷史的偶然。

　　我們假定：一個女服務員獲得了愛情，在她服務時對顧客露出了迷人的微笑，這使顧客如沐春風，獲得了異乎尋常的美好就餐體驗。他也十分偶然的用“小費”[1]來表示自己的補償，就是說在支付價格之外又給了她一張小額鈔票作為對她服務的額外支付。這次偶然的巧合對服務交易雙方來說均是一次十分愉快的經歷。由於這是一個封閉的社群，交易是在人格化的社會關係網路中進行的，因而顧客和服務員可能會記住彼此的行為。如果這樣的巧合只發生一次，或者雖然再一次發生但間隔期太長以至於上一次的巧合已被完全遺忘，那麼的確小費博弈不能開始進行。如果巧合又一次發生了，間隔還在記憶容許的範圍內，那麼雙方就可能對小費和微笑的交易有一個模糊的初步認識。

　　在接下來的日子裡當他們再次相遇時，服務員可能會想如果我微笑顧客是否會支付小費，而如果顧客不支付小費我為什麼要微笑。同樣顧客也可能會想如果我支付小費服務員是否會微笑，而如果她不微笑我為什麼要支付小費。於是現在的問題就是對小費和微笑的交易已經有了初步認識的交易雙方如何選擇行為策略的問題。

　　一個類似囚徒困境的小費博弈可以建構了。下面是該博弈策略組合矩陣：

　　小費博弈

　　觀察這個博弈，可以發現有兩個納什均衡：（5，5）和（0，0）。代表小費習慣的（5，5）是我們想要的均衡，代表維持原狀的（0，0）是我們不想要的均衡。那麼小費習慣有可能演化出來嗎，答案似乎令人沮喪。因為在該博弈中（0，0）是雙方佔優策略組合的均衡，當然也就是說更有可能是維持原狀了。

　　（二）小費博弈的重複博弈

　　演化經濟學家羅伯特?薩格登在論證交通博弈[3]時說明因為偶然原因走上了任一個均衡路徑就會在重複博弈的過程中透過反饋而自我強化，所以即便存在一些干擾，但從長期趨勢來說，習慣是自我實施的、穩定的，因而可以獲得規範的效力。

　　薩格登解決偶然因素對習慣的演化使用了一個發人深省的概念――突出性。薩格登借用突出性這個概念想要說明的是像交通博弈的這類博弈，有著兩個均衡發展路徑，具體往哪一個方向發展則可以透過突出性解決。所以像“靠左或右行使”的交通規則在經過重複博弈後究竟是靠右行駛的習慣演化出來還是靠左行使的習慣演化出來，則依賴某一地區人民自身當中的突出性因素。

　　這裡引入突出性的原因要表達的意思是試圖對習慣進行分類，畢竟小費習慣只是眾多的習慣之一。交通博弈代表的習慣是一種型別，它要求在博弈的重複進行條件上求解，透過參與人的社會學習來使習慣自發演化出來。而小費博弈代表的小費習慣是另一種型別，它的困境的解決不僅需要博弈重複進行，還需要參與人透過社會學習發現和接近這類博弈困境的解決機制――一報還一報（tit-for-tat）的策略組合。這是博弈論專家阿克賽洛德發現的解決有效率比較囚徒困境的策略機制。

　　接下來就討論小費博弈的重複進行過程中參與人是否能發現並內化一報還一報的策略機制。不過這要求我們把參與人的策略型別進行分類。利用薩格登的策略型別分類，稍微加以變通後，我們假定顧客和服務員的策略有下面幾個型別：

　　第一種是完全理性型[4]。這種型別的參與人，或者是天使或者是魔鬼，小費習慣或者一下子就演化成功或者永遠不能成功。這是因為完全理性的人需要的只是理性、資訊和邏輯，不需要任何習慣。第二種是無知自私型。只要有一方是自私的且只“俯視腳下”，那麼另一方就算是天使也可能無濟於事。只有在天使自覺選擇低效用的策略、無知自私的參與者選擇高效用的策略時才能避免（0，0）的策略均衡。如果沒有天使，上面的支付矩陣表明，不論是（0，8）還是（8，0）的策略組合都不可能在普通人中演化成穩定的習慣。

　　第三種是自利型。這樣的人一方面是自私的，但同時是理智的，也就是說盡管他們可能會盡可能地利用一切機會投機牟利，不過當需要與他人合作甚至需要利他才能更好地滿足自己的需求的時候，他們也是會毫不猶豫地去利他，目的只是惟利是圖。

　　這樣的策略型別對於習慣的演化來說，習慣是否能形成就取決於嚴格的初始條件和驚人的好運，也就是說這個封閉社群內的顧客和服務人員一開始就選擇了（小費，微笑）並一直持續保持，因而不斷自我強化，最後演化成清晰普遍有效力的規範。

　　第四種類型是自利包容型。這是對自利型假定的放寬（普通人性要求的型別），也就是說這種策略型別允許隨機的偏離，因為錯誤、試驗、變異等有限理性條件下不可避免地會出現這些問題。那麼這種策略型別是否可能使欲求的習慣形成呢？博弈論專家阿克賽洛德對重複囚徒困境的研究表明，一報還一報的策略組合是可以被重複博弈的參與人學習後發現和掌握的，從而在近似無限期的重複博弈中演化出某一習慣，不過它在帕累託意義上是次優的。

　　假定獲得愛情的女服務員因為愛情力量在博弈開始的幾個週期比如5期內是不求小費回報的，即不管顧客是否給予小費，她總是在服務時向顧客微笑。這樣對於前5期的博弈來說，顧客的最優策略是選擇不給小費以使自己的效用最大化。而當服務員的愛情發燒期退熱後，她發現自己的微笑並沒有換來應有的回報（小費）後，她就決定在下一次的博弈中板起臉來讓顧客嚐嚐懲罰的滋味。而在下一次博弈時顧客看到她的冷臉後覺得更沒有理由支付小費了。於是這期博弈的結果是（無小費，不微笑）。在緊接下來的再次博弈中，如果雙方記憶只有上一期的結果並以之為決策的根據的話，那麼從此每期博弈結果就都是（無小費，不微笑），習慣不可能形成。

　　發燒期內女服務員總是選擇微笑，顧客如果每一期都選擇給小費，這樣雙方博弈結果總是帕累托最優。如果一直不偏離的話，那麼（小費，微笑）的美好體驗持續強化一段時間後就會使小費習慣比較快速地演化出來。

　　如果前5期內顧客總是選擇不給小費，情況就比較複雜了。這需要顧客和服務員雙方都認識到博弈中存在懲罰和回報的一報還一報的策略機制才可能形成。我們假定在前5期內女服務員總是選擇微笑，顧客總是選擇不給小費。現在假定在第6期女服務員還是選擇微笑（愛情發燒和退熱的過渡期不明確），而顧客可以選擇給小費或者不給小費。如果顧客不給小費，那麼本期博弈結束後他的效用是8單位而她是0單位。如果接下來連續幾期他仍然像以前一樣選擇不給小費，那麼愛情已經退熱的她就不會再選擇無償的微笑了。假定這發生在博弈的第10期，那麼本期博弈結束後雙方的效用都為0。這對她來說倒沒什麼損失，但對他來說大不一樣，前10期他的每期效用都是8單位，現在從8單位下降到0單位，損失很明顯啊。如果（無小費，不微笑）的結果再連續發生幾期，損失明顯就更加確定。如果他還有記憶能力的話，他也許就要停下來問問為什麼了。透過回憶以前的好日子他可能會想到每期8單位的效用不是免費的午餐，而是她選擇微笑的結果。那麼她現在不微笑了的同時他的效用明顯下降了，這是否是她對自己的懲罰呢？

　　認識到懲罰的他在接下來的博弈中就要看看是否有承擔責任的`精神了。如果沒有這樣的精神而繼續選擇不給小費，因而她也繼續不微笑的話，那麼從此進入惡性迴圈，小費習慣不可能形成。

　　假定認識到了懲罰的他願意承擔責任或者說雖然沒有承擔責任的意識但他（有限理性的人）在連續的博弈中無心地犯了錯或者試驗等而在博弈的第12期選擇了給小費。博弈結果是他的效用為0單位，而她的效用為8單位。這使她立即意識到從第1期到第10期的所有微笑終於有了回報，而（小費，不微笑）的策略組合導致的結果連續發生幾次的話，她的回報意識就增強了，使她可能認識到博弈中存在回報。假定這發生在博弈的第14期。

　　所以認識到懲罰的她在接下來的博弈中就要看看是否有承擔責任的精神了，這和上面對顧客懲罰――責任機制的分析是一樣的。但不一樣的是在她選擇承擔責任甘願接受懲罰的同時，他的每期效用是8單位，因而這使他能夠認識到回報。

　　至此顧客和服務員都認識到了無限重複的博弈中存在著懲罰和回報機制，在繼續的博弈中社會學習可能使他們認識到懲罰的限度，用後驗的觀察修正自己主觀的估計，從而無限接近博弈內在邏輯決定的客觀的懲罰限度。當主觀懲罰限度客觀化後，一報還一報的策略組合就形成了。

　　當這個策略組合被認識到並在持續的博弈中被接近和利用後，小費習慣最終就可能演化出來。

　　（三）小費習慣在封閉社群的擴充套件

　　這個過程卻容易且比較迅速。小費習慣一旦先在某兩個人中形成，對於沒有秘密的封閉社群來說，就會迅速傳播。假設小費習慣在服務員張三和顧客李四之間形成。當服務員王五問張三為什麼每次對李四都微笑的時候，張三告訴王五說，微笑有小費收的時候，王五會怎麼樣？如果王五對小費感興趣或者考慮到心情好的時候會讓顧客得到免費的微笑，那麼王五選擇微笑而讓顧客用小費來換取就是合乎情理的。同樣如果顧客麻六問李四為什麼張三每次都對他微笑的時候，李四說那是因為自己總是給張三小費的時候，麻六會怎麼樣呢？麻六如果想小費數額並不多而微笑服務值得追求的話，就可能會選擇用小費換取微笑。如果麻六不想給小費，那麼服務員也可能微妙地把相當於小費的數額轉移到食物的價格中，這樣還不如自己給小費呢。這樣小費習慣在封閉社群的人格化關係網路中可能迅速傳播並形成穩定的社群公共知識。偶爾的外來者面對這一公共知識時不單不能干擾它，反而有強大的壓力要入鄉隨俗，調整自己的行為策略來適應這個習慣。三、習慣的擴充套件：新小費博弈和舊小費博弈

　　假設2：開放社群，這是一個類似現代大都市的生活社群，即使社群內成員人數在一定時期內是有限的且規模較小，但由於邊界是開放的，社群成員的共同體意識仍然不強。社群成員缺少對社群的認同和歸屬感使得即使居住在同一社群內的成員之間的交易也是以匿名的非人格化關係形式進行的。

　　（一）我們需要在新社群內建構新小費博弈

　　這次我們不需要藉助偶然的巧合了，新居民已經有了小費習慣，且他們的行為會被老居民觀察和認識到。這就能夠保證博弈可以開始。

　　我們假定老居民在剛開始對新居民有一個心理上排斥的過程，因此儘可能地不與他們接觸，這樣新小費博弈主要是在對小費和微笑的交易有了模糊的初步認識的老居民之間進行的。

　　這個新小費博弈結構和舊小費博弈結構是相同的。如果只進行一次博弈，那麼有兩個可能的結果，一個是（無小費，不微笑），另一個是（小費，微笑），效用分別是（0，0）和（5，5）。從理性人的角度來說獲得（0，0）效用的（無小費，不微笑）的結果的可能性很大，因為這是參與人佔優策略的納什均衡。

　　（二）新小費博弈的重複博弈

　　因此我們假定小費博弈在新社群也將無限期地重複進行。如果老居民一直不與新居民接觸，而是在老居民之間進行博弈，那麼這個重複博弈的過程和封閉社群內進行的過程基本一樣，不同的是開放社群成員的流動性和弱歸屬感可能使小費習慣更加難以演化出來。

　　但當老居民和新居民接觸後，小費習慣可能更快演化出來。我們現在先把開放社群內的居民分為兩類，一類參與人是老居民，他們沒有小費習慣的知識，只有與新居民接觸後才能獲得這種知識；另一類是新居民，他們是從具有小費習慣的封閉社群新遷入的，小費習慣對他們而言不僅是知識而且是規範。

　　這個新博弈的結構仍然和小費博弈結構大體一致。區別在於社會學習機制會大大得到強化。新居民參與人已經把小費習慣視為規範。這樣事先已經對博弈結構有了明確認識的新居民參與人因信念的力量會使其有意識地引導老居民參與人向形成一報還一報的策略組合機制靠近，從而使小費習慣演化出來。

　　當博弈參與人發現並接近一報還一報的策略機制時，小費習慣就可能在他們中間自發地演化出來。

　　（三）小費習慣的擴充套件

　　當小費習慣首先在開放社群內一部分人中間演化出來後，習慣會自然地在社群內逐漸普遍清晰地形成。這個過程同時就是關於小費習慣的知識傳播的過程，與小費習慣在封閉社群內的傳播過程大體相同。不同的是在封閉社群的人格化關係網路中習慣知識的傳播速度較快[7]，習慣形成後穩定性較強，不容易受到其它衝擊的襲擾，因而對封閉社群內的人來說習慣的規範效力更強，是一種客觀的存在，並不單純是無形的強制。在開放社群內習慣的演化過程較短，穩定性相對較低，面對更大程度上的襲擾，因而規範效力較低。但並不是說開放社群內習慣不能自我實施，這是任何習慣的本質，只是說在開放社群內習慣的自我實施確實在成員的社群身份意識較差的情況下面臨搭便車的困境[8]，這的確是一個令人難以樂觀的問題。但這不單是習慣的困境，作為公共物品的成文法也同樣面臨這一困境，因此不能依此為根據說要加強政府的滲透和控制。相反，解決習慣法和成文法在開放社群的困境需要更加開放的社會結構，以便多層次的立體的社會治理機制的發育和成長。家庭、社群、職業、協會、媒體、社團等各種社會治理機制的成長本身可以減少對法律的需求，也會使得成文法的硬度下降，所以羅豪才教授提出了軟法與公共治理的關係問題。四、結語

　　小費習慣的形成起源於偶然的巧合，在封閉社群的人格化關係網路內經過無限期的重複博弈後形成。形成後它可以擴充套件到開放社群的非人格化關係網路中去，從而使習慣的範圍擴大。

　　小費習慣在封閉和開放社群的居民之間的互動中自發產生，這說明無需政府的干預，這類習慣在調整和規範人際關係時就會產生欲求的效果。相反，政策會引發難以預料的後果，襲擾已經存在的自發秩序，使其穩定性受到影響，反過來又加深了對政府幹預的需求。

　　小費習慣是自發產生的，是自我實施的，它的規範效力來源於自身。這和成文法的邏輯清楚區別開來。

　　註釋：

　　[1]嚴格說來在小費習慣產生之前使用小費概念是不合適的，但筆者要建構博弈也似乎沒辦法不使用，這可能是一個“語言悖論”。

　　[2]具體的賦值是武斷的，但只要這些代表效用的數字之間的關係符合博弈結構的內在邏輯要求，那就是合理的。

　　[3]薩格登建立交通博弈的目的是要論證說像“靠左或右行駛”這樣的交通規則是可以在博弈參與人中間自發演化出來，政府制定的交通法規不過是對已經形成的習慣的“蓋章”認可。這個案例的特殊性在於交通博弈有兩個均衡，但彼此之間不存在效用上的帕累托最優次優或者無效率的比較。可能的靠左行使和靠右行駛兩個習慣本身無所謂優劣，重要的是任何一個這樣的習慣要從無到有的演化出來。但本文的小費博弈則有效率的比較，因此更為困難。

　　[4]完全理性指的是參與人的完全的計算和推理能力，博弈中有完全且完美的資訊分佈，並且參與人不會犯錯誤。對博弈來說，完全理性的參與人或者是天使，或者是魔鬼，只要參與人都不犯錯誤則大家都是天使，優良的習慣或規則演化出來沒有任何問題，但只要有一個人哪怕只是在博弈進行的第一步無心的犯了錯誤，則大家馬上都變成魔鬼，並從此惡性迴圈。

　　[5]也可以相反的對稱假設。相反假設可能更容易展開論證，因為小費由具有小費習慣的參與人支付時穩定性和可預期性更高。

　　[7]習慣在默會知識的意義上說在封閉社群內傳播較快；精確知識在開放社群傳播較快。

　　[8]對於社群治理來說，習慣也是一種公共物品，有著搭便車的問題。

　　【參考文獻】

　　[2]青木彥昌著，周黎安譯.比較制度分析[M].上海：上海遠東出版社（第一版），2001.

　　[3]約翰?梅納德?史密斯著，潘春陽譯.演化與博弈論（第一版）[M].上海：復旦大學出版社，2008.

　　[4]羅伯特?阿克賽爾羅德著，吳堅忠譯.合作的演化（第一版）[M].上海：上海人民出版社，2007.

　　[5]張峰.博弈邏輯（第一版）[M].北京：中國社會出版社，2008.