到底是相對封閉些,堅守自身特有的話語模式,還是適當打開自己,接受其他學科的影響,一直以來都是法學研究時不時面臨的選擇。比如,經濟學之于法學、社會學之于法學、政治學之于法學,等等。現如今,大數據的概念來了。不管是不是情愿,法學可能又得有所準備,思考如何回應無處不在的大數據及其影響。
什么是大數據?有一本英國學者寫的《大數據時代:生活、工作與思維的大變革》,從中大概得知何為大數據。所謂大數據,有三個特征:全樣本、混雜性、相關性。其中,最重要的就是全樣本。做經驗研究的都知道,當樣本等于總體時,抽樣誤差為零。但是,由于財力、人力、分析技術等條件的限制,人們很難拿到全樣本。最早,國家為了知道納稅人的實際情況,就發展出各種消減、控制抽樣誤差的統計技術。而現在,隨著計算機技術的發展,人們驚訝地發現,即使面對海量的信息,獲取某類現象的全樣本也并非完全不可能。基于這種全樣本,人們可能更好地了解現實社會中的各種真實。于是,根據這些真實去預測某種現象的發生概率,就更可靠了。可見,大數據并不在于樣本絕對量的大小,關鍵在于“全”。
比如,蘋果公司的喬布斯身患癌癥,嘗試了許多種治療方法,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高昂的費用。他得到的不是一個只有一系列標記的樣本,而是包括整個基因密碼的數據文檔。對于一個普通癌癥患者,醫生只能期望他或她的DNA排列同試驗中使用的樣本足夠相似。而喬布斯的醫生能夠基于喬布斯的特定基因組成,按所需效果用藥。盡管他仍然死于癌癥,但這種獲得所有數據而不僅是有限樣本的方法還是將他的生命延長了好幾年。從這個意義上說,某個研究的樣本再大,哪怕達到上億,如果相對總體而言只是幾分之一,也只是大樣本而不是嚴格意義上的大數據。反過來,即使對一個個體,也可能進行全樣本的大數據研究。
于是,我們理解了為什么說費孝通的《江村經濟》、孔飛力的《叫魂》、吉爾茨的巴厘島人類學研究、朱曉陽的《小村故事》,盡管只聚焦某個點,但都盡最大可能收集與這個點有關的全部信息,因而也是某種意義上的大數據。例如,美國學者孔飛力是個漢學家,他研究專制權力如何凌駕于法律之上而不是受到法律的限制;官僚機制如何試圖通過操縱通訊體系來控制最高統治者;最高統治者如何試圖擺脫這種控制。對這樣的大題目,孔飛力也是從發生在清代乾隆時期浙江的“剪辮案”這個個案著手。“叫魂”是一種民間迷信的妖術,換句話說,是一種能給他人帶來不利后果的超自然的行為方式。在1768年的春天到秋天這大半年的時間里,因這種行為而引發的恐慌蔓延至大半個中國,使得整個國家陷入動蕩不安。孔飛力發現,可以從小故事中發現大道理。于是,他在中國第一歷史檔案館收集研究了海量的文獻,至少有《朱批奏折》、《宮中上諭》、《宮中廷寄》、《附錄奏折·法律·其他》、《上諭檔方本》,以及圖書集成局1886年版的《刑案匯覽》、薛允升的《讀例存疑》、臺北故宮博物院的《宮中檔乾隆朝奏折》、1899年版的《大清會典事例》、光緒年編輯的《大清十朝圣訓》等等,最終寫出了《叫魂:1768年中國妖術大恐慌》一書。書中詳細觀察百姓、官僚、皇帝三個層面在叫魂案中的不同反應,發現每個群體對叫魂事件都有基于自己的利益而做的重新解釋和塑造,并且這種再解釋很大程度上已經遠離了叫魂事件本身。可以說,叫魂事件是中國放大版的羅生門。我們從中看到的是犯罪定義者是如何從自身利益出發,千方百計對社會事實本身進行符合自身利益的再定義,從而獲得有利于自己的結果。于是,犯罪定義過程就成了利益博弈過程,犯罪定義就成為一個并非純粹客觀的對于社會現實的反映,不可避免地帶有濃重的定義者的主觀色彩。
由此我想起,一位學者曾經計劃深入到某個縣法院,收集該法院全部文革前的判決書進行觀察,看看在沒有法律的情況下,法院是如何處理糾紛的。這無疑是一個極有價值的想法,盡管樣本范圍只限于一個縣,但在這個范圍內,如果做到全樣本研究,那也是標準的經驗研究,也是法律大數據研究。只可惜,這個計劃未能成行。
可見,我們對大數據來襲的恐懼或反感,可能與我們對大數據的誤解有關。形式上,大數據好像意味著大量的數據運算、統計甚至大型計算機的運用。其實,大數據的核心是尊重經驗真實,敬畏經驗真實,在乎經驗的代表性。哪怕從一個小故事切入,只要收集足夠的信息,也可能得到大張力、大格局的結論,用來解釋、預測較大時間跨度和空間跨度的社會現象。正是由于不懂得這一點,我們一方面會排斥大樣本經驗研究,同時會夸大、輕信個案甚至只是幾經裁剪的教學案例的可推論性,以為理解了這種個案,也就理解了所有個案。可是,天下沒有兩片一樣的樹葉,法律現象的異質性越大,某片樹葉的代表性以及某個案件的可推論性就越有限。除非你堅持認為,天下所有的麻雀都沒有任何差異,那你只解剖一只麻雀當然可以認為知道了所有麻雀。而在法律世界中,如果說所有案例都一個樣,你自己信嗎?
說到樣本與數據,還有一點需要特別說明:大數據與大樣本的區別其實也是相對的。當樣本大到一定程度,即使不完全等于總體,只要其代表性和可推論性已經基本上不是問題了,就是近似的大數據。比如,谷歌基于5000萬條最頻繁出現的檢索詞條進行分析推算,成功地早于官方兩周準確預測到流感的傳播。那么,這個5000萬是全樣本嗎?未必,只能說是最大的樣本,其預測的可靠性其實也來自于這個樣本的巨大。所以,當我們接受大數據時,切忌走到另一個極端,放棄所有大樣本研究,一味地追求全樣本。
用大樣本做研究,結論不一定是科學的;科學的結論也不都出自大樣本研究。但我還是偏好大樣本研究,也常常受益于大樣本研究。因為我相信,真理藏在大量事件背后。有人常會說,不用大樣本,不是一樣能得出你現在得出的結論嗎?只用一兩個故事,不是一樣能表達你想表達的思想嗎?沒錯。我不否認,幸運的淘寶者一伸手就能抓到個金娃娃。從一兩個案例中,也可以提煉出某些宏大理論、原則或者規則。我不知道我有沒有這個運氣,但我知道我沒這個勇氣。不論怎樣,多觀察一些現象,得出結論所冒的犯錯誤的風險總會小一點。
一次,一個學生想寫篇論文,題目是“從貪污罪看……犯罪學原理”。下面是我和這位學生的對話:
提問:貪污罪的確可以反映出……犯罪學原理。不過,刑法規定有幾百個犯罪,何以見得某某犯罪學原理可以從A罪中抽象出來,因而也一定能從B罪、C罪……等其他各種犯罪中抽象出來呢?換句話說,你為什么對幾百分之一的個罪足以代表所有犯罪抱有如此的自信或把握呢?
答辯:據我所知,著名社會學家費孝通先生的博士論文《江村經濟》就是以一個鄉村的材料為樣本對中國農村狀況的研究。
(好厲害!一個問題就惹出了費先生,要再問一個問題,恩格斯還不舉著《英國工人階級狀況》出來幫他理論?按照他的意思,費先生可以用一個江村代表中國農村,我為什么不能用一個犯罪代表所有犯罪?)
提問:很好,你讀了不少書。的確,費先生的博士論文在倫敦大學通過的當晚,他的導師就將其介紹給英國Routledge書局出版。書局的編輯拿到書稿后,還建議把書名《開弦弓,一個中國農村的經濟生活》中的“開弦弓”(村)和“一個”去掉,直接稱作《中國農民的生活》呢!不過,我們現在看到的該書中文版,書名仍是《江村經濟》,而不是“中國農村經濟”什么的。這是為什么呢?當然,費先生能不能幫得了你,要看你怎么回答這樣一個問題:江村的確是中國農村的一部分,貪污罪也的確是犯罪的一部分。問題是,江村與中國其他鄉村之間的關系,和貪污罪與其他犯罪之間的關系一樣嗎?(我暗想,這可是第一個陷阱,看他怎么辦。為了證明用一個犯罪代表所有犯罪的合理性,他很可能回答說,兩個關系之間沒什么根本區別,都是部分與整體的關系。正因此,江村可以代表中國農村,貪污罪也可以代表所有犯罪。言外之意,費先生做得,我為什么做不得。不過,他要真這么答就慘了,因為這將使他自己陷于一個被動境地,他沒辦法把“鄉村”與“個罪”這兩個分析單位完全不同的事物做簡單類比。這顯得多不嚴謹呀!果然,他非常審慎地繞開了這個陷阱。既沒有說兩者具有可比性,又沒有說兩者不具有可比性。)
答辯:這個,不一定,兩者既有相同點,又有不同之處。不過,費先生可是社會科學大家,嫻熟運用實證分析的研究方法研究許多社會問題,是我們每個學者的榜樣。
(你看,博士就是博士。不僅繞開了我設下的陷阱,還用費先生堵我的嘴--意思是別在費先生面前擺弄實證研究!不過,該竊喜的還指不定是誰呢。他已經走近另一個陷阱。)
提問:你說的很好。也就是說,我們沒有根據說,江村與其他鄉村之間的關系,等同于貪污罪與其他個罪之間的關系。是,亦或不是?
答辯:嗯,是。
(因為真的太聰明,所以他已經意識到被套牢,可憐的學生一臉的沮喪。)
提問:既然沒有足夠的根據,從江村與其他農村之間的關系直接推論貪污罪與其他犯罪之間的關系,那你憑什么從一個貪污罪就抽象出那么大一個犯罪學理論呢?
我用這個例子是想說明,有的研究者對大樣本、大數據的偏見,源自于并不真正理解小樣本及個案研究。結果,在誤解大樣本研究的同時,也在誤用小樣本研究。
其實,我們生活中也常常見到缺乏樣本意識的例子。一個城市中有一家大醫院和一家小醫院。根據記錄,大醫院三天來每天接生的新生兒中,男女各占約50%。而那家小醫院三天來每天接生的新生兒中,恰巧60%是男孩,40%是女孩。這時,一對年輕父母盡管每天都夢想著生男孩,也不會僅僅根據這個統計數據就做出決定,到那家小醫院產子。因為誰都知道,出生率的性別比是大約男女各占50%。大醫院每天接產數量大,所以樣本性別比更可能接近實際比例。但是,可以設想,如果這對夫婦并不知道這個一般的統計數據,或者說,如果他們腦子里沒有這個先驗概率,我們還敢肯定他們不選擇小醫院產子嗎?這樣提問有點可笑,因為他們不會蠢到分不清懷孕在先還是產子在先。但很難說類似的低級錯誤不以高級的形式發生在我們中間。
當然,要想證明一種理論,人們隨時可以找到一兩個事例作為支持這種理論的證據,這種個別事例也是一種意義上的真實。但嚴格地說,個別事例作為證據,不僅可能隨時遭遇反例,而且其誤差是不可控的。因此,只有一兩個事例作為證據的所謂理論,很可能只能是一種意見、猜想或者判斷,無法作為規律性認識為人所接受,更不能作為社會政策制定過程的決策基礎。因為個別事件可能處在正態分布中的任何一個位置上,既可能碰巧代表大量同類事件的集中趨勢,也可能只是極端事件。從這個意義上說,實證分析所追求的客觀真實來自符合科學抽樣程序性、規模性和可重復性要求的樣本。
有學者就指出:大數定律保證非常大的樣本確實能高度代表它從中抽出的總體。而如果一個研究人員信守小數律,就會對在小樣本基礎上得出的結論的有效性抱有夸大的自信。因為小數律的信徒是這樣從事科學研究的:①在檢驗研究假設時,他把賭注放在小樣本上,而未意識到他的失敗機會非常之高。他高估了檢驗力。②他對于初期的趨勢(如最早的幾個被試的數據)以及觀察到的模式的穩定性(如顯著結果的數量和屬性),有過分的自信。他高估了結果的顯著性。③在評價自身或別人的重復實驗的時候,他對顯著結果的可重復性,抱有非分的高預期。他低估了置信區間的范圍。④他很少將實際結果與預期間的偏離歸結為樣本的變異性,因為對于任意的偏差,他都能發現因果“解釋”。總之,人們對樣本的直覺往往會產生不適當的后果。
當然,也許有人會說,這里所說的是發現真理的過程,而不是敘述真理的過程。發現真理時,當然要多觀察些現象,得到更多個案的數據支持。而敘述真理時,樣本就不需要太多。當你在課堂上講授故意殺人罪的概念時,沒必要歷數幾百個故意殺人案甚至窮盡所有個案后再告訴學生什么是故意殺人罪。沒錯,這其實正是我要說的。研究性論文或專著不是教科書,更不是學習心得或者綜述。在教科書中,可以例舉少量故事說理。但通過一項研究,你要告訴人們你發現了什么,而不是告訴人們你認為怎樣。既然如此,怎么能剛看見一棵樹就宣告說,我發現了一片森林?
由此還可以看出,就是對定量研究而言,樣本規模不同,研究結果也可能不同。關鍵不在于定量不定量,而在于是否對經驗(集體經驗、群體經驗)心懷敬畏。我們可以掰著手指做樣本,把十個手指的特征輸入SPSS, 照樣可以運行交互分析、T檢驗、方差分析、多元線性回歸、降維分析等幾乎所有量化分析過程,然后用圖表、餅圖、線圖等形式熱熱鬧鬧地表現出來。我們還可以上街隨便找來三個路人,問他們是否贊成廢除死刑。然后我們照樣可以報告說,有66.6666%的民眾贊成或反對廢除死刑。這都是在做量化分析,但都是對經驗的褻瀆,是對現實生活的褻瀆,是對科學的褻瀆,也是對學者這個稱謂的褻瀆。換個角度看,我們不能說,一百個樣本中的經驗才是經驗,一個樣本中的經驗就不是經驗。更不能說,我的經驗才是經驗,你的經驗就不是經驗。關鍵在于,誰報告的經驗相對更加接近生活現實的總體。
這樣想問題便不難理解大樣本研究的幾個好處:第一,只要抽樣過程符合隨機性要求,樣本越大,抽樣誤差就越小,由此所得結論偏離現實世界的可能性就越小。理論上說,當樣本等于總體時,誤差為零。第二,樣本越大,所含信息、類型就越豐富,所研究的對象就能以更多的方式展現自己。通常,人們對定量分析有一個誤解,認為量化過程對現象進行壓縮處理,脫水后的研究對象失去了生氣,面無血色。的確,這正是小樣本量化分析可能有的效果。但隨著樣本的增大,人們可以靈活運用各種觀察手段,看到事物更多的側面。大樣本用得好,可以讓研究對象表情豐富,百般風情;而用極端個案說事,展現的往往是說故事者自己。極端個案的確有血有肉,生動具體。但是,由于無法控制某個極端個案在多大程度上代表了總體,因此,也無從知道這種用極端個案說故事的方法是否掩蓋、侵吞甚至扭曲了多少客觀真實。第三,樣本越大,可供選擇的分析工具也就越多,其結論也越可信。如果只有二、三十個樣本,就算用上多元線性回歸,統計軟件也會報告結果,但這樣的結果連你自己都不信。換句話說,樣本越大,可選的分析工具越多,你就越自由。難道,你不想要這種自由嗎?
當然,我們不能無條件地說,樣本越大越好。我們把某個省的全部案件都拿來分析,有幾十萬,夠大了吧?但我們還是不能把結論直接推論到全中國。樣本是否具有代表性,還要看抽樣程序是否規范。
抽樣是從研究總體中抽取部分單位加以研究,并用所得結果推斷總體特征的方法,是實證研究的基本功之一。之所以需要抽樣,首先因為樣本與總體是個別與一般的關系。研究總體,沒有必要對總體中每個單位進行逐一調查。只要符合統計要求,可以認為樣本特征近似于總體特征。第二,由于需要研究的總體巨大,受人力、財力所限,除國家實施的大規模人口普查以外,不可能逐一調查所有研究對象的個體。所以,不僅可以借助樣本觀察總體,也只能借助樣本觀察總體。第三,被研究的總體本身具有程度不同的異質性,只抽取其中一個單位,不可能代表總體中其他未被抽取單位的情況。因此,用來觀察總體的樣本盡管不可能太多,但也不能過少。過多的樣本耗費調查資源,過少的樣本可能產生過大的抽樣誤差。
具體來說,抽樣分為隨機抽樣(概率抽樣)和非隨機抽樣(非概率抽樣)兩種。在隨機抽樣中,總體中的每個單位都有同等機會被抽取成為樣本。其特點有四:第一,按隨機原則抽取而非隨意抽取。第二,每個單位被抽取的概率是已知的,而非未知的。第三,由樣本推論到總體的可靠程度可計算,可控制。第四,抽樣前,對總體邊界已知。隨機抽樣分為簡單隨機抽樣、分層抽樣、系統抽樣、聚類抽樣等等。與隨機抽樣不同,非隨機抽樣是無法精確給出抽樣誤差因而無法將研究結論直接推論到研究對象的總體的抽樣方法。非隨機抽樣包括方便抽樣、立意抽樣等等。抽樣技術的關鍵,就在于盡可能減少誤差,控制誤差,抽出真正代表總體的樣本。
作為社會現象的一部分,法律現象與自然現象之間有著顯著區別。法是由人制定的,法是由人實施的,法是由人違反的。所以,法律現象有著太多的異質性和不確定性。但另一方面,法律現象的總體又往往巨大無比,每年法院處理的各類案件幾百萬件,每個達到一定責任年齡的公民都是潛在的違法者,所有公民都是潛在的被害人。那么,法學研究該如何迎接大數據的到來,至少做出一些像樣的的大樣本研究呢?
首先,全樣本選題。在法律現象的研究中,并不是所有問題的對象總體都是十三億人或者百萬、千萬計的案件。比如,截止到2006年6月《刑法》修正案(六)通過頒布以前,中國《刑法》規定有425個罪名,截止到2003年12月23日,最高司法當局發布的刑事司法解釋共有1233個,某一筆專項資金總額400億元,涉及該項資金的全部職務犯罪案件共幾百件。這些,都是力所能及的全樣本選題。此外,某個行業的行業性規范、某個部門的執法活動等等,也都可以成為全樣本研究的選題。除了這些以全國范圍為總體的選題以外,還可以將有代表性的某個省、某個市、某個地區,甚至某個縣、鄉的全部某類案件、某些司法文書、判決結果、政策文件等確定為全樣本研究的對象。此類全樣本雖非全國范圍的全樣本,但為什么研究對象及其結論一定要能推論到全國才算是科學呢?為什么學術活動一定要左右于一個中心才算是觸摸到了真理呢?其實,這本身就是一種關于學術研究的誤解,一種盲目追求宏大敘事而不屑于細微具體研究的浮躁。既然如此,法律實證研究中豐富的全樣本選題,是盡可能降低抽樣誤差的一個較好對策。
其次,合理確定抽樣框架。所謂抽樣框架,就是一份與總體非常相似的用來選取具體樣本的名單。例如,1936年是美國的選舉年,民主黨競選人是競選連任的總統富蘭克林?羅斯福,共和黨的競選人是來自堪薩斯州的阿爾弗·蘭登。為了預測誰將在選舉中獲勝,美國的《文摘》雜志進行了一次美國歷史上規模最大的民意測驗,它調查了240萬美國人的選舉傾向。根據調查結果,《文摘》雜志宣布,蘭登將以57%對43%擊敗羅斯福。而實際的選舉結果卻是,羅斯福以62%對38%獲得大勝。預測失敗的問題就出在抽樣框架上。《文摘》雜志總共寄出了1000萬份調查表,地址與姓名大都取自于電話簿與汽車倶樂部會員名單。但在1936年,大多數美國人沒有安裝電話,很多人也沒有汽車。這樣,低收入的窮人就被完全排斥在調查之外,而正是這部分窮人支持了羅斯福,造成了同樣是美國歷史上規模最大的抽樣誤差。這個例子中的抽樣框架就是《文摘》所選定的電話簿和汽車倶樂部會員名單。從抽樣原理來看,這個抽樣框架與美國全體選民這個總體之間的相似性程度不大,所以才會預測失敗。
由此也可以看出,關鍵不在于樣本的數量大小,也不在于抽樣框架是出于何種目的確定的,而在于根據某個框架所獲得的樣本與總體之間是否相似。而所謂是否相似,其實又有多個可能的側面:年齡、性別、職業、文化,還是社會地位?只要對既定研究目的而言,抽樣框架與總體之間具有相似性即可,而兩者不可能在所有方面都滿足相似性要求。調查者所以選定電話簿和倶樂部名單,也是因為他們真的相信這個框架的選舉意向能代表總體。否則,他們為什么要有意制造自己的預測失敗呢?所以,當無力于全國普查時,我們可以根據研究目的的要求確定一個抽樣框架,假定這個抽樣框架可能代表總體,然后或者基于這個框架進行全樣本研究,或者在這個框架內進行隨機抽樣。這樣,研究結論能否推論到總體首先可以基本上排除主觀偏好或者其他人為因素對樣本獲取過程的影響,而剩下的問題只是人們在多大程度上相信這個框架與總體之間的相似性,或者說兩者之間的差異在多大程度上可能對研究結論向總體推論構成根本性影響。
例如,我們不可能首先獲得全國所有刑事案件的名單,然后據此進行隨機抽樣,但我們可以把來自最高法院各業務庭、研究機構、出版單位、網站等權威機構公開發布、發表的全部真實判決設定為抽樣框架,并稱其為“示范性案例”,然后抽取其中的某類案件進行全樣本研究。這種案例的代表性在于:第一,由于這些案件來自全國各地,由各地各級法院選送,具有對全國總體的代表性;第二,由于是最高法院各權威機構認可并公開的案件,因而具有對司法實踐的指導性;第三,由于其中絕大部分案件屬于生效判決,因而具有一定的有效性;第四,由于各地選送案件以及最高法院各單位選取案件時充分考慮到案件類型和性質的多樣化,因而對學術研究而言具有一定的標志性;第五,由于是公開發布的案件,因而對公民行為而言具有相當的規范性、模范性和可預測性;最后,由于提取了這個范圍內的幾乎全部某類案例,將抽樣誤差降低為零,因而具有研究依據上的準確性。其實,如果可能將總體的所有特征一模一樣地微縮到某個隨手可得的抽樣框架中的話,無異于對總體完成了一次嚴格的隨機抽樣,并以其結果為抽樣框架進行二次抽樣,其實這已經不是在選擇抽樣框架而是進行多段抽樣了。
再次,避免盲目放大樣本容量。一般而言,研究總體本身的異質性程度越大,需要分析的變量的個數越多,則所需要的樣本規模就越大。但是,一個占總體5%的樣本,未必要比一個只占總體1%的樣本要好上5倍。有研究證明,在總體小于1000的情況下,如果樣本占總體的比例低于30%,那么,樣本誤差將會很大。但是,當總體的規模增加時,樣本比例的作用趨向于越來越小,當總體為10000時,我們只需有10%的樣本比例,當總體為150000時,1%的樣本比例就已經足夠。當總體為1000萬或者以上時,樣本比例的增加實際上已經不起作用。換言之,樣本規模絕對數值的重要性大大超過樣本占總體比例的重要性。
最后需要說明,最高法院已經從2013年起開通了裁判文書網,公開了幾乎全部司法判決文書。盡管在技術上還有待改進,但這件事的意義之大,超出了許多人的想象。至少今后我們不能再說,拿不到全樣本,所以無法做大數據。現在的問題是,司法當局已經為法律大數據研究提供了相應的條件,學界能跟上嗎?