引言
在大數據來臨的時代,實證法律研究路在何方是值得研究的問題。整體而言,實證法律研究是一種更多流行于域外的新型法學研究范式,以經驗性研究的樣態區別于純理論式的抽象觀點構建。域外學者對實證研究方法論的探討及方法的實際運用上都已相對成熟。透過美國實證法律研究會議[1]和實證法律研究期刊[2]的相關文章,可以看出其在研究中慣常使用全國范圍內的抽樣數據或者與研究主題相關的全數據,至少也是較大區域或范圍內的局部數據或大樣本數據。在中國法學研究領域中,雖然目前基于演繹的法教義學方法仍然占據著主流地位,但實證研究這種新的法學范式近年來也得到較多接受,[3]專注于實證研究的出版物[4]已經面世,以“中國法律實證研究年會”[5]、“法律實證研究國際學術會議”[6]為代表的實證研究學術會議也開始召開。然而,實證研究方法興起之初,全國范圍的、權威性的法律大數據尚未出現,國內研究者多傾向于自行收集特定范圍內的小樣本數據作為研究材料。
隨著數據時代的到來,海量數據得以迅速生成并且可被獲取。在司法領域,得益于中國近年來對司法公開理念的大力貫徹,司法大數據這一新興的研究資源應運而生,異于傳統實證研究的實證研究新形式正在因法律大數據的出現而成為可能。中國特有的司法大數據主要來源于以裁判文書網為核心的司法公開平臺。最高人民法院(以下簡稱“最高法”)為充分保障當事人和公眾的知情權、監督權,通過司法公開平臺對審判流程信息、執行信息、庭審直播信息、裁判文書信息等數據進行了較多公開。其中,裁判文書網所發布的海量裁判文書是對中國司法實踐全面貌、原始面貌最為具體和客觀的反映。
毋庸置疑,大數據的到來為中國實證法律研究提供了新的契機,有可能推動實證研究的跨越式發展。首先,大數據的可獲得性大大地豐富了實證研究的基礎資料,擴展了研究主題的范圍和格局。其次,對大數據處理的技術需求也注定會推動實證研究方法的革新,使其更加多元化、科學化。相應地,大數據研究所得的研究結論也會更趨向精確和客觀。然而,目前基于裁判文書網的大數據法律研究在諸多方面還做得不夠完善,研究者需重視有關問題,積極尋找并及時采取對策。對此,筆者擬展開如下論述。
裁判文書網:大數據源泉
中國法律大數據源自何時、何地是首先討論的問題。在真正可被稱為大數據的法律數據出現之前,傳統的法律數據主要是由官方統一收集、發布并最后呈現出數字化、結構化形式的司法統計數據,這包括了中央及地方司法機關、統計部門的工作報告、法律年鑒、統計年鑒等。對此,易斐斐等在統計整理了2014年法院主動公開的國家和地方層面的司法統計數據公開情況后分析認為,司法統計數據存在著“數據不完整、數據公開渠道零散、統計口徑不統一、數據公開不夠連貫及時等問題,導致公開的數據無法形成相互貫通、可以互相比較的數據網絡”。[7]除了上述不足外,司法統計數據對于開展數據研究的一大局限是其統計的基礎數據如各種司法文書從未整體性地向社會公開,因此公布的統計數據實則缺乏中觀、微觀的個案數據源支撐,研究者難以得知數據的具體生成過程,這使得這些官方統計結果往往只能被用作宏觀、粗略的趨勢分析。加之官方制作的數據不可避免地帶有一定的政治、社會治理及司法管理的考量,難以達到完全的客觀中立。因此,上述缺陷造就了官方結構化數據與學術研究者所需的研究數據之間的差距,傳統的司法統計數據難以充分滿足學術研究對于數據客觀性、嚴謹性、具體性等的需要。當然,最高法還通過指導案例的形式公開了部分個案信息。相比之下,指導案例雖然更接近案件的原始信息(包括基本案情、裁判理由及結果),但其僅是刪減濃縮后的案件概述,可供研究者發掘、利用的數據信息極為有限。更重要的是,指導案例總體數量極少,迄今最高法只發布了100余例,對于數據研究者而言不過杯水車薪。
需要指出,真正的法律大數據的出現與最高法的改革舉措直接相關。基于司法公開的理念,自黨的十八大以來,最高法建成了四大司法公開平臺,包括審判流程信息公開網、執行信息公開網、庭審公開網以及影響最為廣泛的裁判文書網。
裁判文書網的建立與發展是最高法近年來大力推進裁判文書上網工作最為重要的成果。早在2009年3月25日,最高法便印發了《人民法院第三個五年改革綱要(2009-2013)》(法發〔2009〕14號),提出要“研究建立裁判文書網上發布制度和執行案件信息的網上查詢制度”。隨后,最高法陸續發布了如《關于司法公開的六項規定》(法發〔2009〕58號)、《關于人民法院在互聯網公布裁判文書的規定》(法發〔2010〕48號)[8]等規范性文件,對法院在互聯網公布裁判文書的原則、范圍、程序等作出了具體規定,裁判文書網的建立工作啟動。2011年12月30日,最高法召開司法公開工作領導小組第一次會議,提出制定建立全國統一裁判文書網的工作規劃。2013年5月8日,最高法在廣西柳州召開司法公開調研會,就建立全國統一裁判文書網的方案設計向全國部分法院進行調研。裁判文書網建設進入設計階段。2013年5月22日,最高法黨組審議通過了“關于建立中國裁判文書網的報告”,明確在互聯網建立名為“中國裁判文書網”的網站平臺,統一公布全國各級法院生效裁判文書。自此,中國裁判文書網建設進入具體實施階段。最高法在2013年6月28日通過中國裁判文書網首批公布了本院生效裁判文書50份。值得一提的是,2013年7月1日,《最高人民法院裁判文書上網公布暫行辦法》正式實施,這是最高法第一個專門規范自身裁判文書上網公布工作的制度性文件。依據該辦法,除法律規定的特殊情形外,最高法發生法律效力的判決書、裁定書、決定書一般均應在互聯網公布。更重要的是,2013年11月12日,黨的十八屆三中全會通過的《中共中央關于全面深化改革若干重大問題的決定》中提到要“增強法律文書說理性,推動公開法院生效裁判文書”,從而為裁判文書上網確立了極為重要的政治依據。
在最高法統領下,各級法院也加入了推動裁判文書上網的隊列。2013年11月13日,最高法審判委員會第1595次會議討論通過新的《最高人民法院關于人民法院在互聯網公布裁判文書的規定》(法釋〔2013〕26號)[9],要求自2014年1月1日起,法院生效裁判文書應當統一在中國裁判文書網公布,這是最高法第一次以司法解釋的方式對各級法院在互聯網公布裁判文書的工作進行全面規范。為了響應該司法解釋的規定,2013年12月31日,全國四級法院開始同時向中國裁判文書網上傳生效裁判文書,中國裁判文書網開始全面發揮統一公布全國法院生效裁判文書的平臺功能。2015年6月,全國四級法院已經全部實現生效裁判文書上網公布,實現了案件類型全覆蓋、法院全覆蓋。[10]隨后,最高人民法院在2016年對原有裁判文書網上公開的意見進行修訂并發布了《最高人民法院關于人民法院在互聯網公布裁判文書的規定(2016修訂)》(法釋〔2016〕19號)。新規定將原規定“依法、及時、規范、真實”的原則調整為“依法、全面、及時、規范”,突出了“全面”。在具體制度層面,新規定進一步擴展了裁判文書網上公開的范圍,同時規定“不在互聯網公布的裁判文書,應當公布案號、審理法院、裁判日期及不公開理由”。
由此觀之,裁判文書網所公布的是除法定不公開或不宜公開的案件外,包括最高法在內的全國各級法院的全部生效裁判文書,包括了判決書、裁定書、決定書、通知書、支付令及小部分調解書。因此,裁判文書網的誕生與發展所帶來的豐富的全國性數據與傳統實證研究所使用的數據在數量級、廣泛性上都不可同日而語。2017年8月23日,裁判文書網的總訪問量突破了100億次,當時累計公開裁判文書3247萬篇。[11]而約兩年后,截至2019年8月12日,裁判文書網文書總量已達到7439余萬份,訪問總量已超過了312億次,文書總量及訪問總量均成倍增長。
需要指出,除裁判文書網外的其他公開平臺中,審判流程信息公開網是主要面向案件當事人及其代理人公開的查詢案件、聯系法官、接受電子送達的平臺,這一平臺對于社會公眾公開的內容只包括法院地址、開庭公告、審判委員會組成人員等法院公共信息,信息量稀少且研究價值有限。而庭審公開網和執行信息公開網主要面向社會公眾公開,這兩個平臺所公開的信息雖不如裁判文書網一般全面、充分,但也都可能成為大數據研究的潛在挖掘對象,作為補充數據源。執行信息公開網主要公開全國法院失信被執行人名單信息。2013年10月1日起,《最高人民法院關于公布失信被執行人名單信息的若干規定》正式施行。該規定實施后,各級法院開始依職權作出將被執行人納入失信被執行人名單的決定。2013年10月24日,全國法院失信被執行人名單信息公布與查詢平臺面向社會開通,此即是后來的中國執行信息公開網。截至2019年8月19日,執行信息網已公布了失信被執行人名單約1495萬例。而庭審公開網則是實現全國法院庭審視頻統一直播展示最重要的平臺。2016年4月14日,最高法公布了修改后的《法庭規則》,其中規定以下三種依法公開進行的庭審活動人民法院可以通過電視、互聯網或其他公共媒體進行圖文、音頻、視頻直播或錄播:(一)公眾關注度較高;(二)社會影響較大;(三)法治宣傳教育意義較強。2016年5月,最高法院長周強對《關于推進我院與全國法院庭審公開工作基本方案的請示》文件做出批復,要求各個地方法院依托全國統一庭審公開平臺切實加大庭審公開力度。2016年7月,最高法率先示范常態化庭審公開。2016年9月27日,中國庭審公開網正式上線運行。自庭審公開網上線迄今接近三年的時間內,最高法累計直播3000余件,全國累計直播次數已達420余萬次,訪問總量超過183億次。
相較于傳統數據資源,上述司法公開平臺特別是裁判文書網具備以下特征:其一,數據的海量性。在裁判文書網投入運行之前,我國通過兩高工作報告、指導案例、法律年鑒等形式公開的司法數據僅是我國司法全貌的冰山一角。相比之下,裁判文書網所公開的信息堪稱空前之多。按照最高法相關規定,除了特定不能公開的案件外,其余案件都要在生效七天之內上網公開,且原則上是面向全社會公開。此種公開的力度是革命性的,在全世界范圍內也不遑多讓。[12]隨著過往文書還在被陸續上傳,裁判文書網的數據量迅速增長。例如從2014年裁判文書網剛開始啟動一年的558萬份,2015年約900萬份,2016年約1000萬份,[13]截至2019年8月已超過7439萬份。中國裁判文書網目前已經成為全球最大的裁判文書發布平臺,可以預期未來的文書數據量也將非常可觀。空前規模的文書數據量為基于數據挖掘的實證研究提供了廣闊、全面的學術資源以反映中國司法特別是審判階段司法面貌。其二,數據內容的豐富細致性。與傳統法律數據粗疏、籠統的特點不同,裁判文書網等平臺所提供的是以個案裁判為支撐的詳細文本、視頻數據,如案件的判決書、裁定書、完整庭審視頻等,通過對案件原始信息的具體、充分的呈現使得多角度、深入化的數據研究成為可能。其三,數據的客觀性和不反應性[14]。相對于統計年鑒、工作報告等經過了“精細加工”、潛藏了數據發布主體自身價值偏好的結構化數據,[15]裁判文書網的數據是由審判法院按照法律規定直接上傳的案件原始文本,數據發布主體的價值偏好得以淡化,以此為基的研究更能保持其客觀本色。另外,裁判文書一旦上傳就可供研究者自由選擇下載,不會隨著研究人員的觀察而發生內容或形式上的改變,即裁判文書網的數據還具有不反應性。其四,數據的可生成性及相應數據研究的個性化。盡管裁判文書網、庭審公開網甚或執行信息公開網本身包含的信息并非嚴格意義上的數據或一些研究者所稱的定量化的數據,[16]研究者難以直接對其進行數理統計、分析。但是,研究者可以通過標簽、編碼等數據科學方法將判決文書、庭審視頻中所包含的案件信息轉化生成研究所用的定量化數據。研究者可以根據自己的研究思路、研究偏好有傾向地選取數據搜集的范圍和方式,從而得出不同于官方數據、有別于官方角度的新型法律數據,進而為設計個性化、特色化的研究模型提供了可能。
筆者認為,以裁判文書網為載體的新型司法公開數據構成了當代中國法律大數據的基本源泉。[17]這些數據載體的上線不僅推進了陽光司法,更為中國的實證法律研究創造了前所未有的機遇。中國的法律大數據研究的廣泛展開也肇始于裁判文書統一集中上網:在裁判文書上網之前,中國極少有真正的法律大數據研究,法律實證研究基本上是基于“小數據”,即研究者局部范圍或特定領域內所自行收集的數據而展開的“手工作坊式”研究。[18]而裁判文書網這一全國性、公開、細顆粒的法律大數據平臺的出現,使得研究者能夠運用統計科學和計算科學手段將海量文書轉化為數據,從而收獲不同于官方大數據的新型法律大數據。這為中國法學研究打開了豐富的可能。
剖析:基于裁判文書網的大數據研究之問題及其成因
以大數據為主題的研究之外延不限于文中實際運用了大數據的研究,例如有學者關注法律大數據所面臨的倫理規范等問題,[19]也有學者就開展大數據法律研究的方法論提出了有啟發性的見解。[20]
本文所關注的大數據法律研究是指直接運用大數據來進行現象描述或理論闡釋的學術研究。近年來,國內業已出現了不少直接利用裁判文書網等平臺的大數據或大量數據開展法學研究的探索,其展開方式如下:研究者首先借助計算機軟件從裁判文書網批量下載數據,對數據進行清洗后,根據研究需要挖掘裁判文書中的有價值信息,對其進行相應的數據分析。但現有研究存在以下的不足之處:
相應地,研究者對數據分析方法的運用也趨于單調。在面對大數據的整理與分析時,法學研究者大多“還不能科學、熟練地運用數理統計等分析手段與方法對問題展開統計學意義上的定量分析,更遑論在研究中進行數理模型的建構”。[23]法學實證研究在整體上仍以基礎的平均數、頻數、方差等描述性統計方法為首要工具,[24]這與當前經濟學、管理學等學科的研究技術水平相去甚遠。[25]描述性研究在對經驗現象的特征勾勒上起到了重要作用,但在面對構建事物間的相關性甚至是因果性這類深入研究時便顯得捉襟見肘。因為包括大數據法學研究在內的法律實證研究不應當僅僅是描述現象的工具,更需承擔著揭示法律運作過程的規律、深度闡釋事實背后的相關關系甚或因果關系的任務。
大數據研究的主題及結論亦缺乏應有的學術深度和創新性。數據的選取與分析跟研究的主題與展開過程息息相關。首先,淺層數據、顯性數據所呈現出的只是司法實踐的大致面相,無法實現對某一專門化研究主題的深入分析。除掣肘于所能挖掘到的數據類型外,研究者對主題的選取也很大程度上局限于已有的現實問題,試圖通過數據分析的新角度對其提出解決對策。[26]其次,現階段研究中的數據往往只是一個論證理論主張的理據,遠非論理的基礎或核心。由此,目前研究多是對數據的一種純手段性的運用,即以數據分析結果來驗證既有的命題,研究者仍多以主觀性較強的學理性解釋作為補充甚或主要的論述理由。質言之,一些研究成果都囿于既有理論的框架,數據無法發揮出導向性的作用,所得結論也略顯老套,甚至浮于淺顯籠統的數據結論,可能脫離于真實的司法實踐,研究者鮮少能發現異于傳統認知的客觀事實,缺乏發人深省的問題揭示與理論思辨,更毋論建構以數據為支撐的全新理論了。
何以形成上述問題?筆者以為主要在于技術門檻要求嚴格、已公開裁判文書不能反映出真實的司法實踐全貌及研究者未能跳出現有法律理論的先驗框架三個方面。
其一,對當前的法學研究者而言,數據的收集、清洗、處理及分析等方面都存在著天然的技術門檻限制。法律大數據研究的核心在于對海量數據的價值挖掘、處理,研究者掌握與運用相關技術方法的能力在很大程度上決定了研究的深度與層次,而在數據運用方面的薄弱可能導致研究結論流于膚淺甚至產生謬誤。可以說,與數據打交道的必要步驟為大數據法學研究設定了先天的技術門檻,但傳統的法律研究者很難嫻熟掌握統計科學及計算機科學的新技術。上網裁判文書量的巨大決定了研究者自然不可能以手工下載的方式一份份收集文書。基于大量數據獲取的需要,研究者已經開始使用爬蟲軟件等方式抓取數據。但由于通過網絡爬蟲系統獲取裁判文書網數據的行為會造成網站負荷過大、影響正常用戶的訪問,最高法成立的專門運維保障團隊已采取驗證碼等多種方式上線系統軟件防爬功能,不斷加強“反爬蟲”技術,使得研究者獲取大量數據的過程愈發艱難。[27]而文書的獲取只是大數據研究的起點,爬蟲軟件所抓取的文書是典型的無標簽非結構化數據,其中包含了大量重復文書、空白文書等“臟數據”,需要再次進行數據清洗。數據清洗的目的是為挖掘提供準確而有效的數據,因此需要過濾或修改不完整的數據、錯誤的數據和重復的數據等。數據清洗可以采用最簡單易行的方法,即刪除或忽略缺失值,但這伴隨著損失樣本量、統計功效弱的缺陷。更為精細的數據清洗方法還有插補、均值插補、離群點分析等,[28]這些方法的恰當運用要求研究者具備一定的統計學與計算機科學基礎。更為重要的是,非結構化數據還需要經歷被轉化為結構化數據的過程。如前所述,研究者對裁判文書主文的內容挖掘程度尚淺,但更具研究價值的大多是不易于被提取的深層指標。法律文本挖掘的困難來源于實踐中司法表達的極其豐富性加之法律規則及體系的不斷變化性。正因于此,現實中部分研究者仍在采用逐份手工統計的辦法來進行數據資源的挖掘。[29]這種耗時耗力的原始數據挖掘方法極大增加了數據研究的成本,只能適用于小數據樣本的信息挖掘,但大數據時代海量的材料與數據決定了研究者難以再親自、逐一地審閱、統計和分析。最后,研究者需要對處理后的數據內容作出分析。在這一步驟中,多數研究者仍停留于描述性的數據分析為主的階段,往往停留在經驗性地描述研究對象特征的層面,對因果關系的分析也只能作傳統的推測性演繹,很少有研究者能夠使用統計軟件與統計學分析方法如斷點回歸、雙重差分、匹配等對數據資料進行精確的定量分析。而隨著大數據研究的深入和復雜化,更加專業化的機器學習與算法應用等工具也將進入研究者的視野。
其二,目前所公開的裁判文書只是全國范圍內有缺失的數據,其缺失既源自數據公開渠道的限制,又源自數據公開范圍的限制。一方面,裁判文書網(包括庭審公開網、執行信息公開網)是以法院為中心的信息公開,這一公開渠道對司法實踐的反映是有限的。裁判文書網公開的信息主要是訴訟型信息、法院審判信息。而其余關鍵的程序過程如警察的偵查過程、檢察院的起訴過程、法院庭審前后的過程都沒有公開的、正式或非正式的文字記錄,更遑論在此基礎上的數據化了。而庭審公開網則僅僅是部分案件庭審階段的視頻數據。執行信息公開網提供的則主要是失信被執行人等的身份信息。另一方面,在公開渠道單一、公開階段特定的框架下,數據仍存在一定程度的范圍缺失,體現為隨機性缺失和系統性缺失兩類。系統性缺失的數據是法律規定不能公開或不宜公開的案件,如未成年犯罪案件、涉及國家秘密的案件等。[30]筆者之前關于刑事辯護率的研究發現,在法定不上網的刑事案件中數量最多的可能是未成年人犯罪案件,至于涉及國家秘密的案件、調解案件以及其他不宜在互聯網公布的刑事案件數量很少。[31]而根據以往《中國法律年鑒》的數據,未成年犯罪人約占全國當年全部犯罪人數的5%-10%。[32]因此,上網裁判文書所涉及的案件類型并不全面。隨機性缺失的數據則是依據法律規定應當上網公開但由于種種原因沒有上網的案件,包括但不限于尚未生效的案件,比如提起上訴、抗訴的案件等。這些案件尚未上網,但卻會被計入當年結案數。此外,隨機性缺失的數據還可能包括由于工作滯后而上網不及時導致的晚公開案件等。[33]因此,數據隨機性缺失的程度與負責實際數據傳輸的各個法院及有關工作人員的工作落實情況息息相關。基于上述原因,從整體數量上看,裁判文書網已經公布的裁判文書數據并不完全具備全樣本特征:公布文書數量與實際結案文書數量相差較大,數據缺失問題相當嚴重。有學者對于全國法院2014年和2015年的裁判文書上網所做的統計顯示:按省份看,上網裁判文書占實際結案文書比重最高的達78.14%(陜西),最低的僅為15.17%(西藏);最高法在上述兩年的上網裁判文書僅占其實結案件量的46.13%,這一比重與全國的總體情況大體持平。[34]截至2019年7月6日,四川省的法院在2017-2018年間的裁判文書上網約143.82萬份,而根據四川省高級人民法院工作報告,2017-2018年間全省共審結案件216.79萬件,[35]再考慮到每一起案件可能會同時具有判決書、裁定書、決定書等多份文書,這些審結案件所生成的裁判文書總量當然更遠遠多于216.79萬件。綜上而言,現階段中國法律大數據整體上是以裁判文書網為主要來源的官方化、半結構化或非結構化的大量數據,實質上只是全國法律領域內的有限的、角度特定的數據。由此,“現實中的大數據”往往是有缺失的大量數據。若研究者意圖開展反映我國法律和司法實踐全貌的研究,則面對的只是“殘缺”大數據,無法以直接上網的裁判文書樣本推論到整體樣本情況。上網裁判文書在數量、地域、案件類型等各個方面的偏差也決定了特定范圍的數據研究也不一定能夠獲取到有代表性的全樣本數據。而過往的數據研究經驗已經表明未經調整的不具代表性的數據極有可能導致錯誤的結論。[36]
此外,裁判文書本身就是一種不完全的記載形式。當我們說已公開的裁判文書不能反映出我國司法實踐的全貌時,不僅僅是在談論裁判文書當前有限制的公開范圍和公開數量,同時也是在強調裁判文書這一信息載體的本質缺陷。換言之,裁判文書不可能精確地記錄下司法實踐中影響法院審判案件的所有法律或非法律的因素及其在司法實踐中真實的作用效果。白建軍對裁判文書背后可能存在的司法潛見作用的大數據研究就是一個很好的揭示。[37]因此,我們在面對單個的裁判文書尚會存有這樣的疑問:是否所有與案件相關的因素都在裁判文書中被提及了,有哪些因素可能被遺漏?會不會非法律的因素被包裝成為法律的因素繼而被呈現于裁判文書之中?是否文書中頻繁提及了的內容一定是相對重要的?這些問題都是單薄的一紙文書無法向研究者提供答案的。可以說,裁判文書必然帶著一定的“欺騙性”,過于依賴和偏信裁判文書信息可能會產生如下的問題,第一,忽略文本之外的其他相關要素,第二,非法律的要素被包裝成法律要素并被研究者提取,第三,錯誤認識文本中某些要素的重要程度。裁判文書中存在的偏見和錯誤如果未被重視并加以糾正,在經過數據處理后會被保留甚至放大,并最終導致研究結論不同程度地偏離于客觀的司法實踐。
展望:如何更好地利用大數據開展研究
盡管存在問題,法律大數據研究毫無疑將成為一種引領未來的法學研究范式,學者們須將這面紅旗堅定地打下去。未來的大數據研究應從以下四方面展開。
值得未來的研究者高度重視的是,與統計學相關但又頗為不同的機器學習方法也正在崛起并被運用于大數據分析之中。當現有的分析工具和統計手段已無法滿足大數據的處理需求時,人工智能這一不斷進化著的新型技術工具便登上了舞臺。其通過對巨量數據進行智能篩選和算法分析,可以實現對海量數據分析效能的顯著提升。例如布盧門斯托克及其同事就在其研究中創建并訓練了一種能夠預測150萬名用戶在調查中會做出何種答案的機器學習模型。[44]還有國外學者在其研究中運用了決策樹、迭代算法等機器學習算法,有效地解決了邏輯回歸等傳統計量經濟學工具所不能解決的數據處理問題,并最終得出了作出假釋決定的精確機器預測模型。[45]
其二,研究者應當正視并謹慎對待現有數據資源的缺失問題。受限于各種客觀條件,獲取包含國內司法全樣本的大數據只是一種奢望,僅有大量數據而非全數據可能是中國法學研究者在很長一段時間所要面臨的窘境。但大量數據也是法學研究的重要材料,值得高度重視與充分利用。換言之,研究者通過裁判文書網等平臺所能得到的樣本必定無法直接代表總體的屬性。但許多大數據資源其實都不具有充分代表性,不具充分代表性的數據對有些研究目標而言顯然不適用,對另一些研究目標來說卻可能正中挈領。
在利用裁判文書網進行研究時,研究者在了解數據偏差情況的前提下,可以適當縮小研究范圍,并限定研究對象,確保在有限的數據條件下盡可能地收集、獲取某領域、某區域或某類別相對完整、具有一定代表性的真實數據,開展特定區域、種類、問題的全樣本數據研究。但即使是在特定范圍的研究中,研究者也無法獲取到研究目標所需的完美數據,這是因為系統性偏差和隨機性偏差在任何數據樣本中都無法被完全杜絕。但若輔之以一定的技術手段對不完整數據進行調整及修正,數據缺失帶來的問題便可以通過研究者合理設計的數據處理和分析手段得到有效解決。一方面,研究者可以基于對數據的樣本內比較,將樣本內的研究結果泛化到抽取樣本的總體目標上。例如國外研究者使用了明顯非隨機的樣本--由Xbox(一款微軟游戲機)的美國用戶組成的偏男性化、年輕化的非概率樣本。在對這一看起來非常不理想的樣本的評估過程中研究者對非隨機抽樣過程進行了調整修正,尤其是利用了事后分層的技術,即利用關于目標總體的輔助信息對樣本進行分組進而加權結果。簡單來說,研究者將抽樣總體分為組內每個人的回答傾向都相同的同類組。換言之,如果所有男性具有相同的回答傾向,所有女性具有相同的回答傾向,那么根據性別的事后分層便能產生無偏差的評估結論。最終,該研究正確預測了2012年美國大選的結果。[46]
另一方面,研究者還可整合多個數據資源,以達到數據間的查漏補缺。具體而言,當僅通過裁判文書網這一主要數據來源無法獲取研究所需要的完整數據時,研究者便可以考慮轉向其他的數據源,如傳統的司法統計數據、非官方的案例檢索工具和非官方機構建立的數據庫等。例如筆者在以往研究中面對上網判決書數據存在系統缺失的情況,便綜合考慮了裁判文書網以外的多方數據源對未上網案件的統計結果,在已知數量的上網案件的基礎上,再加權考慮了所有未上網案件的估算值,代入公式計算,從而最終得出了S省的全局辯護率。[47]國外學者安索拉比赫和赫什在其研究中采用了更為復雜精細的數據整合過程。他們將Catalist數據中的投票記錄和社會調查數據結合鏈接成為更大的主數據源,再基于該主數據源分析了投票行為與投票者屬性間的相關性,而這兩種基礎數據源對于研究而言都缺一不可。[48]
其三,采取多元化的研究方式,如大數據與小數據研究方法的融合,以填補文書數據與司法實踐間的罅隙。裁判文書只是一種不完全忠實于司法實踐的文字記錄。因此,基于裁判文書的大數據法學研究應以多種方法展開,而非只立足于單純的大數據解讀。數據分析在進行整體性描述時獨具優勢,但其缺陷在于單體價值低,甚至會忽視個體。且大數據往往更會忽略數據背后的政治、社會及司法制度等多重背景,在樣本分析時無法做到如“深描”般充分細致,往往不足以反映研究對象的全貌、深貌。長期以來,基于小數據的法律實證研究一直是主流研究方式,研究者一般通過調查和深度訪談來獲取定性數據。研究者對于小數據內容的挖掘和分析往往得益于其內容的細致和有用,而得以深入到極致的程度,這種研究方法因而具有不同于大數據研究、但同樣重要的學術價值。因此,大數據研究的來臨并不會徹底取代小數據研究。當下的大數據研究在數據不足、技術運用不深入的情況下,更應該與小數據研究相結合,共同驗證研究結論。一方面,小數據研究的精細化思路與方法能夠將大數據研究細致化,另一方面,大數據資源的豐富性則會提升小數據的科學性。兩者相輔相成,共同提升了研究的價值。這就要求研究者不僅要留意裁判文書背后的隱藏信息[49],也要走出裁判文書數據,主動地、有目的地收集小數據,進行相關訪談,以核實、校正大數據背后的信息。如筆者曾在對非法證據排除規則的實證研究中得出了法庭對所涉證據的合法性進行調查的案件占申請案件數的40%-50%這一數據,即在約一半左右的案件中法庭并未開展合法性調查。在對法官進行訪談后,筆者發現隱藏在該數據背后的一個重要原因是現階段法官不希望被告提出排非申請,因此實踐中傾向于通過“做工作”的方式勸解當事人不申請或撤銷排非申請,即使提出申請法官也只是酌情進行調查。[50]在其他多次實證研究中,筆者也都采用了類似的當面訪談的調查方式。[51]
其四,應當充分認識并利用大數據資源在發現新問題、創建新理論上的潛力。大數據研究并不等同于數據統計的經驗式研究,缺乏理論深度的事實性描述、脫離了抽象理論的數據調查與乏味的調查報告無異,遠非學術研究所追求的終點。因此,我們應當重新審思數據與理論之間存在的張力。大數據法學研究首先是實證研究的一種新形式,關于實證研究的意義探討對于我們理解大數據研究有一定的啟發。如域外學者Fischman曾闡釋過實證研究對于法學理論發展的重要意義,他指出,重要的實證研究能夠引導法律改革,或能描述重要的、與法律有關的現象,或有助于理論之發展。[52]有的國內學者則具體舉出了法律實證研究可能的四種法學作用:一是作為規范論證的實然基礎;二是衡量法律的實效;三是描述法律論證與法律現象;四是發掘法制度相關行動者(如法官、律師)的行為模式。[53]換言之,實證研究所依賴的經驗事實在被用于對法律現象或規律的闡釋之基礎上,也潛在地為后續的理論構建提供了充分客觀的理據。大數據研究同樣具有上述意義。
更重要的是,以司法大數據為基礎的法律實證研究還具有傳統的實證研究所不具有的獨特價值,其具有的種種特征,如信息海量性、連續性、權威性及中立性等為自身贏得了相較于以往實證研究更為巨大的潛力空間,開拓了法學研究最前沿的問題域。如大數據所具有的空前規模這一特征便使得法學研究不再拘泥于傳統的研究對象和素材,某些類型的研究也因此成為可能,例如對稀有事件的研究、對細微差異的發現等等。于是我們完全可以在未來的大數據研究中考慮這樣一種新的思路:借助數據來發掘現實中的新問題,而非以既有問題為出發點甚至直接預設研究結論。一個很好的例子是國外學者使用了主題模型(topic modeling)這一無監督機器學習技術分析了從裁判文書網上獲取的20321份河南省法院行政庭裁判文書。以往的官方的統計數據,即中國法律年鑒只將行政訴訟案件劃分為12個基本類型,無法反映出案件中的訴訟主張或涉案當事人類型等信息,而他們研究中所使用的主題模型程序自行將樣本案件劃分出了4個大目錄下的50個小主題。在分析了各案件主題出現的頻率及其彼此間的聯系程度,并對部分裁判文書進行了細致研讀之后,他們發現了一些無論是官方數據、新聞報道或是過往學術研究都不曾揭露過的現象和問題:如傳統觀點只是主張典型的“民告官”案件在行政訴訟中占比重較大,而他們的研究除證實了這一點外,還發現政府本身也是率先觸發行政法的積極使用者;如在22個小主題中都呈現出一種“案件串”(cases strings)的奇怪現象,即同一主題下有多個代表性案件實則涉及的是同一個爭議事件,例如在交通罰款這一主題下,有10個典型案件都牽涉到同一原告對由鄭州交警大隊所罰一系列款項所提起的訴訟;還比如在河南省范圍內由企業提起的行政訴訟及有關環境污染的行政訴訟案件數量都一反常態的稀少。在此基礎上,他們總結道,主題模型這一無監督的機器學習工具不僅可以幫助我們“質疑及修正被廣為接受的觀點”,還能很好地“激發研究問題”。[54]質言之,大數據如果以恰當的方式被研究者所收集并充分挖掘其價值,數據分析結果便極有可能呈現出客觀世界中尚未被揭露的真實及其隱藏的規律,由此,既有的理論可以被驗證或是推翻,新的理論突破會在嶄新的經驗事實基礎上產生。
縱觀學術發展的歷史,隱藏在一座座令人嘆為觀止的學術高峰背后的是學者們一步一個腳印的攀登。作為新興的法學研究范式,大數據法學研究一方面為法學界打開了一扇潛力無限的大門,一方面也考驗著進入者迎接挑戰的能力。面對著裁判文書網等大數據平臺為中國法學研究提供的空前機遇,研究者不妨緊跟時代,大膽嘗試新的研究范式,在挫敗中尋求改良,在變革中推陳出新,共同促進大數據法律研究欣欣向榮的發展。原載《華東政法大學學報》2020年第2期