近幾年,大數(shù)據(jù)風(fēng)靡全球。大數(shù)據(jù)的研發(fā)與應(yīng)用,已在商業(yè)、公共管理等領(lǐng)域取得好成績。雖然從績效層面來看,大數(shù)據(jù)產(chǎn)品堪稱“里程碑式發(fā)展”的案例并不多,但在不少人眼中,大數(shù)據(jù)即將帶來的,不是里程碑,而是顛覆。當(dāng)下,各行各業(yè)熱炒大數(shù)據(jù),我國法律領(lǐng)域亦不例外。
一、我國法律大數(shù)據(jù)正處于數(shù)據(jù)準(zhǔn)備階段
大數(shù)據(jù)的研發(fā)與應(yīng)用,一般需經(jīng)5個階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)存儲與管理、計算處理、數(shù)據(jù)分析和知識展現(xiàn)。數(shù)據(jù)準(zhǔn)備是大數(shù)據(jù)應(yīng)用的起點,是對數(shù)據(jù)進(jìn)行清洗和整理的過程。主流觀點認(rèn)為,數(shù)據(jù)準(zhǔn)備和知識展現(xiàn)只是量上的積累,不需要根本性變革,當(dāng)前和未來一段時間,大數(shù)據(jù)技術(shù)創(chuàng)新的焦點在于存儲、計算和分析等3個環(huán)節(jié)。但這并不說明,數(shù)據(jù)準(zhǔn)備階段就可輕松拿下。以產(chǎn)銷速溶咖啡著稱的某跨國公司,其在中國的某一大數(shù)據(jù)研發(fā)計劃就流產(chǎn)于數(shù)據(jù)準(zhǔn)備階段。
法律大數(shù)據(jù)的數(shù)據(jù)準(zhǔn)備具體是,創(chuàng)建各類法律數(shù)據(jù)庫并共享,外接行政管理數(shù)據(jù)庫,甚至涵蓋互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等,實現(xiàn)全方位、多角度的數(shù)據(jù)抓取。這是一個較為圓滿的數(shù)據(jù)準(zhǔn)備狀態(tài),短期內(nèi)不可能全部實現(xiàn),需分階段進(jìn)行。但依據(jù)階段性的數(shù)據(jù)準(zhǔn)備,同樣可嘗試數(shù)據(jù)處理與分析,這可視為一種“邊準(zhǔn)備,邊分析”的發(fā)展模式。“邊準(zhǔn)備,邊分析”,似乎是法律大數(shù)據(jù)發(fā)展的必然模式,一方面可及時研發(fā)、應(yīng)用階段性成果,另一方面可為后續(xù)的研發(fā)與應(yīng)用積累經(jīng)驗。
當(dāng)下,我國法律大數(shù)據(jù)主要處于數(shù)據(jù)準(zhǔn)備階段。首先,公檢法三機(jī)關(guān)已依托各自的執(zhí)法司法職能,成功地開發(fā)出信息化業(yè)務(wù)應(yīng)用平臺,并在全國范圍內(nèi)鋪開使用,這基本完成了系統(tǒng)內(nèi)的數(shù)據(jù)準(zhǔn)備工作。但目前,這些信息化平臺主要用于實現(xiàn)傳統(tǒng)事務(wù)型數(shù)據(jù)庫功能,比如增加、刪除、修改、查詢、統(tǒng)計等,尚未全面開展數(shù)據(jù)挖掘工作,而且基本處于閉鎖狀態(tài),屬于一種自給自足的小農(nóng)經(jīng)濟(jì)模式。其次,依托裁判文書數(shù)據(jù)庫進(jìn)行更為精準(zhǔn)的案例檢索,是當(dāng)下法律服務(wù)業(yè)正在攻克的主要課題。比如CaseShare、無訟案例、OpenLaw等。這與商業(yè)大數(shù)據(jù)的發(fā)展軌跡十分類似:“谷歌等公司率先建立了覆蓋數(shù)十億網(wǎng)頁的索引庫,開始提供較為精確的搜索服務(wù),大大提升了人們使用互聯(lián)網(wǎng)的效率,這是大數(shù)據(jù)應(yīng)用的起點。”值得一提,我國法律大數(shù)據(jù)已呈現(xiàn)出“邊準(zhǔn)備,邊分析”的發(fā)展模式。比如,華宇軟件在司法專項大數(shù)據(jù)研發(fā)中,“持續(xù)研究文本挖掘技術(shù)和多媒體數(shù)據(jù)分析技術(shù),逐步建立了司法領(lǐng)域法律文書智能化分析與數(shù)據(jù)挖掘方面的優(yōu)勢地位”。比如,Rouse旗下的CIELA(China IP Litigation Analysis),可對我國主要法院的知識產(chǎn)權(quán)案件進(jìn)行初步統(tǒng)計分析。
二、我國法律大數(shù)據(jù)的瓶頸在于數(shù)據(jù)分析階段
與其他領(lǐng)域數(shù)據(jù)結(jié)構(gòu)不同,法律數(shù)據(jù),尤其公檢法系統(tǒng)內(nèi)數(shù)據(jù),主要是結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。這對數(shù)據(jù)的存儲與管理、計算處理等方面提出的要求均不高,近階段,我國法律大數(shù)據(jù)的瓶頸在于數(shù)據(jù)分析階段。
數(shù)據(jù)分析是指,或通過人工構(gòu)建數(shù)學(xué)模型,或建立人工智能系統(tǒng),分析數(shù)據(jù),挖掘隱藏在數(shù)據(jù)背后的隱性知識。數(shù)據(jù)分析是大數(shù)據(jù)研發(fā)應(yīng)用中的關(guān)鍵一環(huán),是大數(shù)據(jù)施展預(yù)測功能的實現(xiàn)方式。大數(shù)據(jù)之父維克托爾認(rèn)為,大數(shù)據(jù)的核心是預(yù)測,而實現(xiàn)預(yù)測的途徑是通過挖掘不同變量間的相關(guān)關(guān)系,揭示數(shù)據(jù)背后的隱性知識。比如,沃爾瑪超市通過分析顧客的購物清單發(fā)現(xiàn),購買啤酒的人通常還會購買尿不濕,颶風(fēng)季節(jié)POP-Tarts蛋撻的銷量也隨之增加,所以,沃爾瑪將啤酒和尿不濕、颶風(fēng)用品和蛋撻放在一起銷售,方便顧客,從而增加銷量。
法律大數(shù)據(jù)的數(shù)據(jù)分析具體是,通過分析法律相關(guān)數(shù)據(jù),挖掘隱藏在數(shù)據(jù)背后的司法規(guī)律。比如,史宇航博士認(rèn)為,通過對裁判文書中的“受理時間”和“落款時間”進(jìn)行數(shù)據(jù)挖掘,“可以計算出來(某一類型)案件審理的時間”,“至少可以幫助評估訴訟的時間成本。”再比如,華宇軟件在“職務(wù)犯罪偵查信息化解決方案”中提出:“通過匯集、分析、研究和利用各種信息資料,幫助辦案人員了解和掌握犯罪動向、特點及規(guī)律,通過信息引導(dǎo)偵查,研判偵查方向和偵查重點,實現(xiàn)職務(wù)犯罪偵查引導(dǎo),服務(wù)檢察機(jī)關(guān)的職務(wù)犯罪偵查辦案工作,有助于提高偵查效率,拓展偵查思路,提煉偵查方法,促進(jìn)偵查模式‘由供到證’向‘由證到供’的轉(zhuǎn)變。實現(xiàn)工作創(chuàng)新、辦案服務(wù)與科學(xué)技術(shù)的深度融合。”
目前,數(shù)據(jù)分析主要有兩條技術(shù)路線:一是憑借人的先驗知識,人工建模來分析數(shù)據(jù);二是建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,讓機(jī)器獲得從數(shù)據(jù)中提取知識的能力。筆者認(rèn)為,法律大數(shù)據(jù)遵循前一技術(shù)路線即可。雖然,通過機(jī)器學(xué)習(xí)實現(xiàn)人工智能誘惑力十足,而且近年來深度神經(jīng)網(wǎng)絡(luò)卓有成效,但是,機(jī)器學(xué)習(xí)實現(xiàn)難度大,而且網(wǎng)絡(luò)層數(shù)較多時會導(dǎo)致輸出結(jié)果風(fēng)險高,這與法律經(jīng)濟(jì)性、穩(wěn)定性、權(quán)威性等方面的要求均相沖突。實際上,法律大數(shù)據(jù)以結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)居多,通過“先驗知識+人工建模”足可實現(xiàn)司法規(guī)律的充分挖掘。
憑借先驗知識人工建模,需要法律團(tuán)隊和建模團(tuán)隊的精誠合作,這并不容易。單從法律團(tuán)隊方面來說:第一,法律團(tuán)隊需掌握一定的司法規(guī)律,并能通俗表達(dá),若無司法規(guī)律打底,建模團(tuán)隊“難為無米之炊”;第二,法律團(tuán)隊需掌握大數(shù)據(jù)的基本原理、主要技術(shù)路線、常用技術(shù)手段,這樣才能有的放矢,挖掘到更多的“弱相關(guān)數(shù)據(jù)”,為建模提供更多原料;第三,法律團(tuán)隊要能對大數(shù)據(jù)的輸出結(jié)果進(jìn)行科學(xué)合理的篩選,大數(shù)據(jù)重相關(guān)、輕因果,其輸出的司法規(guī)律是否科學(xué)、是否可行,均需法律團(tuán)隊嚴(yán)格把關(guān)。
三、法律大數(shù)據(jù)的禁區(qū)在于個人隱私和因果推理
首先,“不能任由大數(shù)據(jù)運用在法外任性‘裸奔’,……涉及個人隱私的法律保護(hù)必須提上議程”,這已引起不少主流媒體的關(guān)注。大數(shù)據(jù)可能侵犯個人隱私,是因為大數(shù)據(jù)在處理大量碎片化、弱相關(guān)的數(shù)據(jù)時,會產(chǎn)生鑲嵌理論效應(yīng),即,“信息拼版的價值高于其組成部分各自價值的總和”。同于其他大數(shù)據(jù),法律大數(shù)據(jù)不可侵犯個人隱私,這是法律大數(shù)據(jù)在價值層面上的禁區(qū)。
其次,止步于因果推理,應(yīng)是法律大數(shù)據(jù)在技術(shù)層面上的禁區(qū)。大數(shù)據(jù)能呈現(xiàn)變量相關(guān)程度、預(yù)測事物發(fā)展趨勢,但這種“相關(guān)程度”不代表因果關(guān)系,只是一種或然的、間接的關(guān)聯(lián);預(yù)測趨勢不代表必然走向,只是一種蓋然性的判斷。這與統(tǒng)計概率的局限如出一轍,后者同樣只能呈現(xiàn)相關(guān)關(guān)系、不能揭示因果關(guān)系。這一特性極大限制了法律大數(shù)據(jù)--乃至人工智能--在司法領(lǐng)域中的應(yīng)用,比如,司法審判需謹(jǐn)慎使用大數(shù)據(jù)與人工智能。
最后,周濤教授在《大數(shù)據(jù)時代》的“譯者序”中引用了蘇珊·朗格的一段話,這值得每一個關(guān)注大數(shù)據(jù)的人深思:“某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題,所以,它們似乎將有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅速地抓住它們,作為進(jìn)入某種新實證科學(xué)的法寶,作為可以用來建構(gòu)一個綜合分析體系的概念軸心。這種‘宏達(dá)概念’突然流行起來,一時間把幾乎所有的東西都擠到了一邊”。來源《法律讀庫》