大數據不僅是人們獲得新認知、創造新價值的源泉,還是改變市場、組織機構,以及政府與公民關系的方法。[1]十八屆五中全會《中共中央關于制定國民經濟和社會發展第十三個五年規劃的建議》強調,促進互聯網和經濟社會融合發展,實施國家大數據戰略,推進數據資源開放共享。隨著國家大數據戰略的實施,大數據對檢察理論研究及檢察實踐也產生了潛移默化的影響[2]。以新思維、新技術應對海量數據的沖擊,管理、開發和應用好檢察文獻,才能更好地為檢察理論研究和檢察實踐提供有力文獻支撐。
一、數字化檢察文獻的大數據屬性
(一) 大數據的主要特征
隨著云計算等技術的興起,以及微博、微信等新型信息發布方式的不斷涌現,數據以其前所未有的速度不斷增長、累積,并改變著人類的思維、生產、生活和學習的方式。大數據與傳統數據的關系可以比作“大海”之于“魚塘”。[3]目前學術界雖然對大數據的定義及特征尚未達成一致,但基于這一類比,大數據的主要特征主要有規模性(Volume)、多樣性(Variety)、高速性(Velocity)及價值性(Value)。
1. 規模性。大數據之所以稱之為“大數據”,最直接的原因就在于數據的規模性。以計算機的CPU 和數據存儲技術水平而言,傳統數據庫的處理對象通常以MB、GB為基本單位;而大數據面對的基本處理單位要以TB ( 1024GB) 及以上的單位來表明數據量。
2. 多樣性。傳統數據庫處理對象的數據類型較為單一,僅有一種或少數幾種,且通常為以0和1為表現形式的二進制數據;而大數據面對的數據類型繁多,不僅包含傳統的數據,還包含來自網頁、互聯網日志文件、搜索索引、社交網絡、主動和被動系統的傳感器數據等結構化、半結構化以及非結構化數據,且以后兩者居多。
3. 高速性。大數據時代數據處理要求高速性,即要在很短時間內給出分析結果,以便從各種類型的數據中快速獲得高價值的信息。大數據的高速性要求科學研究的思路必須從以計算為中心轉變到以數據處理為中心,形成所謂的數據思維。[4]這種研究思路的變化必將帶來研究方法的變革。
4. 價值性。價值性體現了大數據研究的真實意義。大數據的研究工作實質是將信號轉化為數據,將數據分析為信息,將信息提煉為知識,以知識促成決策和行動的過程。但是在海量的數據面前,價值具有稀缺性——數據規模越大,真正有價值的數據與數據規模相比而言卻較少,以偵破案件中視頻批量數據為例,在連續不斷的監控過程中,可能有用的數據僅僅有一兩分鐘。
(二)數字化檢察文獻的內涵與分類
國家標準《文獻著錄總則》中將“文獻”定義為“記錄有知識的一切載體。” 檢察文獻屬于文獻的一種,指記錄檢察知識和信息的一切載體。數字化檢察文獻則是以數字形式存儲的檢察文獻,網絡用戶借助互聯網,可以不受時間和場所的限制,在很短時間內來檢索和使用它們,大大提高了工作效率。
根據文獻內容、性質和加工情況可將文獻分為:零次文獻、一次文獻、二次文獻、三次文獻。其中,零次文獻是指記錄在非正規物理載體上的未經任何加工處理的源信息;一次文獻指以作者本人的研究成果為依據而創作的文獻,如期刊論文、研究報告、專利說明書、會議論文等;二次文獻是對一次文獻進行加工整理后的產物,如目錄、文摘等;三次文獻是指對有關的一次文獻、二次文獻進行廣泛深入的分析研究之后綜合概括而成的產物,包括綜述、專題述評、學科年度總結以及文獻指南等。
根據文獻的分類可以將數字化檢察文獻分為零次檢察文獻、一次檢察文獻、二次檢察文獻和三次檢察文獻(以下將一次、二次、三次檢察文獻統稱為非零次檢察文獻)。
目前,專業化程度較高的商業性文獻數據商已將有些檢察類圖書、大多數檢察期刊和檢察碩博士論文等非零次檢察文獻進行了數字化,用戶可以購買使用。與之相比,零次數字化檢察文獻的開發與利用則較薄弱。但是非零次文獻一直受到學術界的極大關注,只是由于零次文獻數量龐大、形式豐富、分布零星,且處在未經加工的原始的無序狀態,往往得不到人工物化[5]。然而,隨著互聯網的普及和發展,越來越多的專家學者意識到零次文獻的重要性。根據《科學引文索引》(SCI)的論述和有關情報機構的評估資料顯示,零次文獻在整個信息源中所占的比例已經超過20%,而且還處于上升態勢[6]。在大數據背景下,網絡傳播中具有檢察知識的大量原生態文獻均可視為零次檢察文獻,如微博、微信等社交媒體為人們表達意志和意見提供了平臺,是社會輿論的主要載體,能夠反映人們對檢察工作的態度,都可成為零次檢察文獻的重要來源。但是,網絡中隨意關于檢察的只言片語,不屬于零次檢察文獻,也不是前文獻形態,因為這些信息不含潛在價值,無法成為檢察文獻。
(三)數字化檢察文獻與大數據的關系
隨著云計算等計算機技術和通信技術的發展,在我國全面深化司法體制改革的現實背景下,以數字形式記載和傳承檢察知識和文化的檢察文獻的數量在不斷增加。
就非零次檢察文獻來說,圖1展示了1980-2015年中國知網收錄的文獻中篇名中含有“檢察”的文獻數量,可以看出非零次檢察文獻數量增長可以分為四個階段,即緩慢增長的初始階段、指數增長階段、線性增長階段和緩慢增長階段。
圖1 1980-2015年中國知網收錄的篇名含有“檢察”的文獻數量
然而,與非零次檢察文獻增長情況不同,零次檢察文獻的增長,尤其是在大數據背景下,隨著“人人都是自媒體”特征的不斷顯現,其數量的增長呈現“井噴態勢”。例如,通過百度搜索引擎以“檢察”作為關鍵詞,截止2016年6月28日,最近一年、最近一月、最近一周平均每天發布信息數量分別為22.99、186.67、350.00萬條。該結果一方面表明與檢察相關的零次文獻數量遠高于非零次文獻數量;另一方面也體現出與檢察相關的零次文獻數量增長速度遠高于非零次文獻。顯然,零次檢察文獻具備大數據特征中的規模性。另外,網絡上零次檢察文獻的信息形式包括文字、圖片、視頻、音頻等等,且格式也各有不同;并且相同信息在不同網站重復出現,從而導致有價值的信息被淹沒在大量的重復信息之中。由此可以看出,零次檢察文獻同時具備大數據的多樣性和價值性特征。
在大數據背景下,綜合數字化檢察文獻開發與利用的現狀、需求及未來發展趨勢,數字化檢察文獻價值提升要通過對零次和非零次檢察文獻分別進行較為深入的數據挖掘,實現文獻資源的二次開發;最終目標是數字化檢察文獻的統一開發與利用,不僅能實現零次及非零次檢察文獻信息底層數據采集、存儲的統一管理,還能實現零次及非零次檢察文獻數據信息的交叉共享,從而為研究者提供全方位、一站式檢察文獻綜合服務。下文將分別闡述非零次數字化檢察文獻和零次數字化檢察文獻的開發與利用,以及二者的統一開發與利用。
二、大數據背景下非零次數字化檢察文獻的開發與利用
為實現從簡單檢察文獻增值服務到檢察文獻深層價值提升的轉變,將檢察文獻加工生產成知識資源,依據用戶需求和服務場景再組織,然后提供給用戶,促進用戶對檢察知識的理解和創新,本文參考中國知網、萬方數據、維普期刊等國內知名學術網站的相關研究成果,提出了非零次數字化檢察文獻數據挖掘體系,如圖2所示。
圖2 非零次數字化檢察文獻數據挖掘體系
(一)研究進展
研究進展是以用戶輸入的和“檢察”相關的搜索詞作為關鍵詞,從兩個方面進行分析:一是按照發表時間進行排序,以便用戶查找最早及最新研究成果,從而為研究檢察理論和檢察實踐問題的演進歷程提供文獻支撐。二是統計含有該關鍵詞的文獻其本身的關鍵詞及其數量,從而體現基于該關鍵詞的研究分類,為了解與該檢察理論和檢察實踐問題相關的理論體系提供基礎。因此,在“研究進展”模塊下研究者可以得到早期檢察文獻排名、最新檢察文獻排名以及核心詞匯列表。
(二)學術影響力
學術影響力是以用戶輸入的和檢察相關的搜索詞作為關鍵詞,從兩個方面進行數據統計:一是統計篇名中含有該關鍵詞的檢察文獻的被引數量,從而體現該類研究的學術影響力。二是統計篇名中含有該關鍵詞的檢察文獻下載數量,從而體現對該類研究的用戶關注度。因此,在“學術影響力”模塊下,研究者可以得到與查找內容相關的經典檢察文獻和熱點檢察文獻。
(三)分布概況
分布概況是以用戶輸入的和“檢察”相關搜索詞作為關鍵詞,從四個方面進行數據統計:一是統計篇名中含有該關鍵詞的檢察文獻在各年度的分布情況。二是統計篇名中含有該關鍵詞的檢察文獻在各類學科的分布情況。三是統計篇名中含有該關鍵詞的檢察文獻在各類期刊的分布情況。四是統計篇名中含有該關鍵詞的檢察文獻在各類機構的分布情況。因此,在“分布概況”模塊下研究者可以得到與查找內容相關檢察文獻的年度分布、學科分布、期刊分布和機構分布情況。
(四)相關學者
相關學者是以用戶輸入的和“檢察”相關搜索詞作為關鍵詞,按照相關檢察文獻發表時間、被引次數進行排序,以便用戶查找最早及最受關注檢察文獻的作者。此外,按照檢察文獻發文數量進行排序,以便用戶查找發文數量最多的作者。因此,研究者可以得到與查找內容相關的早期學者排名、學者熱度排名以及檢察文獻發文量排名。
通過上述對非零次數字化檢察文獻的挖掘,可以幫助研究者從不同的角度了解相關檢察理論和檢察實踐問題的研究歷史和現狀、研究的熱度和分布情況,以及該類檢察理論和檢察實踐研究中的代表人物,從而為檢察理論和檢察實踐研究工作的開展提供有力且可靠的檢察文獻支撐。
三、大數據背景下零次數字化檢察文獻的開發與利用
與非零次數字化檢察文獻不同的是,來自互聯網大數據背景下的零次數字化檢察文獻則有不同的價值:零次檢察文獻具有原生性,是人們真實意愿的直接表現;零次檢察文獻具有極強的時效性,能夠及時反映當前的最新熱點及動態;零次檢察文獻具有一定的預示能力,信息直觀表述的背后可能預示著某種尚未所知的機理;零次檢察文獻具有廣泛性,為跨領域研究提供了思路。
基于非零次數字化檢察文獻的價值,可以為研究者多方面了解信息、掌握大眾意見、聽取不同聲音提供平臺,但對于具有大數據屬性的零次數字化檢察文獻,由于其體量大、速度快、形式多、難識別等特征,則需要用與非零次檢察文獻開發與利用不同的方式,利用新興的網絡爬蟲技術、API接口技術等方式采集和挖掘相關的檢察文獻網絡數據信息:其一是網絡爬蟲技術。在互聯網中,網頁之間通過超鏈接彼此相連,形成一個巨大的有向圖。理論上,網絡爬蟲以Http請求的方式獲取初始的和檢察文獻相關的互聯網頁面,并以此作為初始節點,根據網頁之間的鏈接關系找到其他網頁,周而復始,從而實現全網信息的自動抓取功能。然而,在實際應用中,往往不可能爬取到互聯網上和檢察文獻相關的所有數據。通常采用廣度優先、深度優先、最佳優先等搜索策略。其二是 API接口(應用程序接口,Application Program Inerface)。API接口是一組定義、程序及協議的集合,為了供第三方開發者使用,很多互聯網公司將自己的網站服務封裝成一系列API,如新浪微博、Facebook、豆瓣等。用戶無需龐大的硬件與技術投資就可以方便的借助API接口通過二次開發方便地獲取各類數據信息,如微博博文、發布時間、地理位置、博主信息、關系信息等,以便進行深入分析研究。與爬蟲軟件相比,使用API接口雖然不需要逐個頁面的爬取,獲取信息更加方便、準確、快捷。但是API開放者對資源訪問進行了一系列的設置,如新浪微博對不同用戶等級的訪問接口權限及頻率都進行了限制。因此,采用兩者結合的方式可以更加有效的獲得相關零次數字化檢察文獻數據[7]。
在大數據背景下零次數字化檢察文獻在互聯網上的來源主要有博客、微博、微信、維基、播客、論壇、內容社區等社會化媒體,本文主要以微博數據為例來闡述零次數字化檢察文獻挖掘體系(如圖3所示),其原因在于:其一,微博用戶基數大,由于功能便捷等特征,微博自其推出便得到了廣泛應用,截止2016年6月微博用戶規模已達到2.42億,這是除微信之外其他社會化媒體無法企及的;其二,微博實時性強,與微信私密的社交屬性不同,微博具有媒體屬性,單向跟隨機制使得信息的獲取和分享更為便捷,從而加速了信息的流動,其實時性和現場感甚至超過了其他任何媒體;其三,微博信息可采集,通過網絡爬蟲技術和API接口方式用戶可以獲得所需的各類微博信息,相比之下微信由于點對點通信的私密性及對PC端支持的有限性,使其難以獲得全面的信息。
圖3 零次數字化檢察文獻數據挖掘體系
(一)發展脈絡
發展脈絡以用戶輸入的和“檢察”相關的搜索詞作為關鍵字,通過“爬蟲軟件+API”接口的方式爬取得到微博數據后,對相關微博發布時間及地域分別進行分析,以了解微博用戶對該和“檢察”相關的事件關注程度隨時間的變化情況,從而通過關注度的變化反推關鍵時間節點,找到其背后的影響因素。因此,研究學者可以得到事件關注度的時間走勢分析和地域分布情況。
(二)核心詞匯
核心詞匯以用戶輸入的和“檢察”相關的搜索詞作為關鍵字,爬取得到微博數據后,對微博進行分詞并提取相關核心關鍵詞,然后按照用戶指定時間間隔進行分析,通過情感傾向研究把握輿論動向及關鍵轉向點。因此,研究者可以得到與查找內容相關的分段熱詞和全部熱詞。
(三)博主類型
博主類型是以用戶輸入的和“檢察”相關的搜索詞作為關鍵字,爬取得到微博數據后,分類統計微博博主在新浪中的用戶類型,如個人認證、企業認證、機構認證或非認證用戶等,并對各種類型的博主的相關微博數量進行統計,從而為分析不同類型微博博主,尤其是檢察機構在輿論演化過程中起到的作用提供依據。因此,研究者可以得到與查找內容相關的微博博主類型、參與程度以及檢察類博主參與度。
(四)傳播范圍
傳播范圍是以用戶輸入的和“檢察”相關的搜索詞作為關鍵字,爬取得到微博數據后,對微博博主的粉絲數以及該條微博的轉發數分別進行統計,以便了解事件傳播路徑,對關鍵節點進行深入分析。因此,研究者可以得到與查找內容相關的微博博主粉絲數量排名和微博轉發數量排名。
(五)感染效果
感染效果是以用戶輸入的和“檢察”相關的搜索詞作為關鍵字,爬取得到微博數據后,對微博的點贊數及評論數進行統計,以便了解不同博主的微博對粉絲的影響力。因此,研究者可以得到與查找內容相關的微博點贊數排名及評論數排名。
通過對上述指標的統計分析,可以幫助研究者從多個角度了解一定和“檢察”相關事件的發展情況,掌握輿論在人際網絡中的擴散及變化過程,為理性分析事件、深入探尋機理提供文獻基礎。
四、大數據背景下零次與非零次數字化檢察文獻的統一開發與應用——以“雷洋”案件為例
對檢察文獻資源的整合與分析是開展檢察理論和檢察實踐研究的基礎和前提條件。在大數據時代數字化檢察文獻激增的背景下,研究者基于個人的、非專業化的,且針對有限文獻資料的整理分析,往往導致研究學者在開展學術研究中一方面要從事大量的前期文獻準備工作;另一方面其艱難探索的結果也未必準確,例如不同學者觀點之間的沖突等。因此,圖書情報單位應以零次與非零次數字化檢察文獻的統一開發與應用為核心,在實現各類數字化檢察文獻資源無縫鏈接的基礎上,構建智能知識管理網絡和個性化用戶管理體系,為研究者提供由點到面、全方位、立體化的一站式文獻綜合服務。下面以“雷洋”案件為例來看數字化檢察文獻的統一開發與應用。
“雷洋”案件件簡介:雷洋,男,湖南澧縣人,中國人民大學環境學院2009級碩士研究生。2016年5月7日晚,雷洋離家后身亡,昌平警方通報稱警方查處足療店過程中,將“涉嫌嫖娼”的雷某控制并帶回審查,此間雷某突然身體不適經搶救無效身亡。[8]
(一)以“零次檢察文獻數據挖掘體系”挖掘“雷洋”案件中不同主體涉及的核心法律詞匯
本文以“雷洋”作為關鍵詞,利用爬蟲軟件并結合網站API接口,爬取2016年5月9日-7月3日新浪微博信息共329條,內容包括微博正文、發布時間、發布用戶ID及昵稱、微博轉發及評論數等直接數據,并在此基礎上進一步抓取所需的關系數據,如粉絲用戶信息、轉發或評論用戶信息等。在獲得上述數據信息之后,借助“零次檢察文獻數據挖掘體系”中“核心詞匯”分析模塊,對數據信息進行分詞、清洗,可得到如圖4所示核心詞匯圖譜,并將其按照主體進行初步分類后得到如表1所示的結果。
圖4 “雷洋”案件核心詞匯
表1 “雷洋”案件中不同主體涉及的核心法律詞匯
從表1可以看出“雷洋”案件中不同的法律主體以及其可能涉及的主要法律問題。借助“非零次檢察文獻數據挖掘體系”中“研究進展”模塊下的“核心詞匯”功能以及“零次檢察文獻數據挖掘體系”中“核心詞匯”分析模塊可以得到零次及非零次檢察文獻關于“雷洋”案件的核心詞匯,進而為司法者及研究者理清“雷洋”案件所涉及的法律關系,查找相關文獻提供關鍵詞。
(二)以“非零次檢察文獻數據挖掘體系”理清“雷洋”案件所涉“嫖娼”問題的研究發展脈絡
在“雷洋”案件中,如果研究者要研究“嫖娼”問題發展的歷史脈絡,就可以借助“非零次檢察文獻數據挖掘體系”除可得到“早期文獻”、“最新文獻”以及“經典文獻”外,利用其中“分布概況”模塊下的“年度發文量”及“研究進展”模塊下的“核心詞匯”功能可以得到關于這一問題歷史關注情況,如圖7所示。
(a)年度數量分布及增長率
(b)年度核心詞匯
圖5 與“嫖娼”相關文獻的歷史情況
圖5表明針對“嫖娼”的問題研究在不同的歷史背景下所探討的重點不同,從而可以幫助研究者理清“嫖娼”問題的研究發展脈絡。
(三)借助“零次文獻數據挖掘體系”理清“雷洋”案件的發展歷程:為檢察機關輿情監控及輿論引導提供參考
在“雷洋”案件中借助“零次文獻數據挖掘體系”可以更清晰的理清事件的發展歷程,從多方位、多角度審視該案件。
利用“發展脈絡”模塊下的“時間脈絡”功能可以對新浪微博中的相關微博數量進行統計,得到如圖6所示的結果。通過返溯微博內容可以找到推動事件發展的關鍵,如2016年5月9日雷洋事件首次曝光;5月10日微博上開始出現相關的報道;5月13日張惠芹教授擔任專家證人;5月19日北京市公安局通過微博發布雷洋案情況通報;6月1日北京市人民檢察院決定對涉案的警察立案偵查;6月8日北京檢方通報案件最新辦理進展;6月27日對雷洋尸體檢驗鑒定結論進行審查論證;7月1日北京市檢察院第四分院公布尸檢結果。
圖6 “雷洋”案件發展時間脈絡圖
利用“核心詞匯”模塊,如圖4及表1所示,可以了解輿論熱點及走向。
利用“博主類型”模塊下的“全體參與度”及“檢察類博主參與度”功能可以了解在事件發展過程中各類博主對事件的關注程度,如圖7所示。
(a)全體博主參與度
(b)檢察類博主參與度
圖7 “雷洋”案件新浪微博博主類型及參與度
利用“傳播范圍”模塊可以了解不同博主的影響范圍以及不同博文引起的粉絲轉發情況,如圖8所示。
(a)一次傳播范圍
(b)二次傳播范圍
圖8 “雷洋”案件新浪微博傳播范圍
利用“感染效果”模塊可以了解不同微博內容所引起的互動情況,從而體現博主的感染力,如圖9所示。
(a)認同度
(b)深層參與度
圖9 “雷洋”事件新浪微博感染效果
借助上述數據挖掘結果,研究學者可以深入分析“雷洋”事件傳播路徑及輿論走向,從而研究不同博主、不同微博內容對輿論的影響能力,為輿情監控及輿論引導提供參考。
結 語
大數據對時代的影響不言而喻,其與檢察理論與檢察實踐的融合趨勢也逐漸顯現,并帶來了一系列新的問題和挑戰。本文以大數據對數字化檢察文獻開發與利用的影響作為切入點,探討了如何針對大數據特征與時俱進開發與利用數字化檢察文獻的問題。筆者針對這一問題的思考,主要著眼于戰略路徑及技術實現。然而,檢察文獻的管理、開發與利用離不開人、財、物的支撐,需要一批既精通檢察業務又具有大數據思維、善于文獻管理的復合型人才;也需要具有云存儲和云計算能力的系統平臺等。只有將檢察文獻開發與利用好,才能為檢察工作科學發展提供更多的智力支持。