一、引 言
今天,計算機網(wǎng)絡和信息技術的迅猛發(fā)展大大地推動了社會的發(fā)展,它的影響和溯及力已經(jīng)遍布整個社會的方方面面,并且在法律領域逐漸顯示出強有力的優(yōu)勢,無論是對日常的司法業(yè)務處理,還是法學研究與司法辦案決策都賦予了新的方法和思路,越來越發(fā)揮著它的輔助支持作用。
然而面對著網(wǎng)絡中越來越錯綜復雜、難以描述的模糊問題和海量非結構化的數(shù)據(jù),如何滿足對其高效的查詢請求,以更低的成本、更準確的數(shù)據(jù)和更迅捷的速度作出正確的決策,是當前信息獲取和利用所面臨的關鍵問題。司法決策人員在查詢目標不很明確的狀況下選擇決策依據(jù)時,注重的是如何從浩如煙海的數(shù)據(jù)中快速地調出與案件相關的法律、法規(guī)及判例,而不是遍歷龐大的互聯(lián)網(wǎng)或數(shù)據(jù)庫資源漫無目標地搜尋。而目前大多數(shù)網(wǎng)絡搜索引擎和信息獲取工具是基于檢索提問式關鍵詞匹配技術,在檢索的過程中常常出現(xiàn)的兩類主要問題是“信息過載”和“內容不匹配”。前者指在檢索過程中系統(tǒng)返回的信息量過多,與查找相關或不相關的內容都冒出來,使用戶應接不暇,難于接受;后者指因對同一個概念的表述出現(xiàn)多義、歧義,返回的信息并非用戶真實的查詢意圖和內容,查準率和查全率都得不到保證。
要解決網(wǎng)絡環(huán)境中上述信息獲取存在的問題,實現(xiàn)真正意義上的面向法律領域的知識檢索,從理論層面上,必須構建以法律領域知識為基礎的用于語義檢索的元數(shù)據(jù)標準,用來對網(wǎng)頁中的相關信息標引和知識抽取,以便將用戶查詢請求準確地與網(wǎng)頁上查詢的法律知識目標相匹配;這就要求我們對來自網(wǎng)頁或數(shù)據(jù)庫的法律信息進行整理、組織和特征分析,依據(jù)法律領域專家所設計的法律信息規(guī)范標準,建立可利用和共享的法律知識單元和元數(shù)據(jù),以達到智能和準確的語義檢索,實現(xiàn)面向法律領域的知識獲取,為司法業(yè)務信息化和司法決策信息化提供更加有力的支撐。
二、法律信息資源的構成與語義特征分析
(一)法律信息知識單元的組織
一般來說,在法律文獻中的知識內容是由若干個知識單元組成,知識單元之間的結構關系是相對固化的。用戶在網(wǎng)上查找其中的知識時,只能按照編者事先組定的線性方式讀取,即使只想獲取其中某一部分事實或數(shù)據(jù),也要在獲取全文的基礎上根據(jù)需要逐個篩選,這顯然不能滿足用戶的實際需求。如果能將這種線性的知識塊( 文獻) 分解為各種面向用戶問題域或基于事實域的認知層次的活化知識單元,并將這些知識單元予以激活,重新組合、聯(lián)結、轉化為特定環(huán)境、特定需要的知識,將大大提高法律文獻知識的利用率與共享性。因此,對于網(wǎng)頁中法律文獻資源及其知識內容進行有效的提煉、整序和知識單元的組織,進而對其分析和特征標引,實現(xiàn)按用戶問題域的語義檢索,就成為網(wǎng)絡環(huán)境中法律知識獲取的關鍵。
通常的法律信息主要包括:法律公文(含司法文書)、文獻,法律、法規(guī)、司法解釋,司法案例、判例,司法證據(jù)以及相關的聲音、視頻、圖像等多媒體資料。按照司法領域慣用劃分,可以將法律信息根據(jù)其性質、作用或所屬部門法系進行知識層次和知識單元的組織:
第一層,是對法律信息公共資源進行一般性、概括性的描述,通常適用于描述供歸檔的法律公文(法律文件、法律法規(guī)、司法文書等)信息,由一組抽象出來的專業(yè)術語表征,基本上可以羅列出如下若干項:發(fā)文編號、發(fā)文機構、文件名稱、主題、摘要、發(fā)布日期、發(fā)布范圍、使用語言、事件、關聯(lián)、密級、有效性等(可用“元數(shù)據(jù)”描述)。
第二層,可以從法律信息的應用角度(性質或適用領域等),對法律信息的知識單元進行組織和描述,例如,把它們分為刑事類、民事類、行政類、海事類;或者分為起訴類、判決類、合同類、公告類;還可以把它們分為:法律、法規(guī)與判例、案例;形成針對不同問題域和檢索目標的知識維。
第三層,則依據(jù)具體信息內容進行概念的抽象和描述,通常可以針對法律公文的主題、內容摘要以及描述具體案件、事實的信息(往往用若干個關鍵詞描述),例如,罪名、事由或案情簡介,并定義其下屬概念、內容和相關的屬性及關系,又如,案情摘要中的主要關鍵詞,原告、被告、被害人及其姓名、性別、年齡、身份、特征等。通常第三層信息較零散、模糊、不規(guī)范、難以描述,例如:案情摘要中的犯罪動機、造成的危害及后果等。歸納起來,面向案件事實的法律公文包含的知識主要有:
(1) 法律文獻信息。記錄不同用途的司法文獻的基本信息,例如,發(fā)文編號、發(fā)文機構、編制者、文件名稱、文件類別、主題、摘要、發(fā)布日期、發(fā)布范圍,使用語言、事件、事件關聯(lián)、基本格式等。
(2) 機構或個人信息。記錄與案件事實相關的司法機構、法人、被告、原告、被害人等的基本信息,例如,法人的姓名、性別、年齡、職務、單位、地址等。
(3) 事件信息。記錄司法事實發(fā)生的詳細經(jīng)過信息,例如,事件發(fā)生時間、地點,相關者、事件后果及結論等。
(4) 犯罪信息。記錄罪行的基本信息,例如,罪名、犯罪人、被害人、動機、情節(jié)、原因、危害后果、處罰情況等;進一步將這些抽象出來的概念整理,找出它們之間的邏輯關系。以法律公文的判決書為例,從第一層所描述的司法文書的名稱、主題、摘要中可以抽出下層有關罪行、犯罪性質和犯罪事實信息,再進一步尋根索驥,調出犯罪人、犯罪動機、作案經(jīng)過、犯罪后果以及判決結果等詳細說明信息,這些又直接與罪行相適應的法律條文和判例相關聯(lián)。由此,就形成了一個依據(jù)描述法律事實的司法文書而搭建的語義關系網(wǎng)絡(如圖1 所示)
圖1 法律信息的語義關系網(wǎng)絡圖
(二)法律公文的語義特征目前,隨著司法領域信息化、數(shù)字化的推進,國內司法界已對各類法律信息進行了較細致的劃分,并制訂了統(tǒng)一、規(guī)范的格式,形成了標準范本(可參考最高人民法院、最高人民檢察院發(fā)布的法律公文格式、規(guī)格書等),這為網(wǎng)頁上法律信息知識單元的組織和法律知識的抽取,進而構建法律信息元數(shù)據(jù)搭建了良好的基礎平臺。例如,我們可以用反映法律案件、事實的司法文書(起訴書、判決書、合同等)作為分析對象,描述它的基本格式,抽取各部分的關鍵詞及其語義特征,按照這些關鍵詞在網(wǎng)頁文檔中各部分出現(xiàn)的頻率、位置關系和權重進行標引,檢索出其在相關網(wǎng)頁上的法律、法規(guī)、案例和判例。
網(wǎng)頁發(fā)布最普遍的法律信息多為文本形式,而以法律事實、案例為主線的法律文本則主要為法律公文,所以,本研究重點是對反映法律事實案例的法律公文進行分析和討論。
盡管各類法律公文的內容不一,但它們的基本形式是相似的,與其他文檔相比具有顯明的格式。
由此,可以將網(wǎng)絡環(huán)境中非結構化的法律信息轉化為較規(guī)范的結構化的數(shù)據(jù)格式,進而,構建出用來實現(xiàn)語義檢索的法律信息元數(shù)據(jù)及其可標引、分類的主題關系詞表的大致框架。
三、法律信息語義檢索的構架
(一)法律主題關系詞表的設計
按照前述知識組織體系的劃分,主題關系詞表在領域知識單元中扮演著極其重要的角色,是一種主題檢索系統(tǒng)所用的檢索詞的有序化詞匯表,能夠表達自然語言之間語義關系的、有標引和提供各種查詢途徑的詞或詞組。作為一種將網(wǎng)絡資源和信息用戶的自然語言轉換為規(guī)范化語言的工具,主題關系詞表在文獻標引和信息檢索等方面具有廣泛的應用。
為了實現(xiàn)本文所提出的基于法律本體的語義檢索意圖,我們依據(jù)最高人民法院發(fā)布的“人民法院公文主題詞表”〔1〕,對部分主題詞進行了分類編碼,并參照中國科學技術信息研究所編制的“綜合電子政務主題詞表(試用本)”〔2〕,設計了一套用于本研究檢索原型系統(tǒng)的法律信息主題關系詞表查詢模板(見表1):
法律信息主題關系詞表(樣例)在模板中,主題關系詞表自左至右體現(xiàn)了主題概念的樹形層次結構。第一列表示主題詞的所屬范疇,例如,“刑事”、“民事”第二列為歸類于左列范疇下的主題詞,例如,“刑事責任”屬于“刑事”范疇。第三列為與左列主題詞相關的概念,S-(屬)項,表示該詞的上位概念;F-(分)項,表示該詞的下位概念;C-(參)項,表示該詞的參考概念;T-(同)項,表示該詞的同義詞。第四列為左列包含的概念(特征詞),每一概念下又可繼續(xù)下分具體內容(如第五列)。例如,“刑事處罰” 屬“刑事”范疇,它的上層類屬(上位詞)是“處罰”,它的下層分類(下位詞)是“主刑”、“附加刑”、“勞動改造”,它的參考概念是“刑法”,它的同義詞是“刑罰”;而在其下層概念中又包含了更下層(下位)的概念,例如,“刑事處罰”的“主刑”中可包含“管制”、“拘役”、“無期徒刑”、“有期徒刑”、“死刑”等表示相關概念的特征詞,“死刑”中更具體的是“立即執(zhí)行”和“死緩”。
。ǘ┓尚畔⒃獢(shù)據(jù)的設計元數(shù)據(jù)被認為是一種用來描述數(shù)字化信息資源,特別是網(wǎng)絡信息資源的基本特征及其相互關系,從而確保這些數(shù)字化信息資源能夠被計算機及其網(wǎng)絡系統(tǒng)自動辨識、分解聚類和分析歸納( 即所謂機器可理解性) 的一整套編碼體系,它代表一組被廣泛認同的、能準確描述信息資源屬性和領域特點的最基本的元素,它通過對網(wǎng)絡資源數(shù)據(jù)的結構、內容、關系、條件和其他特征進行描述與說明,幫助人們有效地定位、組織、提取、分析和使用網(wǎng)絡資源數(shù)據(jù)。國際圖聯(lián)IFLA 對元數(shù)據(jù)的定義是:“元數(shù)據(jù)就是關于數(shù)據(jù)的數(shù)據(jù)(data about data),此術語指任何用于幫助網(wǎng)絡資源的識別、描述和定位的數(shù)據(jù)。”〔3〕公共資源基本元數(shù)據(jù)應能夠表述如下的信息:資源名稱、資源主題、資源標識、資源摘要、資源格式信息、關鍵字說明、空間范圍、時間范圍、資源使用限制、資源語種、資源類型、資源標識符、在線資源鏈接地址等信息。
通過對國內外元數(shù)據(jù)標準的研究和探索,本研究依據(jù)國際通用的元數(shù)據(jù)設計原則和法律公文的格式和語義特征,并參照國家電子政務標準化項目工作組的《政務信息資源目錄體系》的要求與其他專業(yè)應用領域元數(shù)據(jù)的編制方法,在都柏林DC 元數(shù)據(jù)的核心元素集〔4〕的基礎上作了一定的擴充、刪減和修改,設計了一套既能體現(xiàn)國際通用標準、又能反映法律公文特點的法律信息元數(shù)據(jù)模型,同時,保留了DC 中的限制屬性幫助理解各元素取值的含義。其中核心元素集包含了14 個基本元素:標題、創(chuàng)建者、主題、摘要、發(fā)布者、類型、格式、標識符、來源、語種、關聯(lián)、日期、覆蓋范圍、權限。另外,為了能更好地體現(xiàn)法律信息的特點,我們參照了部分特殊應用領域元數(shù)據(jù)標準,如“主題信息服務(ROADS)”、“政府信息定位服務(GILS)”和“教育對象元數(shù)據(jù)IEEE LOM”,對都柏林DC 元數(shù)據(jù)的基本元素進行了擴展和補充。例如,資源密級, 事件, 事件相關者(被告人、起訴人、被害人、證人、代理人等),審判機構,主題詞表等,并設計了法律信息元數(shù)據(jù)擴展元素集。下面表2、表3 給出了這套元數(shù)據(jù)中若干元素及其定義的基本樣例。
表2 法律信息元數(shù)據(jù)基本元素集(樣例)略
表3 法律信息元數(shù)據(jù)擴展元素集(樣例)
下面是參考“ROADS 模版”〔5〕設計的機構、個人、事件元素組,可以根據(jù)實際需要復用。
(1)個人元素組。
標識符(Id)、姓名(Name),部門(Dep),職務(Job-Title),地址(Address),電話(Phone),郵政地址(Postal),電子郵件(Email)。
(2)機構元素組。
標識符(Id)、名稱(Name),機構類型(Og-Type),所屬省、市、區(qū)(Zone),地址(Address),電話(Phone),郵政地址(Postal),電子郵件(Email),傳真(Fax)。
(3)事件元素組。
標識符(Id)、名稱(Name),類型(Type),性質(Fibre),人物(Person),原因(Cause),時間(Time),地點(Place),結果(Resule)。
四、法律信息語義檢索方法
(一)法律信息語義檢索的特點所
謂信息檢索(Information Retrieval),是指從大量的信息資源中查找出與使用者需求相關的內容。目前的信息檢索技術大致分為三類: 全文檢索(Text Retrieval)、數(shù)據(jù)檢索(DataRetrieval)和知識檢索(Knowledge Retrieval)。全文檢索和數(shù)據(jù)檢索從本質上說都屬于關鍵字匹配的檢索技術,這種基于關鍵字匹配或是基于學科分類的檢索工具之所以不能令人滿意,最主要的原因之一就是它們無法挖掘概念之間的內在聯(lián)系,搜索出更深層的含義,在查全率和查準率方面都有一定的局限性。而基于語義知識匹配技術的知識檢索,將傳統(tǒng)基于關鍵字的匹配技術上升為基于概念節(jié)點的知識匹配,增強了檢索的語義識別能力,其特點表現(xiàn)在:
(1)消除自然語言理解中的歧義,明確概念所屬范疇和涵義,提高信息檢索的查準率。
。2)在語義標引的基礎上進行語義推理,利用文獻的語義標注和概念集的語義關系及推理規(guī)則,從而挖掘出相關或隱含信息,實現(xiàn)智能檢索和知識組織,提高檢索結果的可用性。
。ǘ┓尚畔⒄Z義檢索模型依據(jù)對前述法律知識體系的分析與探討,本文提出了一個用于網(wǎng)絡環(huán)境下法律信息語義檢索的模擬解決方案,表述如下:
。1)由法律領域專家按照法律知識體系規(guī)范和司法實踐經(jīng)驗,組織法律信息各主題概念和與其相對應的知識、內容,按照本體的構建方法,建立層次豐富、語義清晰、關系明確的法律知識本體(主題關系詞表),并保存到相關的數(shù)據(jù)庫中。
(2)依據(jù)法律信息元數(shù)據(jù)及其標識機制對網(wǎng)頁上法律公文自動進行標引和分類,通過元數(shù)據(jù)建立法律公文主題詞與法律本體相關概念的映射關聯(lián),將關聯(lián)的主題詞及對應的網(wǎng)頁法律公文地址(URL)存放在指定的數(shù)據(jù)庫表中。
。3)根據(jù)用戶輸入的查詢請求關鍵詞,在已設計的“法律信息主題關系詞表”查詢模板中進行相關概念和上、下位概念的檢索,找出與之相關聯(lián)和匹配的主題詞或上位、下位詞。
。4)按照元數(shù)據(jù)所標引的主題詞的網(wǎng)頁法律公文地址(URL)檢索出網(wǎng)頁中用戶所需要的法律公文內容以及相關的法律、法規(guī)、判例知識。
下面給出一個互聯(lián)網(wǎng)環(huán)境下實現(xiàn)上述研究基本思路和方案而研制的法律信息語義檢索原型:
當用戶在輸入?yún)^(qū)域輸入某個待查法律信息特征詞后,系統(tǒng)首先按照模糊查詢的方式在主題詞表庫中進行掃描,當找到與用戶輸入的特征詞相一致的主題詞時,根據(jù)數(shù)據(jù)庫各表的指針,隨之確定了該詞在關系表中的位置及其上、下位關聯(lián)詞和所屬范疇;經(jīng)索引快速找到已設置元數(shù)據(jù)標識和定位的Web 頁面中與用戶查詢特征詞相匹配的法律信息,進而還可以挖掘出與之相關的其他信息。例如,當我們需要查找有關“損害賠償”方面的判例時,首先選擇“法律判例”選項,然后在“關鍵詞”框中輸入“損害賠償”,則庫中所有含“損害賠償”一詞的判例標題均會出現(xiàn)在屏幕上;在其中選擇某項,即可輸出該判例的內容,同時將相關信息如所有含有同一法院或法官審判的類似案例,與此判例相關的法律、法規(guī),原、被告所涉及所有判例等均被檢索出來(見圖2)。
圖2 語義檢索原型示例
五、結 語
本文通過對當前國內外關于信息檢索方法的研究分析,結合司法實踐中法律信息檢索問題,提出了以司法事實為主線、依據(jù)法律信息的知識單元及其語義特征實現(xiàn)網(wǎng)絡中法律信息知識抽取和語義檢索的設計構架和解決方案,并建立了一個檢索原型系統(tǒng)對其進行了模擬實現(xiàn)。顯然,以這種方式提供的檢索結果不再局限于以前的關鍵字匹配檢索,它充分地利用了法律信息間的語義關系,不僅保障了用戶查詢需求與目標結果的一致性,同時還能夠挖掘出與用戶需求相關聯(lián)的實用信息,進而提高了網(wǎng)頁中法律信息的查全率和查準率,為互聯(lián)網(wǎng)環(huán)境下法律知識的獲取提供了可借鑒的理論和實踐依據(jù)。