1 司法實務中信息檢索的主要問題
隨著互聯(lián)網的發(fā)展及各種電子文獻資料的普及, 高效的信息組織管理和檢索成為信息資源利用的關鍵問題。而目前較成熟的信息檢索工具和搜索引擎大多是基于檢索提問式關鍵詞匹配技術。這種檢索導致的兩類主要問題是“信息過載”和“內容不匹配”, 前者指在檢索過程中系統(tǒng)返回的信息量過多, 與關鍵詞相關或不相關的內容都冒出來, 使用戶應接不暇, 難于接受; 后者指因對同一個概念的表述出現(xiàn)多義、歧義, 返回的信息并非用戶真實的查詢意圖和內容。就法律領域而言, 大量的法律文獻、法律法規(guī)、案例判例信息主要來自于互聯(lián)網的查詢, 采用檢索關鍵詞的方法, 信息的查準率和查全率都得不到保證。司法決策人員在查詢目標不很明確的狀況下選擇決策依據時,注重的是如何從浩如煙海的數(shù)據中快速地調出與案件相關的法律法規(guī)及判例, 而不是遍歷龐大的互聯(lián)網或數(shù)據庫資源漫無目標地去搜尋。
根據這樣的狀況, 組織以知識和案件為核心的信息資源,建立有法律領域專家指導參與的、基于本體的語義檢索模型和相應的法律信息元數(shù)據標準, 按照案件關聯(lián)、以義索文、主題提煉、綜合分析的思路來設計法律信息語義檢索方式就顯得十分迫切和必要。
2 基于本體的法律知識表述
2.1 本體的知識組織體系
2.1.1 本體的基本概念
所謂知識組織體系( Knowledge Organization Systems) , 是對知識的內容概念及其相互關系進行描述和組織的機制, 能夠對各種信息對象按照知識內容和知識結構進行管理和組織。
目前本體( Ontology) 技術被廣泛運用于知識管理過程中。B.Chandrasekaran 等人認為:“Ontology 是研究特定領域知識的對象分類、對象屬性和對象間的關系, 它為領域知識的描述提供術語”; Thomas R.Gruber 認為:“本體是共享概念化的明確的規(guī)范說明”, 綜合相關學科的研究結果, 人們普遍認為: 本體是關于領域的顯式的、形式化的共享概念規(guī)范。本體首先是按照一定的組織形式聚合起來的概念集, 這些概念集常常潛在地包括大量不同的層次和含義, 往往具有某些類型特征和本質性的關聯(lián); 其二, 本體是對這些概念的涵義、屬性、層次、關系等的明確說明和規(guī)范。
2.1.2 本體的知識結構
在本體中, 知識劃分為三個層次, 即具體事實知識、領域概念知識和通用概念知識。
通用概念知識是一種公理化的大家認同的知識, 無需做特別說明, 也不會有二義性的理解, 用通用本體來刻畫。領域本體是專業(yè)性的知識體系, 匯集了與專業(yè)領域相關的所有概念及其之間的關系, 以及該領域所涉及的具體事實。領域本體內的具體事實知識是用來描述、解釋或求解領域內具體事物、具體事件或具體問題的知識, 它用領域概念知識來表達具體事物、具體事件。
構建領域本體可以按領域需求分類搭建該領域本體的知識層次結構、共享專業(yè)領域知識, 同時還能夠避免在知識抽取和共享時所產生的概念語義歧異。例如:“訴”是一個通用領域中的詞匯, 可以理解為“ 告訴”、“ 訴說”、“ 傾訴”? ? , 而“ 訴訟”一般只適用于法律領域,“刑事訴訟”則適用于更狹窄的“刑法”范疇。
根據對概念關系的揭示程度, 可以將本體中的知識組織體系分為三個層次:
( 1) 詞匯表( Term Lists) , 強調概念的定義, 一般不涉及復雜語義關系和分類結構, 例如: 詞匯表、字典、人名表等。
( 2) 分類聚類體系( classification/categorization) , 強調概念間的層次聚合和類別體系, 例如: 主題詞表和分類表。
( 3) 關系列表( Relationship Lists) , 強調表現(xiàn)概念之間關系, 例如: 敘詞表、語義網絡和概念集。
2.1.3 主題關系詞表及其語義環(huán)境
按照上述知識組織體系的劃分, 主題關系詞表在領域本體中扮演著極其重要的角色, 它將本體中的知識進一步概念化、具體化、形式化、顯明化, 使用專業(yè)術語或詞匯的集合表達概念及其各種聚類、所屬關系; 作為一種將網絡資源和信息用戶的自然語言轉換為規(guī)范化語言的工具, 主題關系詞表搭建了本體與語義檢索之間的橋梁, 對信息的有序組織與機化管理提供了有力的支撐, 在文獻標引和信息檢索等方面具有廣泛的應用。主題關系詞表也通稱主題詞表, 是一種主題檢索系統(tǒng)所用的檢索詞的有序化詞匯表, 設有參照系統(tǒng)和各種索引, 以顯示詞間語義關系和提供各種查詞途徑。主題詞是能夠表達自然語言之間語義關系的、有標引和檢索意義的詞或詞組。
主題詞表具有知識的結構, 是一種簡單的本體, 本文后面將介紹以此實現(xiàn)的一個簡單的基于主題詞表的法律領域本體信息檢索系統(tǒng)原型。
2.2 法律信息本體的構架
按照前述領域本體中知識內容的層次關系, 可以對法律信息大致進行不同知識層次的劃分:
第一層, 法律信息公共資源的一般性、概括性的描述。通常適用于描述供歸檔的法律公文( 法律公文、法律法規(guī)等) 信息,由一組抽象出來的專業(yè)術語表征, 基本上可以羅列出如下若干項: 發(fā)文編號、發(fā)文機構、文件名稱、主題、摘要、發(fā)布日期、發(fā)布范圍、使用語言、事件、關聯(lián)、密級、有效性等( 可用“ 元數(shù)據”描述) 。
第二層, 從法律信息的應用角度( 性質或適用領域等) , 對法律信息的知識單元進行組織和描述, 如, 把它們分為刑事類、民事類、行政類、海事類, 或者分為起訴類、判決類、合同類、公告類, 還可以把它們分為法律、法規(guī)與判例、案例, 形成針對不同問題域和檢索目標的知識維。
第三層, 依據具體信息內容進行概念的抽象和描述, 通常可以針對法律公文的主題、內容摘要以及描述具體案件、事實的信息( 往往用若干個關鍵詞來描述) , 如: 罪名、事由或案情簡介, 并定義其下屬概念、內容和相關的屬性及關系, 如, 案情摘要中的主要關鍵詞, 原告、被告、被害人及其姓名、性別、年齡、身份、特征等。通常第三層信息較零散、模糊、不規(guī)范, 屬半結構化或非結構化信息, 涉及的實例多, 難以描述, 如: 案情摘要中的犯罪動機、造成的危害及后果等。歸納起來, 面向案件事實的法律公文包含的知識主要有:( 1) 法律文獻信息;( 2) 機構或個人信息;( 3) 事件信息;( 4) 犯罪信息等。
進一步將這些抽象出來的概念整理, 找出它們之間的邏輯關系。以司法文書中的起訴書為例, 從第一層所描述的司法文書的名稱、主題、摘要中可以抽出下層有關罪行、犯罪性質和犯罪事實信息, 再進一步尋根索驥, 調出犯罪人、犯罪動機、作案經過、犯罪后果以及判決結果等詳細說明信息, 這些又直接與罪行相適應的法律條文和判例相關聯(lián)。由此, 就形成了一個依據描述法律事實的司法文書而搭建的本體( 語義網絡) 。
如圖1所示。
3 建構于本體之上的法律信息語義檢索
3.1 依據法律本體的語義檢索
所謂信息檢索( Information Retrieval) , 是指從大量的信息資源中方便、快捷、有效地查找出與使用者需求相關的內容。目前的信息檢索技術大致分為三類: 全文檢索( Text Retrieval) 、數(shù)據檢索( Data Retrieval) 和知識檢索( Knowledge Retrieval) 。全文檢索和數(shù)據檢索從本質上說都屬于關鍵字匹配的檢索技術, 這種基于關鍵字匹配或是基于學科分類的檢索工具之所以不能令人滿意, 最主要的原因之一就是它們無法挖掘概念之間的內在聯(lián)系, 搜索出更深層的含義, 在查全率和查準率方面都有一定的局限性, 因此, 采用基于本體語義匹配技術的知識檢索, 因其檢索效果更好而成為了當前信息檢索領域的研究重點。
本體在信息檢索中的功能主要表現(xiàn)在:
( 1) 消除自然語言理解中的歧義, 明確概念所屬范疇和涵義, 提高信息檢索的查準率。通常, 信息檢索流程的第一步就是通過人- 機界面接口輸入用戶檢索請求( 查詢關鍵詞) , 由于自然語言具有豐富多彩的表達形式, 有大量的同義詞、近義詞、多義詞存在, 計算機要自動識別檢索詞的準確含義, 就需要借助__本體中概念和概念約束的明確規(guī)范說明, 幫助系統(tǒng)在多個可能的詞義中選擇最適合的含義, 給予該信息的準確的定位。例如:“主體”一詞通常表示事物的主要部分, 一般用于描述事或物,而把它放入民法的范疇中, 用來描述民事法律關系———“民事主體”, 則指享有民事權利和承擔民事義務的法人或自然人。
( 2) 在語義標引的基礎上, 借助本體進行語義推理, 利用文獻的語義標注和概念集的語義關系及推理規(guī)則, 從而挖掘出相關或隱含信息, 實現(xiàn)智能檢索和知識組織, 提高檢索結果的可用性。比如, 在表述案情的司法文書中, 通過司法文書的元數(shù)據( 標題、主題詞、類型、摘要等信息) , 可以挖掘出該司法文書所指控的案件罪名、適應的法律范疇及其它屬性, 并建立相關的法律、法規(guī)和判例的鏈接。再如: 假設用戶想了解法律領域里有關合同的信息, 在系統(tǒng)中輸入關鍵詞“合同”, 該系統(tǒng)輸出來的不僅是對“合同”的概念解釋以及它的同義詞、上、下位詞, 還應該輸出合同的特點、格式、分類、范本、用例等本體中的相關信息, 并舍棄與之無關的東西。
3.2 法律信息主題詞表的設計
如前所述, 法律本體是根據法律專家長期司法實踐的經驗和法律專業(yè)知識匯總形成的。由于目前在法律界關于基于本體的法律信息語義檢索方面的研究還屬于空白, 尚未編制出一套用于語義檢索的、可共享的法律本體標準。為了實現(xiàn)本文所提出的基于法律本體的語義檢索意圖, 我們依據“最高人民法院關于印發(fā)《人民法院公文處理辦法》的通知”( 1996 年4 月9日, 法發(fā)〔1996〕9 號) 附錄中的“人民法院公文主題詞表”, 并參照中國科學技術信息研究所編制的“綜合電子政務主題詞表( 試用本) ”, 設計了一套用于本研究檢索原型系統(tǒng)的法律信息主題詞表查詢模板。
在“人民法院公文主題詞表”中一共設有379 個主題詞, 其中刑事審判類138 個, 民事審判類64 個, 經濟審判類34 個, 行政審判類66 個, 海事審判類17 個, 審判程序類60 個。以民事案件的主題詞為例, 這些主題詞大致可以分為兩類: 一類是在歸檔時用以區(qū)分法院各審判庭審理的案件, 如“民事審判”、“民事案件”、“民事糾紛”、“民事權益”等, 按照前述領域本體的劃分, 這些主題詞可歸類為領域概念知識; 另外一類是通過民事審判庭內部審理案件的具體事實來定類的, 如“抵押”、“不當?shù)美薄ⅰ胺鲳B(yǎng)”、“遺產”、“繼承”、“遺囑”等, 在領域本體中可歸類為具體事實知識。在具體事實類主題詞中, 如果詞之間的相關度比較高, 主題詞中還有屬- 分的邏輯關系, 如主題詞“知識產權”是上位概念, 而“著作權”、“專利權”、“商標專用權”則是下屬概念;“人身權”是上位概念,“健康權”、“姓名權”、“肖像權”、“榮譽權”、“名譽權”等則是下屬概念。由此可見, 司法中的主題詞是建立在對某類法律事實性質的界定下的。參照“綜合電子政務主題詞表( 試用本) 的范疇表歸類, 對“人民法院公文主題詞表”中部分主題詞進行了分類編碼, 給出如表1 樣例。
樣例中, 主題詞表的自左至右體現(xiàn)了主題概念的樹形層次結構。第一列表示主題詞的所屬范疇, 如:“刑事”、“刑事”??。第二列為歸類于左列范疇下的主題詞, 如:“刑事責任”屬于“刑事”范疇。第三列為與左列主題詞相關的概念, S-( 屬) 項, 表示該詞的上位概念; F-( 分) 項, 表示該詞的下位概念; C-( 參) 項,表示該詞的參考概念; T-( 同) 項, 表示該詞的同義詞。第四列為左列包含的概念, 每一概念下又可繼續(xù)下分具體內容( 如:第五列) 。
例如,“刑事處罰”屬“刑事”范疇, 它的上層類屬( 上位詞)是“處罰”, 它的下層分類( 下位詞) 是“主刑”、“附加刑”、“勞動改造”, 它的參考概念是“刑法”, 它的同義詞是“刑罰”; 而在其下層概念中又包含了更下層( 下位) 的概念, 如,“刑事處罰”的“主刑”中可包含“ 管制”、“ 拘役”、“ 無期徒刑”、“ 有期徒刑”、“死刑”,“死刑”中更具體的是“立即執(zhí)行”和“死緩”。
3.3 法律信息語義檢索系統(tǒng)模型
依據法律信息主題詞表, 作者在其上試制了一個原型系統(tǒng)Law- Retrieval。系統(tǒng)主要由三個部分組成:( 1) 按照法律信息元數(shù)據及其標識機制對網頁上法律公文( 包括反映法律事實案例的司法文書) 自動進行標引和分類, 通過元數(shù)據建立法律公文主題詞與法律信息主題詞表相關概念的映射關聯(lián), 將關聯(lián)的主題詞及對應的網頁法律公文地址( URL) 存放在指定的數(shù)據庫表中。( 2) 根據用戶輸入的查詢請求關鍵詞, 在本文設計的法律信息主題詞表查詢模板中進行相關概念和上下位概念的檢索,找出與之相關聯(lián)和匹配的主題詞或上位、下位詞。( 3) 按照元數(shù)據所標引的主題詞的網頁法律公文地址( URL) 檢索出網頁中用戶所需要的法律公文內容以及相關的法律知識。
如圖2所示。由于信息系統(tǒng)開發(fā)是一項大型、復雜、艱巨的工程, 尚有許多的基礎工作要做。為了快速實現(xiàn)上述基本思路, 本文采用小型的關系數(shù)據庫管理系統(tǒng)ACCESS 對Law- Retrieval 原型系統(tǒng)進行了簡單的、理想化的模擬。
( 1) Law- Retrieval 原型的基本結構
Law- Retrieval 原型的主要數(shù)據結構是4 個數(shù)據庫表。它們分別是: 敘詞詞表Main, 敘詞關系表Relation, 分類表Category,和文件索引表Docfile。其中Main 表記錄了本文所設計的主題詞表模板中的所有概念, 對于這些概念中的非正式主題詞提供了與其同義的正式主題詞在該表中的位置, 對于一般要求的檢索和標引, Main 即可實現(xiàn)控制功能; Relation 表記錄了主題詞的位置及主題詞間的各種關系( 包括該詞的同義詞、參照詞、上下位詞, 主題詞間的分、屬關系也記錄在該表中) , 據此表可以提高信息檢索的擴檢功能; Category 表記錄了主題詞所屬分類范疇; Docfile 表記錄了用元數(shù)據標識的某個主題詞對應的網頁上的法律公文主題詞的映射關系, 以及該文檔索引名稱和相關URL 網址。用分類法和主題詞法結合起來構成系統(tǒng)上層本體的詞匯網絡, 下層由Web 中的法律文檔構成實體信息資源。之所以這樣設計系統(tǒng), 目的是使得檢索系統(tǒng)能夠表達法律信息元數(shù)據和主題詞表概念間的兩種關系, 各表之間的層次關系
通過上面的數(shù)據結構以及層次結構的分析可以看到, 以法律信息主題詞表為基礎構建的原型系統(tǒng)不僅僅是一個有關法律主題詞的抽象概念的集合, 更是一個包含了具體法律信息實例的知識網絡。系統(tǒng)中的兩個層面———上層的本體和下層的實體信息由元數(shù)據被緊密地結合在一起, 從上而下, 使下層的法律文檔作為本體的具體實例很好地繼承了上層本體中概念間的關系; 也正是通過這些關系, 下層的具體實例擁有了豐富的語義聯(lián)系, 不再是孤立的信息單元, 而成為關聯(lián)的知識單元, 借此可以提取法律本體中與用戶查詢需求相符合的、有助于司法決策的關鍵信息。
( 2) 檢索輸出
在用戶輸入區(qū)域輸入某個關鍵詞后, 系統(tǒng)首先按照模糊查詢的方式在敘詞表Main 中進行掃描, 當找到與用戶輸入的關鍵詞相一致的主題詞時, 根據數(shù)據庫各表的指針, 隨之確定了該詞在Relation 表中的位置及其上、下位關聯(lián)詞和所屬范疇;進一步地, 用戶還可以在窗口中選擇并確認與該主題詞相關的上、下位或同義詞, 經Docfile 表找到已用元數(shù)據標識和定位了的、含有符合用戶查詢關鍵詞的Web 頁面中相關法律信息文檔。
例如, 在原型系統(tǒng)窗口中選擇“詐騙”一詞, 隨之該詞所屬范圍的“立體”結構就以樹型方式體現(xiàn)出來, 可以看到“詐騙”所屬范疇是“刑事”, 其上位概念是“侵犯財產”, 它的下位概念包括:“金融詐騙”、“手機費詐騙”等。
在檢索結果“ 主題詞相關文檔”窗口, 可以檢索到歸屬于“侵犯財產”范疇下與“詐騙”主題詞相關的網絡法律文獻有2篇, 當雙擊任何一個文檔名, 就會按照文檔的鏈接網址打開該文檔, 供用戶點擊瀏覽查看。見圖4 所示。
顯然, 以這種方式提供的檢索結果不再局限于以前的關鍵字匹配檢索, 它充分利用了法律本體的語義關系, 保障了用戶查詢需求與目標結果的一致性, 因此既提高了查全率, 又確保了查準率。
4 結語
本文通過對國內外關于本體、信息檢索方法的研究分析,結合司法實踐中法律信息檢索問題, 提出了一個以司法事實為主線, 依據法律信息的語義特征及其關系構建法律本體, 進而實現(xiàn)法律信息語義檢索和知識抽取的解決方案, 為今后的法律信息組織、標識、檢索提供了可借鑒的理論和實踐依據。