竞彩玩法及中奖规则/足总杯在线直播/欧洲杯2021赛程/内蒙古中优足球俱乐部

 
本站首頁 關于我們 法律圖書館與法律信息研究會 法律信息研究 中外法律圖書館 法學文獻與檢索 政府信息公開 法律圖書館導航 法律法學網導航
法律信息資源
法律信息服務
數字信息檢索
數字技術發展
專業網站建設
澳門法律信息
  當前位置:首頁 > 法律信息研究 > 數字信息檢索
數字信息檢索
暫無下載資料

 基于本體驅動的法律信息檢索模型
            鐘振鴻、印潤遠、于慶梅 點擊量:6083
上海水產大學
【摘要】
本文提出了基于本體驅動的法律信息檢索模型, 以解決當前Web 信息檢索中存在的問題。本文運用到了數據挖掘中的關聯規則, 并借鑒“七步法”來構建信息檢索模型, 構建步驟包括文檔預處理、構建領域本體、過濾、構造人機接口等。向用戶提供基于法律本體的概念查詢、語義擴充查詢、分類瀏覽等檢索手段。該模型能夠改善用戶查準率和查全率, 實現對該領域資源的智能化檢索。
【關鍵字】
本體;法律信息;檢索;關聯規則
    

  在我國, 隨著人民對法律意識的不斷增強, 對法律問題的查詢也不再成為專業人士的專利, 利用現有檢索工具來查詢相關的法律信息, 得到的結果往往有一大堆的信息垃圾。根據iProspect 在2004 年4 月間發布的搜索引擎用戶使用習慣調查報告表顯示:81.7%的用戶不會瀏覽三頁之后搜索結果, 而52.2%的用戶只會關注搜索引擎返回的第一頁搜索結果。也就是說, 通常用戶只關心搜索引擎返回的排在前列相關度較高的頁面。如果占在前面的都是些垃圾信息, 那么用戶將“永遠”找不到自己想要的東西。

  因此筆者借鑒本體論的基本思想, 提出了一種基于本體論的法律信息檢索方法, 它通過對分類目錄的進一步智能化處理, 更好的滿足用戶的查詢需求。
  
  1、 本體的概念
  本體(ontology)的概念起源于哲學領域, 本體論概念在引入人工智能領域后, 被賦予了更為具體的意義。最著名并被引用得最為廣泛的定義是由Gruber提出的,“本體是概念化的明確的規范說明”。

  本體是領域內重要實體、屬性、過程及其相互關系形式化描述的基礎。這種形式化描述可成為軟件系統中可重用和共享的組件。總的來說, 構造本體的目的都是為了實現某種程度的知識共享和重用。
  
  2、 基于本體驅動的法律信息檢索

  2.1 基于本體的檢索方法

  目前, 基于本體的檢索構建方法大致有如下幾種:Uschold和Kong 的“ 骨架法”, Gruninger 和Fox 的“ 評估法”(又稱TOVE), KACTUS 方法, METHONTOLOGY 方法, SENSUS 方法和七步法。其中“七步法”是由斯坦福大學醫學院開發, 主要用于領域本體的構建。本文將借鑒“七步法”來構建基于本體的法律信息檢索模型。

  2.2  基于本體的法律信息檢索的一般模型

  法律信息檢索方法的優劣一般采用查全率和查準率兩個概念來衡量。查全率用以衡量搜索到的法律信息的多少, 而查準率用以表示搜索到的法律信息的準確度, 即是否是期望所搜索的法律信息。

  目前比較流行的是基于網站分類技術和全文檢索技術, 這兩者都不能很好地滿足查全率和查準率的要求。雖然網站分類技術為法律網絡信息導航帶來了較大的方便, 但是其網站描述信息相對簡單, 不能滿足查全率的要求;而基于全文檢索技術雖然能夠解決對網頁細節的檢索問題。但這又導致搜索的信息太多, 因此查準率很低。

  而本體具有良好的概念層次結構和對邏輯推理的支持, 一方面, 用戶的信息需求需要通過共享本體轉化為計算機可理解的查詢表達。通過共享本體中概念與概念之間的關系擴展查詢表達, 可以有效的提高查全率。另一方面, 被檢信息資源需要通過同樣的本體進行標引, 信息資源的表達包括邏輯判斷等, 使信息表達成為本體結構中的一部分。在基于本體的信息檢索過程中, 查詢表達與信息資源之間進行相應的匹配, 這一過程能夠按照查詢的表達形式和邏輯理解方式來實現, 這就大大提高了查準率。

  2.3 構建基于本體的法律信息檢索模型

  構建基于本體的法律信息檢索模型的主要步驟如下:

  (1)建立領域本體

  法律領域本體, 是法律專業性的本體, 提供了法律學科領域中概念的詞表以及概念間的關系, 或在該領域里占主導地位的理論。構建法律領域本體, 可以解決在用戶或軟件代理間達成對于法律信息組織結構的共同理解和認識, 為基于知識的法律信息檢索提供基礎。

  模型中基本上構建了法律本體由29個類組成, 如: 憲法類、經濟法類、刑法類、民法類等, 每個類下包含若干子類。系統本體的元語基本分為三種:一是法律實體概念, 如搶劫、販賣毒品、放火、爆炸等; 二是能體現法律實體間關系的概念, 如預備、未遂、中止、剝奪、豁免、撤消等; 三是一些輔助性的助詞、限定詞、連詞、代詞等, 這類詞同樣也包含一定的語義信息, 如共同, 間歇性、完全喪失等。與本體相匹配的還有一個基本術語的詞典---參考[美]費曼著《牛津法律術語小典》, 其涵蓋了本體中的所有概念, 并且包括每個概念的不同詞形, 如- s, - ed, - ing 等。法律本體同時也作為用戶接口, 可以供用戶選擇查看。其基本領域本體局部示意圖如圖2 所示。
  
  圖2 領域本體局部示意圖。由此可見, 本體在表現概念之間關系上有著明顯的優勢。

  (2)收集信息源中的數據

  參照已建立的本體把收集來的數據按規定格式存儲在元數據庫(如關系數據庫、知識數據庫等)中。使用XML 描述語言來表示本體, 數據保存在知識數據庫中。

  ① 標引過程。從PDF、DOC、HTML 中導出相關的摘要、題名、全文信息或關鍵詞的純文本數據, 根據本體用XML 對其進行注釋。再將提取出的作者、年份、參考文獻, 以及文章鏈接等信息共同存入數據庫中, 形成關鍵詞和本體類別標引文件, 供檢索使用, 其中的關鍵步驟為本體注釋。

  ② 本體注釋。利用本體對語料庫中的文檔題名、摘要及全文中的每個詞和關鍵詞進行標注, 生成XML 文件。系統對本體的注釋分兩步進行:

  a.標注每個詞, 計算機先從詞典中找出其原形形式, 再從系統本體中找出其對應的概念, 然后利用本體對應概念用XML語言進行標注。對于沒有語義信息的詞, 即在本體中沒有對應概念的詞, 用<text>標注。

  b.標注句子, 將標注的詞組成句子。

  (3)數據存儲

  由于文件是基于XML 語法對本體進行序列化表示, 而XML 具有跨平臺的特性, 這樣表示的領域本體可以在多個用戶及大范圍團體內實現共享和重用, 但是當本體的規模增大時,文件形式的本體處理效率較低。所以本文結合當前本體開發和應用的主流技術, 利用Jena 平臺向用戶提供的RDF、API、OWLAPI 實現對本體的結構化存儲, 并以四元組方式將領域本體存儲于關系數據庫MySQL, 記作O=<C, A, R, W >。其中, C 是概念集, 表示領域本體包含的概念;A 表示屬性集, 主要用來表現概念自身的特征;R 是關系, 指領域中概念間的交互作用;W 為Web 資源URI。

  (4)過濾

  在本體的幫助下, 我們可以很好地學習用戶的興趣, 若要通過用戶的個性化偏好對結果進行過濾, 就要求我們對用戶的(興趣)提問進行規范化。

  一般用戶的提問很模糊, 事實上大多用戶會使用自己日常使用的詞匯、語句進行查詢, 其輸入的關鍵詞可能是本體中類、屬性、個體中任何一個。因此我們要通過“過濾”來規范用戶的查詢。當人機接口遞交提問(關鍵詞)后,“過濾”首先訪問領域本體庫判定哪些關鍵詞是本體庫中包含的類、屬性、個體, 對用戶提問概念進行規范化。

  由于領域本體以四元組的方式存儲于本體庫中, 因此規范化實質上就是判斷輸入概念哪些屬于四元組的C、A、R、W。判斷結果一般有三種情況:所有關鍵詞都包含于領域本體庫;部分關鍵詞包含于領域本體庫;沒有關鍵詞包含于領域本體庫。判斷過程如下:

  假設輸入關鍵詞的集合為T, 當T≠ 時:

  ① T≠ , T 中的概念為C 的存入集合XC

  ② T- XC≠ , C- XC 中的概念為A 的存入集合XA

  ③ T- XC - XA≠ , T- XC - XA 中的概念為R 的存人集合XR

  ④ T- XC - XA - XR ≠ 時, T- XC - XA - XR 中的概念為W存入集合XW。

  ⑤ T- XC - XA - XR - XW≠ 時, T- XC - XA - XR - XW≠ 中的概念存入集合U。

  經過判斷后, 用戶遞交概念被劃分為五個概念集XC 、XA、XR 、XW、U。其中集合U 中的概念不屬于本體庫, 因此當U≠時, 采用改進的正向最大匹配法與本體庫的類、屬性、個體匹配, 對此概念規范化進行處理, 向用戶提供相近的本體概念, 供用戶選擇。

  最后,“過濾”后的系統將提供四個概念集XC 、XA、XR 、XW。

  (5)人機接口設計

  對用戶檢索界面獲取的查詢請求,“過濾”按照本體把查詢請求轉換成規定的格式。

  使用關聯規則庫中的規則, 可實現對本體的語義擴展, 充分挖掘概念之間潛在的關系, 因此該模型在關聯規則庫的幫助下從本體數據庫中匹配出符合條件的數據集合, 然后返回給用戶。其基本框架圖如圖3 所示。
  
  圖3 基于本體的法律信息檢索模型基本框架

  其中使用的匹配算法為查詢擴展算法。

  查詢擴展的基本思想為:q∈(XC 、XA、XR 、XW);//查詢子串s=getSubset(q); //按項數遞增的方式.依次生成q 的子集,for all s 的子集do。

  從本體庫中表取得該詞語的所有子層詞語按信任度大小排序。取前r 個相關詞語, 寫入RS(SK)f RS(SK)為空。

  從關聯庫中相關關系表取得該詞語的所有相干詞語, 按信任度大小排序, 取前r 個相關詞語, 寫入RS(SK)RS(s)=∪RS(SK), 將RS(SK)集合中所有相關項按權值大小進行排序, 存入RS(s)。

  Q =q∪RS(s)//Q 為查詢串q與擴展串RS(s)合并后得到的集合。

  2.4 模型主要功能

  基于本體的法律信息檢索模型包括本體的概念查詢、語義擴充查詢、分類瀏覽等。

  其檢索功能提供用戶指定類、子類的組合, 布爾邏輯檢索,指定關鍵詞在文中出現的頻率, 選擇查找題名、摘要或正文。用戶還可以選擇其查詢表達是與文檔全文還是句子匹配, 按照全文、摘要、題名、作者、年份等項查詢。
  
  3 仿真實驗與評價

  試驗測試集是100 篇經過專家評定的法律方面的文章, 分成6 類, 分別檢索文摘和全文。試驗結果顯示, 文摘的查全率是75.2% , 查準率是83.4% ;全文的查全率是93.8% , 查準率是79.8%。經分析, 本體構建的質量直接關系檢索的效率。一般錯檢的句子, 70%是由于檢索用的關鍵詞缺乏語境造成的。因此,我們應該明確, 現在的本體匹配還處在初級階段, 從某種程度上來說, 一對一的匹配本身是不盡合理的。重要的是在研究本體匹配的過程中能發現更多有價值的理論和方法使之用于其領域檢索。
  
  4 總結

  本體是對概念化的明確描述, 是當前人工智能、計算機交叉領域的研究熱點。大量國內外專家的實驗證明, 基于本體的信息檢索技術能形成較好的語義理解, 能有效地提高信息檢索的效率, 是一種值得研究的方法。

  作為知識表示的一種方式, 本體在概念語義的表達上涵蓋語義檢索, 但是本體的構建卻是該研究領域的瓶頸, 一方面很難形成大規模通用本體, 另一方面本體構建現在很多是人工進行, 工作巨大。因此在深入研究基于本體的領域信息檢索時, 需要結合機器學習技術, 發展本體自動獲取工具。

  本文作者創新點:現在本體論是一個新型的研究課題, 其本身的構建方式就不同于以往的信息檢索, 具有良好的概念層次結構和對邏輯推理的支持。本文以本體論作為驅動, 在專門的領域, 即法律信息檢索方面著手, 提出這樣一種檢索方法, 還是很新穎的。

  其次, 本文結合當前本體開發和應用的主流技術, 引用并改進了領域本體的存儲方式, 即使用了四元組方式, 將領域本體存儲于關系數據庫MySQL, 這是一個創新點。其中, 該模型還結合使用了數據挖掘的相關算法, 并進行了相應的改進。本模型與關聯規則相結合對領域本體進行過濾, 不僅智能地提高了查準率, 還對分類目錄進一步智能化處。

【注釋】

[1] 楊廣翔,俞寧,諶莉.搜索引擎結果的重排序方法
[2] 鄧志鴻,唐世渭. Ontology 研究綜述.北京大學學報(自然科學版)2002(7).38,5
[3] Thomas R.Gruber. Toward Principles for the Design of OntologiesUsed for Knowledge Sharing. August 23, 1993.
[4] W.N.Borst. Construction of Engineering Ontologies for KnowledgeSharing and Reuse. PhD thesis, University of Twente, Enschede,1997.
[5] 吳丹. 本體在信息檢索中的作用及實例研究[A]. 情報雜志2006.6:72-75
[6] 李景.構建領域本體的方法體系比較研究[J].現代圖書情報技術.2004(7):17-22.
[7] 趙秀芳.基于本體的農業信息檢索. Journal of Anhui Agri. Sci.2006 34(10):2303-2304
[8] 郭輝,蘇中義,王文.一種改進的MM分詞算法[J]微型電腦應用.2O02 18(1):13-15.
[9] 譚義紅,李學勇,陳治平.關聯規則挖掘在Web 信息檢索中的應用[A].軟件技術與數據庫. Vol.32 No.9,2006 年5 月:57-61.
[10] 肖燕華,邵世煌.一種基于本體論的Internet 信息個性化檢索系統的Agent 實現模型. [J]微計算機信息2003,19- 6:77- 78.

作者簡介:
鐘振鴻(1982.2- ), 漢, 女, 浙江, 上海水產大學碩士研究生, 研究方向:網絡技術應用及網絡安全;
印潤遠, 男, 上海市, 教授, 碩士生導師;
于慶梅, 女, 上海市, 博士, 副教授, 碩士生導師。
備注:本文原載《微計算機信息》2007年第23卷。為加強業內交流轉于此,特示鳴謝。

        
        
      首都法學網       北京市高級人民法院       中美法律信息與圖書館論壇(CAFLL)
      國家圖書館       美國法律圖書館學會(AALL)       國家檢察官學院
      中國社科院法學所圖書館       國際法律圖書館協會(IALL)       最高人民法院圖書館

主管單位:中國法學會  主辦單位:中國法學法律網合作機制 技術支持:北大英華科技有限公司(北大法寶)
電話:010-82668266-152 傳真:010-82668268
加入收藏 | 本站首頁 | 聯系我們
go