近年來,隨著我國經濟的發展,環境問題日漸突出,企業違法排污導致嚴重危害群眾生產生活的事件時有發生,有關環境保護的一些基本概念被使用得比較亂,為了更好地方便廣大環保工作者在業務工作中使用法律法規,如何實現智能應用檢索應用,意義非常重要。智能檢索是基于自然語言的檢索形式,機器根據用戶所提供的以自然語言表述的檢索要求進行分析,而后形成檢索策略進行搜索。用戶所需要做的僅僅是告訴計算機想做什么,至于怎樣實現則無須人工干預,這意味著用戶將徹底從繁瑣的規則中解脫出來。[1]
1.本課題國內外研究現狀與存在的問題
目前使用較為大眾普遍的檢索系統一般都是由三個基本模塊組成:數據的檢索、檢索后對其檢索結果的處理和對數據庫的維護、數據庫模塊主要負責建立題錄、文摘及全文庫,建立索引和倒排文檔等,其生成的倒排檔是由人工抽詞或半自動化標引而成,即使由計算機全自動標引,標引也是基于文本字串的簡單、直觀的引用;檢索模塊主要負責在一定邏輯條件下,在所有相關的庫集合范圍內查找所需信息;結果處理模塊負責提交結果報告并輸出檢索結果給用戶。[2]
在當下的檢索系統主要是以文字型信息檢索為主,對圖形信息、圖像信息、聲音信息等檢索能力幾乎為零,而且大多數系統一般采用的是受控或者半受控標引語言型檢索,其檢索效率往往是不盡人意,而其在很大程度上檢索效率仍然取決對于主題詞語的控制。[3]
1.1智能檢索系統的發展研究
從1956年人工智能被正式提出,已經有了40年歷史。英國數學家、邏輯學家圖靈(Turing)被世人稱為人工智能之父,不僅僅是由于他創造了一個簡單而又通用的非數字的計算模型,而且他還直接證明了計算機是有可能以某種被理解為智能并接受的方法工作。[4]費根鮑姆(Feigenbaum)研究小組于1968年成功研究了第一個專家系統稱為DENDRALDuda(杜達)開發的PROSPECTOR地質勘探專家系統還有比較有代表性的為企業用戶贏取巨大經濟效益的RI商用專家系統等。
20世紀80年代,專家系統得到了蓬勃發展,與此同時知識工程的迅速發展也在全球展開。然而到20世紀80年代后期,人工智能的發展遇到了嚴峻的挑戰和困難,由于應用領域的狹窄和常識知識的缺乏使得預期目標無法實現,困難反應出人工智能與知識工程一些根本性的問題,如交互、擴展與體系等問題直到現在也是我們極力探討和解決的課題之一。[5]
1.2存在的問題
目前普遍使用的檢索系統,與20世紀80年代相比雖然有了比較大的進步,系統已經融入了比較常用的檢索技術如固定詞組、布爾運算、邏輯運算等,基本上滿足了現有用戶的檢索需求,但仍然存在諸多不足之處,需要進行改進加以完善:
(1)數據庫詞典收錄的詞條比較少,從而缺乏廣泛而又全面的數據交叉標引。
(2)檢索系統缺乏較強的自學習功能。
(3)現有的檢索系統的語義分析對于同義或者相近的數據、內容分析能力基本上是不具備的,語義的同等處理能力極低或者就不能進行處理,因此開發語義檢索識別系統,才能更好地實現系統智能化,才能使間接查詢更全面、更系統、更徹底。[6]
(4)數據庫系統類型比較缺乏需不斷豐富,系統的數據結構需不斷加以改進在關系型數據庫的基礎上,注重對面向對象型、多媒體型、新型的集成數據庫的開發。[7]
2.作者的觀點和主要開發思路
環境保護法律法規智能檢索是對現有傳統檢索系統的一些不足進行改進,特別是在信息檢索過程中,引入了對象概念從而大大提高了語義信息的查詢處理能力。為了對其信息檢索性能加以改善,必須提高信息檢索算法的查全率與查準率,也就是說必須通過對語義分析、自動查詢擴展等處理操作進行改良“改善”。[8]
本系統作為一個智能檢索引擎,在功能上除具備一些基本功能外,還應該在一些功能上優于現有系統。[9]在本系統當中體現為如下幾點:
(1)在語義分析能力上優于現有系統,并具有一定自動查詢擴展、語義推理等功能。
(2)數據庫收錄的基礎信息應不斷更新,保證在環境保護法律法規領域里,其信息的全面與準確。
(3)優化系統和用戶交互算法,實現其能進行高程度的互操作,對用戶所需查詢的信息保證準確簡明扼要。
(4)考慮到本系統的特殊性,對用戶檢索結果應支持多種排序方式,如按法律法規的制定時間排序和按與查詢條件的相似度排序等。
3.環境保護法律法規智能檢索系統的設計分析與實現方法
3.1系統設計的結構
本智能信息檢索系統結構和工作原理如圖1所示
(1)人機接口模塊一般用來讓用戶與信息檢索
系統進行交流的界面稱其為人機接口,它可以對用戶的自然語言提問進行分析、理解,并給出適合用戶的結果,并且本模塊還具有解釋功能。人機接口模塊由一組程序和對應的硬件組成,輸入輸出工作就是用它來完成的。
(2)知識庫及其管理系統模塊
知識庫也就是通常所說的知識存儲機構,用于存儲專家的經驗性知識與解決用戶信息需求所需要的原理性知識及有關的事實等。
(3)數據庫及其管理系統模塊
用來存放用戶所提供的初始數據或者事實、對問題的描述以及整個系統運行過程中所得到的運行信息、中間結果數據以及最終結果數據等。
(4)檢索推理機構模塊
檢索推理模塊是一個智能檢索系統的核心,是按照一定的策略推理對其用戶提出問題進行解決,其不僅要對知識庫中的知識加以利用更注重對各種推理技術、信息檢索策略的綜合應用。
(5)知識獲取機構模塊
知識獲取機構在本系統的功能是通過程序完成對系統的自我學習功能,保證系統知識庫的性能良好,對知識體系的完整性與統一性加以維護。
(6)解釋機構模塊
解釋機構的主要職能就是為人機提供一個良好的交互平臺,在對自我動作、反應作出解釋的同時也同樣回答用戶提出的相關問題,解釋機構是信息檢索系統與用戶交流的主要渠道,也是取信于用戶的一個非常重要的措施。
3.2本智能檢索系統采用的實現方法
本系統研究以信息管理知識為基礎理論,以系統科學的觀點為指導,以Java語言和MySQL數據庫作為工具、整體設計依照軟件工程的方法,經過需求分析、總體設計、文檔和代碼的編制、模塊測試和系統實現幾個階段,進行本系統的開發。下面對開發環境進行簡要概述。
MyEclipse,是一個十分優秀的用于開發Java,J2EE的Eclipse插件集合,是對EclipseIDE的擴展,利用它可以在數據庫和JavaEE的開發、發布,以及應用程序服務器的整合方面極大的提高工作效率它是功能豐富的JavaEE集成開發環境,包括了完備的編碼調試測試和發布功能,完整支持HTML,Struts,JSP,CSS,Javascript,SQL,Hibernate。
MySQL是一個精巧的SQL數據庫管理系統,由于它的功能強大、使用簡便、管理方便、運行速度快,安全可靠性強、靈活豐富的應用編程接口(API)以及精巧的系統結構。
3.3本檢索系統功能模塊設計
根據系統分析設計的一般方法與模塊劃分的原則,同時兼顧用戶易操作性,我們將系統功能模塊劃分為如圖2所示:
3.4數據庫的建立流程
數據庫設計的一般流程如圖3所示,共分六個階段:需求和約束分析;概念模式設計;邏輯模式設計;物理數據庫設計;測試、加載和運行;數據維護其中第2、3、4三個階段為數據庫設計過程,這是一個反復迭代直至達到設計目標的過程。[10]
(1)需求和約束分析階段包括:調查用戶要求;分析數據的現狀;分析數據的使用;確定環境約束條件;選擇數據庫管理系統或研究現有數據庫管理系統的功能與性能;提出需求和約束分析報告數據字典。
(2)概念模式設計階段包括:實體集合;實體結構的鍵;實體的屬性;域集合等。
(3)邏輯模式設計階段包括:關系(表格)的集合;關系的屬性;主鍵;次鍵;外鍵;域集合;索引及鏈路等。
(4)物理數據庫設計階段包括:確定文件的存儲結構(順序結構、隨機結構、索引順序結構、表結構、數結構);選取存取路徑結構(系結構、鏈路結構),存取算法,次級存取結構(散列、次級索引);文件作垂直分化或水平分化,確定存儲設備;確定數據塊規模;確定緩沖區規模;確定數據庫存儲空間總規模。
我們通過數據庫設計流程對現有的環境保護法律法規進行層次關系模型整理后通過一定的方法導入到MySQL數據庫中(這里通過先導出數據庫SQL腳本再導入的方法),同時也用到了phpMyAdmin管理工具。
4.展望
通過對環境保護法律法規智能檢索系統的開發填補了現有的不足與空缺,基本可以滿足現在用戶的需求。
隨著經濟的不斷發展,計算機網絡的不斷深度普及,不僅給我們帶來了海量的數據,同時為系統的深度發展帶來了生機。作者認為未來的系統發展是數據更為規范化、全球化、智能化、面向對象化,網絡多媒體技術、聯機分析處理等新興技術將不斷融入。原載《山東化工》2011(9)