眾所周知,由于信息技術和因特網應用的普及引發了信息爆炸,信息爆炸的直接結果使得人們處于信息海洋之中被大量的信息所包圍,這些大量的信息中有相當數量的網絡信息資源。但是盡管信息大量存在,在這些海量信息中找到自己需要的信息卻顯得更加困難了。于是如何在大量的信息資源中找到自己所需要的信息就成了一個倍受關注的問題。在這樣的背景下,需要進一步研究信息資源的組織方式,使紛繁無序的信息資源尤其是網絡信息資源逐步向有序化、便于用戶索取的理想狀態的方向發展,還應該在此基礎上充分利用現今已有的信息技術,探尋新的檢索方式。
從人的認識心理活動來看,當遇到一個新問題時,往往想參考以前處理類似問題的經驗,因此他會將新問題和舊問題進行比較,找出高度相似的舊問題,調整它的解,推導出新問題的解;同時人的大腦也就學習并記憶住了這個新問題及其解,為今后解決類似問題做好了準備。案例檢索(Case-basedsearch或Example-basedretrieval)就是對人類的這一認識心理活動進行研究并模仿之而產生的新的檢索方式。由于它更貼近人類的自然認識過程,提供的檢索結果能更好的為人所用,所以以案例為基礎的信息檢索要求已成為信息時代的需求,國內關于案例檢索的研究也已逐步開展。
1.研究案例檢索的必要性
(1)檢索的復雜性決定了案例檢索的必要性。
信息資源特別是網絡信息資源類型多樣,數量龐大,資源分散并且質量參差不齊,給高效率的信息檢索帶來了很大的困難。如何在短時間內獲得關于檢索課題的全面的、綜合的檢索結果,并能盡快提供使用成為信息工作者的研究熱點。而案例檢索將關于某一類問題的檢索準備過程、檢索過程以及對于檢索結果的分析作為一個案例進行研究,并且通過研究案例檢索,建立案例庫,有利于用戶使用現成或相關案例進行更快的檢索。
(2)更好的面向用戶,為用戶提供優質的信息服務目標,也決定了案例檢索的必要性。
現代化的信息服務應以用戶為中心,提供面向用戶的服務,這除了要求信息服務者為用戶提供已有的信息以外,還要幫助用戶學習如何檢索,尤其是幫助他們掌握一定的檢索技巧。而以案例的方式幫助和引導用戶掌握檢索技巧能給用戶以更多的感性認識,容易為用戶所接受,而且用戶還可以直接使用別人已有的知識成果,也加強了用戶之間的溝通和交流。
2.什么是案例檢索
(1)案例檢索的實質
所謂案例檢索,實質上就是要在用戶給出某一待檢案件之后,檢索系統能夠自動地從案例庫中,尋找出用戶所指定的方面與案件完全相同或部分相同的案例來;而且輸出結果能按符合用戶要求的程度進行排序,符合提問程度高的優先輸出。
(2)實現案例檢索的思想
案例檢索就是通過建立案例庫,然后在案例庫基礎上通過案例推理來實現。案例推理(Case-BasedReasoning,簡稱CBR)的研究始于1982年Shank的論著《DynamicMemory》,其后Kolodener等人1983年在計算機上實現,其思想就是將過去案例與當前問題相聯系,利用類比推理進行問題的求解。所以在建立案例庫的時候,就需要對準備收錄于案例庫中的案例的特點,即實質性內容提取出來,構成足以揭示其實質內容的特征集合。進行檢索的時候也必須對用戶需求進行分析,得出其需求的特征,并根據用戶查全及查準的不同需要,給出一個相關程度的要求,然后對案例庫內已收集案例的特征集合進行比對,進行案例匹配,得出己有案例與用戶需求之間相關聯的程度,與用戶需求相比對,并最終確定該案例是否為用戶需求的案例。
(3)案例檢索實現的難點
通過以上對案例檢索實現思想的介紹,我們不難發現案例檢索的難點主要有以下幾點:
①從案例中提取主題等特征信息。無論在建立案例庫,還是在提出檢索要求的時候,都需要對案例中的特征信息進行提取。在這些需要提取的特征信息中,如果是涉及到案例的外部信息,例如作者,標題等,則較易處理和用計算機系統實現。但是涉及到案例的內部特征,例如主題等信息時,如果是用手工處理,則對案例的加工人員以及檢索服務人員提出了很高的要求,另外在信息資源如此龐雜的時代,單靠手工作業對案例進行加工,很容易造成加工標準的不統一和案例庫中信息更新的不及時。所以如何準確、及時的從案例中提取特征信息就成了案例檢索實現的一個難點。
②案例檢索系統效率的提高。案例檢索的特點使得完成一次案例檢索實際上相當于完成大量的普通檢索。在上文中介紹的經典的案例檢索模型是基于比較的,檢索的速度與案例庫的大小呈線形關系,即案例的檢索速度隨案例庫容量的增大而線形下降。對于庫容量很大而實時要求較高的應用領域,這種模型的缺點是應用系統難以接受的。同時案例檢索中必然會產成大量的中間檢索結果,如何解決其存貯問題,并對其進行排序,確定檢索結果與檢索課題的相關性,在設計案例檢索實現算法的時候都必須考慮才能提高檢索系統的效率。
③CBR模型的建立和算法的實現。上文已經介紹了案例檢索的核心技術在于CBR.一個典型的CBR操作過程由以下步驟構成:第一步,檢索最相似的案例(Retrieve),當檢索到的結果不是一個案例而是一個案例集合時,則需進一步確定最合適者;第二步,對目標方案進行修訂(Revise);第三步,用已有的案例解決新的問題(Reuse);第四步,當前解作為新的案例存儲(Retain)。從中我們可以看出,CBR全面模擬了人的認識心理活動,是多種AI技術的綜合,目前已成為人工智能技術和知識系統中一個活躍的研究課題,其模型的建立和算法的實現也是實現案例檢索的一個難點。
3.案例庫建立中應注意的問題
案例庫建立的好壞將直接影響到檢索的結果和其可用性,在案例庫的建設過程中,我們應該注意以下一些問題:
3.1 案例的選擇
建設一個檢索案例庫,首先就需要確定案例收錄的原則。對案例的選擇應該遵循以下幾條原則:
(1)全面性。隨著信息服務的日益專業化,案例庫的建立根據服務商不同的經營定位必然將走向兩極分化:或全面或專業。但無論如何,為了滿足用戶對查全率的要求,都必須盡量做到全面。
首先,如果選擇建立全面的案例庫,那么所選案例的主題就應覆蓋各個領域的各個專業,這樣才能滿足不同領域的用戶的信息需求。如果選擇建立專業的案例庫,也必須在專業的專深和全面性上下功夫。其次,無論是選擇這兩者中的哪一個,鑒于目前信息資源的多樣性特點,都必須確保收錄檢索案例來源比較全面,這樣才能節約用戶使用多種信息資源(如文獻資源、網絡資源、聯機數據庫資源、光盤等)的時間,滿足用戶全面性以及建立在全面性上的準確性的要求。
(2)典型性。盡管對于案例的全面性有很高的要求,但是一個檢索案例庫不可能將所有可能的問題都作為案例收入其中,這就要求所選的案例應具有一定的典型性,能反映某一門學科或某一類資源的特點,并能作為同類事件的代表;同時對于案例的選擇還要做到大小結合(即大型案例和小型案例的結合)、難易結合,這樣才能適應不同需求的信息用戶。能否選擇有典型性的案例是案例庫建設是否成功的一個關鍵。有典型性的案例不僅可以直接使用,還具有普遍的適用性,可以幫助用戶大大提高檢索的效率。
(3)準確性。雖然更多的用戶對案例庫的檢索是要借鑒其它問題的解決方案,并不一定是想獲得直接可以使用的結果,案例的準確性仍是一個關鍵,尤其是在檢索的思路以及檢索結果的研究上。所以要仔細考察案例的準確性,必要時還應親自重新檢索瀏覽一遍,不能讓錯誤的案例誤導用戶。
(4)保密性。案例是對一個問題的綜合解決,所以其中很可能會涉及到個人隱私或單位的商業秘密,對于案例中的這些部分應咨詢當事人的意見,獲得授權,而對屬于保密范圍的信息應予以保護,不予公開。
3.2 案例的收集加工
案例的收集和加工直接影響到案例庫建設的成功與否。所以在每一個案例的檢索過程中,都要對找到的新的信息資源隨時分類和評估。所查到的資源可以按以下標準分類:新聞組(newsgroup)、郵件群(mailinglist)、電子期刊(ejournal)、電子文本(etext)、電子論壇(eref)、電子書籍(ebook)、數據庫系統(edatabase)或書本文獻。其中前六種的信息資源可以按主題或關鍵詞分類管理。對查到的信息資源評估原則如下:
(1)可獲取程度:是否容易獲得,收費情況如何,是否能連續穩定的獲得等等;
(2)可信程度:該資源所發布的年份,發布的場合及其可信度評級等等;
(3)資源等級:是學術信息資源、政府信息資源還是公司提供的信息資源;
(4)可使用程度:是一次、二次,還是三次文獻信息。
在案例的檢索過程中,始終按照以上的分類和評估原則對查到的案例信息資源分析處理,便于案例庫的建立和以后的再建設。
3.3 案例庫的維護及再建設
案例庫內的案例信息不應該是固定不變的。為了保證案例庫的質量,案例庫的建設者必須圍繞案例庫的建庫對象以及案例庫使用者的需求對案例庫進行維護和再建設,定時和不定時增加新的案例,對于已經沒有使用價值的案例要進行剔除,使該案例庫能夠跟上時代的發展,滿足人們需求的不斷變化。這樣才能保證案例庫中的每一個案例都能滿足特定用戶的需要,并保持一定的使用率。
3.4 案例庫的評價
案例庫的建設過程還應該積極對案例庫評價指標進行探索,才能更好的促進案例檢索的發展。案例庫評價的標準應該包括對案例的評價標準和對系統的評價標準。對案例的評價標準實際上就可以采用本文在前面已經介紹過的案例選擇的標準。而對系統的評價標準,可以參照計算機檢索系統的評價標準,例如案例庫信息收藏量的多少、檢索的速度、引得深度、案例庫信息更新是否及時等等。但是由于案例檢索和其它檢索的不同,它在減少用戶對檢索過程的參與的同時,也就帶來了對檢索結果適用性的更高要求。所以在對案例庫評價時,應充分重視用戶的反饋意見,不斷根據用戶的反饋及用戶的使用情況對案例庫進行評價,以不斷更新案例庫的內容,提高系統指標,更好的滿足用戶的需要。
當然除了以上討論的幾個案例庫建設中需要注意的問題外,還必須注意案例庫檢索系統的設計。案例檢索是由于其更貼近人們日常思維方式而受到人們關注的,所以在案例庫檢索系統設計中應該突出這方面的特點,比如用戶界面采用人性化設計,整個程序設計基于B/S結構,在案例庫檢索過程中突出其幫助功能等等。
總之,案例檢索作為新興的檢索方式,由于其更貼近人們日常思維方式,能提供更便于使用的檢索結果,必將受到人們的關注,并逐步成為檢索發展的趨勢之一。
原載《情報科學》2003年6月。