中國國家圖書館是綜合性研究圖書館,是國家總書庫和全國圖書館元數據中心,它同時履行國立圖書館和公共圖書館的職能,承擔著為中央國家領導機關、重點科研、教育、生產單位和社會公眾服務的任務。2008年5月1日,隨著《政府信息公開條例》的實施,公共圖書館被賦予了“政府信息公開窗口”的職責,而為了更好地滿足公眾需求,國家圖書館與北京拓爾思信息技術股份有限公司(簡稱TRS)簽署合作協議,將應用TRS產品建設“國圖政府信息整合發布平臺”,以構建一個方便、快捷的政府公開信息整合服務門戶,使公眾可以像應用Google一樣搜索分布在全國各地政府網站上的政府公開信息,以及國家圖書館收藏的各類政府出版物和學術文獻。
國家圖書館作為全國圖書館界國際化和現代化發展的風向標,它在全國圖書館標準化、規范化、數字化、網絡化建設中發揮著骨干作用,為此筆者對國家圖書館數字資源部主任王志庚進行了獨家專訪,以期望在政府信息公開的新形式下,把國圖在數字資源建設方面的豐富經驗及先進做法展現給大家,從而推動整個圖書館界在政府公開信息開發和利用領域的發展。
筆者:
隨著各級政府部門對政府信息公開目錄的建設,政府信息公開資源的開發利用可能成為今后幾年市場的趨勢,那么國圖對于“政府公開信息整合平臺”這個政府信息公開領域的首個垂直搜索引擎系統,有什么預期的建設目標和建設效益?
王志庚:
圖書館是搜集信息,整理信息,提供信息服務的場所,圖書館員要做的事情就是給“書”找人,給人找“書”,而政府信息就是我們搜集的對象之一。
2008年5月1日《政府信息公開條例》的頒布,對于圖書館來說是一個發展契機,圖書館成為了政府開放信息的查詢窗口。政府信息公開的行為本身是政府行為,它們有層次、分地域、分不同行業和部門,同時政府信息公開的格式也各不相同。但政府信息本身是有關聯性的,不是孤立的,從中央到地方,到各部門,怎樣引用、摘述、流轉、整合這些政府信息公開資源,都需要由我們這樣的專業機構介入。利用成熟的文獻信息管理方法和工具,把政府公開信息納入到圖書館信息整合的流程中來,這樣就能把資源盤活了,因此我們要建設政府公開信息的整合服務平臺。政府的義務是公開,而圖書館的義務是整合和服務。按照我們的設想,國圖整合中央級的政府信息,各省館整合省級和地縣級政府信息,通過國圖的開先河,帶動兄弟圖書館在政府信息整合方面的統籌協調發展。
另外,從信息長期保留和存檔的角度來看,政府網站上的許多信息需要長期保存,如,我們現在行政體制在改革,很多中央部委不存在了,但曾經發布在那些部委網站上的公開信息,對今后的學者了解近當代中國行政生態是很重要的參考依據和文獻素材,所以說,政府網絡信息需要圖書館去做信息整合和服務。
筆者:
《政府信息公開條例》實施至今,關于政府信息公開的訴訟案件已有幾十起,如山東某記者要求環保局把企業排污指標公布出來,但公布這些信息對于環保局來說是個大工程,它需要花很大力氣做整理工作,而國家限定只能收取檢索費、復制費和郵寄費等三項費用,并只收成本價格,如有的地方規定依申請公開一條信息為3毛錢,因此政府就面臨著此類依申請公開“3毛錢”的尷尬。在這方面我國還處于一個空白階段,而在國外這種非常專業的服務卻由第三方做,您怎么看待這個問題?
王志庚:
這屬于增值服務的范疇,在我個人看來,由第三方承接政府信息資源的增值服務也是中國市場未來的一個趨勢,目前在政府信息資源的增值服務方面,國家圖書館涉及到兩點:
政府信息資源的數字化,十幾年以前的政府信息大多都不是數字化形式的,這就涉及一個數字化的問題,如:涉及政府檔案性質的東西需要公開,但它們是紙制出版物,為了讓紙制文獻被檢索、發現和利用,降低整個社會發現和索取利用的成本,就需要把非數字化的信息數字化后放到網上,這也是國圖在做的事情,這是一個增值點。
另外一個增值點是“泛”政府信息的整合和服務,也就是公開目錄未涉及的相關內容,比如:政府組織的各類會議和公共活動,這些都能衍生出來很多內容,可能是孤立的網站、視頻等會議資料,這些就是“泛”政府信息;還有一類是政府官員出席活動的講話,或者政府官員的博客,這些都涉及我國的政治發展,也需要我們國家政府管理好;另外一類是正式的政府出版物,它們屬于商業信息資源。
還有,未來不排除國家圖書館提供“依申請公開窗口”的可能性,當公眾有需要時,通過國圖提出請求,國圖再到相關部門處找到信息源,并經過加工提供給請求者,但國圖作為公共服務的部門,提供信息是公益服務,如果涉及費用,也只有成本費,不會贏利。
政府信息公開有自己的目錄和元數據標準。國家圖書館有自己的知識組織語言,有分類法,有主題詞表,其中主題詞表是目前國內唯一面向海量應用的知識組織工具,用這個詞表來整合政府公開信息所產生的增值作用,值得期待。
筆者:
從標準的制定來講,目前政府信息公開主要是在網站上進行呈現,一旦在網站上呈現,它的存儲或元數據的提取,就完全是按照網站利用或展現的手法來規定一些字段或元數據,但它們沒有圖書館那么深厚的元數據描述基礎,或不全面和不科學,在標準制定方面雖然國辦制定了標準,但是落實到網站上標準在走形,您怎么看待這個問題?
王志庚:
我們也一直在關注和調研這個問題,不同政府網站的元數據框架差異很大,有些甚至完全為了視覺效果,為了迎合網民瀏覽和閱讀的習慣,迎合用戶的感受和體驗來制定元數據標準,但實際上從整合和管理資源的角度講,這種做法不利于信息資源長久的、可持續的保存和增值利用。
這種現象的主要原因是信息公開還是初級階段,很多政府特別是基層政府還沒有完全反應過來,甚至不知道應該怎么做,只知道公開,公開有什么標準、什么步驟、什么程序,沒有什么參考的依據。同時信息公開資源的開發利用是一個鏈條,信息源頭不規范,也就是上游不規范,帶來了下游整合難度非常大。
因此,我非常希望相關管理部門盡早成立一個高層的技術研究工作組,制定并出臺政府信息加工和發布的相關數據、平臺和協議的標準規范,這一規范既要適應未來互聯網的技術發展需求,同時還要兼顧數字出版、數字教育、數字科研和數字圖書館等系統既有的元數據以及系統互操作方面的標準和規范。
筆者:
國務院7月份針對各省市信息公開的建設情況組織了一次調研,在這期間有關人士提出檔案館、圖書館以后會不會成為政府信息公開的容災備份中心?基于此觀點,您覺得對于電子政務服務商來說,2009年圖書館、檔案館會不會在政府信息公開方面做些事情?尤其是地方?
王志庚:
我國的新聞出版管理規定中有一套成熟的出版物繳存制度,對于全國所有的出版社或其他出版機構,只要出版一本書、一本期刊或一份報紙,就必須向國家圖書館免費提供一定數量的樣品,國圖具有無償接受繳送的權利。這也是大多數發達國家都在執行的國家出版物存檔制度。
但我國的政府出版物,特別是過去的政府出版物好多是內部資料,它沒有明確的繳存制度,所以圖書館特別希望在這次政府信息公開中能夠把公共圖書館,特別是省及以下級圖書館作為當地政府出版物的法定收繳單位。只有這樣,圖書館才能實現對政府信息的長期備份保存,不管是紙制的出版物繳存,還是光盤,或網絡形式的政府信息。
文化館、檔案館、圖書館作為政府信息的法定收繳機構,或稱容災備份基地,國際早有這樣的潮流。另外,現在國際上一個很大的趨勢:“圖文檔合流”,就是圖書館、文化館、檔案館的合并,這三者融合的動因,有些是出于財務性需要,由于國家經費有限所致“記憶機構”的體制性合并的現象,主要的誘因是記憶機構的功能性融合,這是網絡環境下“記憶機構”集體實現價值再造 的主動性發展訴求,是現代信息社會共建共享發展的必然結果。
筆者:
網絡上有那么多信息,但大家還找不到信息,這就需要用垂直搜索,行業門戶去細分服務。而政府信息公開就是很大的服務,那么它的服務會不會細分?會怎樣細分?
王志庚:
我覺得肯定要出現細分,無論從供給方還是從需求方,都有細分的要求。我們這里看細分有兩點,一個是分層服務,另一個是分類服務,也就是分內容、分主題的服務。
分層服務是按行政機構建設,國圖整合中央,服務中央;省圖整合省和地縣級信息,服務地方;還有其他的業態,如:搜索引擎或一些商業機構,也可能會做這樣服務。在我們來看分層服務的內容主要有兩種,一種是信息本身的獲取和瀏覽,另一種是一般的檢索發現提供的這種增值服務,這是服務本身的附加值。
分類服務方面,從圖書館來講法律方面,特別是商務、經濟,以及文化都是增值服務的熱點。
在商業方面,如:區域政府會公布招商引資條例,不同的開發區域會有不同的優惠措施,這些都是政府信息。這些信息往往會隨著時間變化而變化或隨著中央指示精神而變化,企業對這類信息的需求非常迫切。
關于法律信息,在國際化的大進程中,中國法律的海外需求非常多,外國人想知道中國政府的態度和我們國內的法律和政策環境,這需要法律信息的外銷問題。
筆者:
Google 和Baidu 等搜索引擎的排序,采用PageRank算法,網頁關聯的越多,排序越靠前。這種信息關聯在政府公開信息增值服務中是不是關鍵點?
王志庚:
信息關聯是信息(知識)服務中非常核心的內容,分兩個層次,一個是文本層,一個是語義層,我們所說的信息關聯,和搜索引擎提供的信息關聯有著本質的區別,我們把他叫作語義分析,把信息本身放到上下文中,利用圖書館的人工或自動的方法或模型測算出來,這一網頁或信息本身與他相關知識點是什么,這些知識點又會衍生出來為用戶推薦什么信息,這個往往具備搜索引擎所不具備的。搜索引擎會根據點擊量和流量,還有一個排名問題,我說的這個是一個語義上的關聯,信息進庫是孤立的,經過增值處理,組織之后所有信息都是關聯的,一個新聞或網頁會成為一條線,一個線會帶一個面,一個面會沿展成一個立體。
國家圖書館正在建設的國家數字圖書館已經籌建了若干中文語義服務的基礎設施。比如,我們的一個服務叫關鍵詞分配的技術,任何信息符合端口可進來,出去就是標準的東西出來,這是一種基礎服務。政府網站給關鍵詞的時候,你把你的文本放到國圖的箱子里,出去的時候就有國圖給你的若干個標準的關鍵詞,這個關鍵詞是全國統一的,這將是一個開放的網絡服務,當然還有很多,我們可以把這種知識服務稱為未來語義網絡的基礎設施。
筆者:
您今天談到的兩點,一個是打造政府信息的數字圖書館,另一個是建設語義網絡的基礎設施,無論從技術方面還是應用方面我想都會給讀者很大的啟發。
王志庚:
國圖將要與TRS合作的“國圖政府信息整合發布平臺”項目在國際上就沒有同行業在做,它是與網絡信息采集保存相關,與信息整合服務、文本挖掘知識組合。我們圖書館人必須把政府信息整合服務作為圖書館價值再造和戰略發展的一個新領域,我們也有一個愿景:希望公眾找信息去圖書館,圖書館是一個可信賴的政府公開信息的收集者、組織者和增值服務者。