|
 |
當前位置:首 頁 > 信息檢索的核心支撐技術 |
|
信息檢索的核心支撐技術 |
發(fā)布日期:2007-5-25 |
關鍵詞:信息檢索 |
。↖nformation Retrieval),通常指文本信息檢索,包括信息的存儲、組織、表現(xiàn)、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經(jīng)歷了手工檢索、計算機檢索到目前網(wǎng)絡化、智能化檢索等多個發(fā)展階段。
目前,信息檢索已經(jīng)發(fā)展到網(wǎng)絡化和智能化的階段。信息檢索的對象從相對封閉、穩(wěn)定一致、由獨立數(shù)據(jù)庫集中管理的信息內(nèi)容擴展到開放、動態(tài)、更新快、分布廣泛、管理松散的Web內(nèi)容;信息檢索的用戶也由原來的情報專業(yè)人員擴展到包括商務人員、管理人員、教師學生、各專業(yè)人士等在內(nèi)的普通大眾,他們對信息檢索從結果到方式提出了更高、更多樣化的要求。適應網(wǎng)絡化、智能化以及個性化的需要是目前信息檢索技術發(fā)展的新趨勢。
信息檢索技術的熱點
◆ 智能檢索或知識檢索
傳統(tǒng)的全文檢索技術基于關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡信息時代,利用關鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計算機”,與“電腦”相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網(wǎng)絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢范圍至“微機”、“服務器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟件”、“計算機應用”等范疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區(qū)分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。
◆ 知識挖掘
目前主要指文本挖掘技術的發(fā)展,目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息,提取知識,滿足信息檢索的高層次需要。 知識挖掘包括摘要、分類(聚類)和相似性檢索等方面。
自動摘要就是利用計算機自動地從原始文獻中提取文摘。在信息檢索中,自動摘要有助于用戶快速評價檢索結果的相關程度,在信息服務中,自動摘要有助于多種形式的內(nèi)容分發(fā),如發(fā)往PDA、手機等。相似性檢索技術基于文檔內(nèi)容特征檢索與其相似或相關的文檔,是實現(xiàn)用戶個性化相關反饋的基礎,也可用于去重分析。自動分類可基于統(tǒng)計或規(guī)則,經(jīng)過機器學習形成預定義分類樹,再根據(jù)文檔的內(nèi)容特征將其歸類;自動聚類則是根據(jù)文檔內(nèi)容的相關程度進行分組歸并。自動分類(聚類)在信息組織、導航方面非常有用。
◆ 異構信息整合檢索和全息檢索
在信息檢索分布化和網(wǎng)絡化的趨勢下,信息檢索系統(tǒng)的開放性和集成性要求越來越高,需要能夠檢索和整合不同來源和結構的信息,這是異構信息檢索技術發(fā)展的基點,包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語種信息的檢索;支持結構化數(shù)據(jù)、半結構化數(shù)據(jù)及非結構化數(shù)據(jù)的統(tǒng)一處理;和關系數(shù)據(jù)庫檢索的無縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實踐來講,發(fā)展到異構信息整合檢索的層面,基于自然語言理解的人機交互以及多媒體信息檢索整合等方面尚有待取得進一步突破。
另外,從工程實踐角度,綜合采用內(nèi)存和外部存儲的多級緩存、分布式群集和負載均衡技術也是信息檢索技術發(fā)展的重要方面。
隨著互聯(lián)網(wǎng)的普及和電子商務的發(fā)展,企業(yè)和個人可獲取、需處理的信息量呈爆發(fā)式增長,而且其中絕大部分都是非結構化和半結構化數(shù)據(jù)。內(nèi)容管理的重要性日益凸現(xiàn),而信息檢索作為內(nèi)容管理的核心支撐技術,隨著內(nèi)容管理的發(fā)展和普及,亦將應用到各個領域,成為人們?nèi)粘9ぷ魃畹拿芮谢锇椤?
信息檢索不等于 搜索引擎
互聯(lián)網(wǎng)的發(fā)展明顯地促進了信息檢索技術的發(fā)展和應用,一大批搜索引擎產(chǎn)品誕生,為網(wǎng)民提供了很好的快速信息獲取和網(wǎng)絡信息導航工具,但是將信息檢索等同于使用搜索引擎就陷入了誤區(qū)。搜索引擎技術中也普遍采用了全文信息檢索技術,但互聯(lián)網(wǎng)信息搜索和企業(yè)信息搜索是不同的。
一是數(shù)據(jù)量。傳統(tǒng)信息檢索系統(tǒng)一般索引庫規(guī)模多在GB級,但互聯(lián)網(wǎng)網(wǎng)頁搜索需要處理幾千萬上億的網(wǎng)頁,搜索引擎的基本策略都是采用檢索服務器群集,對大多數(shù)企業(yè)應用是不合適和不必要的,并不適用于企業(yè)應用。
二是內(nèi)容相關性。信息太多,查準和排序就特別重要,Google等搜索引擎發(fā)展了網(wǎng)頁鏈接分析技術,根據(jù)互聯(lián)網(wǎng)上網(wǎng)頁被連接次數(shù)作為重要性評判的依據(jù)。但企業(yè)網(wǎng)站內(nèi)部的網(wǎng)頁鏈接由網(wǎng)站內(nèi)容采編發(fā)布系統(tǒng)決定,其鏈接次數(shù)存在偶然因素,不能作為判別重要性的依據(jù)。真正的企業(yè)應用的檢索要求基于內(nèi)容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分析技術此種排序基本不起作用。
三是實時性。搜索引擎的索引生成和檢索服務是分開的,周期性更新和同步數(shù)據(jù),大的搜索引擎的更新周期需要以周乃至月度量;而企業(yè)信息檢索需要實時反映內(nèi)外信息變化,搜索引擎系統(tǒng)機制并不能適應企業(yè)中動態(tài)性數(shù)據(jù)增長和修改的要求。
四是安全性;ヂ(lián)網(wǎng)搜索引擎都基于文件系統(tǒng),但企業(yè)應用中內(nèi)容一般均會安全和集中地存放在數(shù)據(jù)倉庫中以保證數(shù)據(jù)安全和管理的要求。
五是個性化和智能化。由于搜索引擎數(shù)據(jù)和客戶規(guī)模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能技術很難應用,而專門針對企業(yè)的信息檢索應用能在智能化和個性走得更遠。
信息檢索的起源
信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發(fā)展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。
隨著1946年世界上第一臺電子計算機問世,計算機技術逐步走進信息檢索領域,并與信息檢索理論緊密結合起來;脫機批量情報檢索系統(tǒng)、聯(lián)機實時情報檢索系統(tǒng)相繼研制成功并商業(yè)化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和數(shù)據(jù)庫技術的推動下,信息檢索在教育、軍事和商業(yè)等各領域高速發(fā)展,得到了廣泛的應用。Dialog國際聯(lián)機情報檢索系統(tǒng)是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統(tǒng)之一。
| |
|
上一條:
互聯(lián)網(wǎng)需要全文檢索 |
|
下一條:
搜索引擎的技術發(fā)展趨勢
|
|
 |
|