目前,垂直搜索引擎正成為互聯(lián)網(wǎng)發(fā)展的下一個熱點。比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索。采用Gpower SmartSearch,實時索引企業(yè)已有的資料庫,并結(jié)合互聯(lián)網(wǎng)信息抓取技術(shù),成為構(gòu)建垂直搜索引擎的基礎(chǔ)。
一個好的搜索引擎,就是要精確、快速找到客戶想要的信息,具體表現(xiàn)為:
極高的準(zhǔn)確性
查全率,能確保滿足要求的每筆資料都能檢索到
智能性,能主動猜測用戶的意圖
支持多種數(shù)據(jù)源,包括文件、網(wǎng)頁、數(shù)據(jù)庫
采用與清華大學(xué)合作開發(fā)的分詞算法,支持對中文、英文、數(shù)字的混合分詞。中文分詞有效地消除中文歧義,中文單詞識別準(zhǔn)確率達(dá)到99%以上。智能識別中文人名單詞,數(shù)量詞,Email、URL等信息,為用戶提供更精準(zhǔn)的檢索結(jié)果。
采用相關(guān)度分析技術(shù),使相關(guān)度高的結(jié)果排在前面,低的排在后面。對檢索單詞進(jìn)行智能提示:包括拼寫檢查、相關(guān)詞建議等,有效的幫助用戶找到想要的信息。拼音檢索,方便客戶的查詢輸入。二次檢索,逐步縮小結(jié)果范圍,鎖定自己需要的結(jié)果。
結(jié)合智能分詞技術(shù)和字詞混合技術(shù),確保查詢結(jié)果無一漏掉。查詢結(jié)果無論多少,都能檢索到。Google只有前100頁,baidu只有前76頁。
系統(tǒng)除了支持文件系統(tǒng)、Internet網(wǎng)站,還能對主流的關(guān)系數(shù)據(jù)庫(Oracle,SQL Server,DB2等)、FTP服務(wù)器等進(jìn)行索引。其靈活的數(shù)據(jù)源接口可以擴展,如對郵件系統(tǒng)、知識庫等進(jìn)行檢索。
在G級數(shù)據(jù)集合上達(dá)到亞秒級檢索速度
增量索引,確保索引速度快
索引空間膨脹率<0.5
可以支持檢索靜態(tài)網(wǎng)頁、動態(tài)網(wǎng)頁、文件系統(tǒng)的目錄文件等。支持對各種格式化文檔的檢索(如PDF, Word, Excel, PPT等文件)。
系統(tǒng)全面支持Web服務(wù),可以方便與各個系統(tǒng)(包括.NET系統(tǒng))集成,100%滿足企業(yè)、政府檢索的需要。支持XML輸出,可應(yīng)用于RSS。開放的API,支持二次開發(fā)。
采用純Java語言開發(fā),全面支持J2EE,可運行于Windows、UNIX、Linux平臺,在內(nèi)核上采用先進(jìn)的多級索引、緩存技術(shù),性能卓越。是唯一全面支持J2EE平臺的搜索引擎。安全、穩(wěn)定是J2EE的最大特色。
采用增量更新方式對內(nèi)容進(jìn)行更新,即每次檢查數(shù)據(jù)變化時,只對新添加或發(fā)生變化的數(shù)據(jù)進(jìn)行更新,索引性能明顯優(yōu)于只能進(jìn)行完全更新的系統(tǒng)。
系統(tǒng)維護(hù)管理工具采用自動和人工兩種方式,支持遠(yuǎn)程維護(hù)和管理,通過設(shè)置任務(wù)計劃可以實現(xiàn)遠(yuǎn)程無人值守的維護(hù)更新托管方式。更新及時,可以達(dá)到分鐘級自動監(jiān)測,支持增量更新,確保檢索最新的資料。
對于輸出結(jié)果,可以根據(jù)字段進(jìn)行排序,比如相關(guān)度、點擊率、日期等,方便用戶快速找到需要的資料。這是與google、baidu等搜索引擎重要區(qū)別的特征。
系統(tǒng)默認(rèn)排序按照相關(guān)度排序,相關(guān)度排序以檢索詞與網(wǎng)頁的相關(guān)性為依據(jù)對檢索結(jié)果排序,相關(guān)性是對詞頻、詞位(詞在文章中出現(xiàn)的位置)、以及文件大小等因素綜合評價的結(jié)果;時間排序則可以保證把最新的數(shù)據(jù)優(yōu)先輸出。
采用B/S架構(gòu),維護(hù)管理端用瀏覽器即可,無需安裝任何客戶端。管理方便,對于數(shù)據(jù)庫索引提供配置向?qū)。檢索顯示模板任意定制,可視化編輯器。在配置好初始的數(shù)據(jù)源后,系統(tǒng)可以定時更新數(shù)據(jù)源中發(fā)生變化的信息,不需要人工干預(yù)。