華盛恒輝行業(yè)搜索引擎定制開發(fā)是針對某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。行業(yè)搜索是相對通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式,通過針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,行業(yè)搜索引擎則顯得更加專注、具體和深入。行業(yè)搜索是針對某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。
搜索引擎是應(yīng)用于某一個(gè)行業(yè)、專業(yè)的搜索引擎,是搜索引擎的延伸和應(yīng)用細(xì)分化。行業(yè)搜索引擎為用戶提供的并不是上百甚至上千萬相關(guān)網(wǎng)頁,而是范圍極為縮小、極具針對性的具體信息。因此,特定行業(yè)的用戶更加青睞行業(yè)搜索引擎,是行業(yè)搜索引擎的長期、穩(wěn)定的群體。
引擎的出現(xiàn),整合了眾多網(wǎng)站信息,恰恰起到了信息導(dǎo)航的作用。通用搜索引擎就如同互聯(lián)網(wǎng)第一次出現(xiàn)的門戶網(wǎng)站一樣,大量的信息整合導(dǎo)航,極快的查詢,將所有網(wǎng)站上的信息整理在一個(gè)平臺上供網(wǎng)民使用,于是信息的價(jià)值第一次普遍的被眾多商家認(rèn)可,迅速成為互聯(lián)網(wǎng)中有價(jià)值的領(lǐng)域。互聯(lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻?。大家熟知的搜索引?span lang="EN-US">Google、百度、雅虎等是通用搜索引擎現(xiàn)如今的杰出代表,他們?yōu)榛ヂ?lián)網(wǎng)的發(fā)展做出了重要的貢獻(xiàn)。然而,搜索引擎行業(yè)也不是一家公司就可以獨(dú)撐天下的,從百度的上市、yahoo中國的并購一系列動作表明,如今的搜索引擎大戰(zhàn)如同門戶網(wǎng)站初期的競爭一樣激烈。相信,通用搜索引擎在經(jīng)歷過一段時(shí)間的角逐后,也將會繼續(xù)維持幾大服務(wù)商各自分控一部分市場的局面。
搜索引擎概念的提出,就是針對性的為某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。可以簡單的說成是搜索引擎領(lǐng)域的行業(yè)化分工。眾多專業(yè)性網(wǎng)站、行業(yè)網(wǎng)站獨(dú)立服務(wù)于互聯(lián)網(wǎng)的成功,恰恰證明了互聯(lián)網(wǎng)的格局應(yīng)該是多方面的。通用搜索引擎的性質(zhì),決定了其不能滿足特殊領(lǐng)域、特殊人群的精準(zhǔn)化信息需求服務(wù)。市場需求多元化決定了搜索引擎的服務(wù)模式必將出現(xiàn)細(xì)分,針對不同行業(yè)提供更加精確的行業(yè)服務(wù)模式??梢哉f通用搜索引擎的發(fā)展為行業(yè)搜索引擎的出現(xiàn)提供了良好的市場空間,勢必將出現(xiàn)行業(yè)搜索引擎在互聯(lián)網(wǎng)中占據(jù)部分市場的趨勢,也是搜索引擎行業(yè)細(xì)分化的必然趨勢。
整個(gè)過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。行業(yè)搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的行業(yè)搜索引擎。
二、行業(yè)搜索技術(shù)概述
行業(yè)搜索技術(shù)主要分為兩個(gè)層次:模板級和網(wǎng)頁庫級。模板級是針對網(wǎng)頁進(jìn)行模板設(shè)定或者自動生成模板的方式抽取數(shù)據(jù),對網(wǎng)頁的采集也是針對性的采集,適合規(guī)模比較小、信息源少且穩(wěn)定的需求,優(yōu)點(diǎn)是快速實(shí)施、成本低、靈活性強(qiáng),缺點(diǎn)是后期維護(hù)成本高,信息源和信息量小。網(wǎng)頁庫級就是在信息源數(shù)量上、數(shù)據(jù)容量上檢索容量上、穩(wěn)定性可靠性上都是網(wǎng)頁庫搜索引擎級別的要求,和模板方式大的區(qū)別是對具體網(wǎng)頁不依賴,可針對任意正常的網(wǎng)頁進(jìn)信息采集信息抽取……。這就導(dǎo)致這種方式數(shù)據(jù)容量上和模板方式有質(zhì)的區(qū)別,但是其靈活性差、成本高。當(dāng)然模板方式和網(wǎng)頁庫級的方式不是對立的,這兩者對于行業(yè)搜索引擎來說是相互補(bǔ)充的,因?yàn)榧夹g(shù)只是手段,目的是切反用戶之需。本文談及的技術(shù)主要是指網(wǎng)頁庫級別行業(yè)搜索引擎技術(shù)。