隨著“眼球經(jīng)濟(jì)”席卷互聯(lián)網(wǎng),成千上萬(wàn)的資金迅速流向最能吸引瀏覽著眼球的搜索引擎市場(chǎng)。有大量調(diào)查顯示搜索引擎市場(chǎng)正處在高速發(fā)展時(shí)期,成為了未來(lái)幾年內(nèi)最具發(fā)展?jié)摿Φ漠a(chǎn)業(yè)之一。隨著Google、百度、中國(guó)搜索等各具特色的搜索引擎逐漸成為人們最常用的網(wǎng)絡(luò)工具,企業(yè)對(duì)搜索引擎的注意力也從“觀察”升級(jí)為“動(dòng)武”。
隨著市場(chǎng)容量和使用者人數(shù)的不斷激增,如何完善搜索功能使之更加公平、公開(kāi)、標(biāo)準(zhǔn)和人性化也就隨之成為了一個(gè)備受關(guān)注的話題。但是有一個(gè)矛盾體在這其中不斷的顯現(xiàn)出來(lái):收費(fèi)可以為搜索引擎公司帶來(lái)利潤(rùn),但同時(shí)會(huì)降低訪問(wèn)者的體驗(yàn)滿意度。如何權(quán)衡金錢和用戶需求之間的天平呢?
Google成功的秘密
到2004年為止,Google( http://www.google.com )已經(jīng)連續(xù)兩年被評(píng)為全球第一品牌,Google成立僅五年時(shí)間,最初只是兩個(gè)斯坦福大學(xué)學(xué)生的研究項(xiàng)目。這不能不說(shuō)是一個(gè)奇跡,就像比爾?蓋茨創(chuàng)制奇跡一樣。比爾?蓋茨能創(chuàng)造奇跡,是因?yàn)樗礈?zhǔn)了個(gè)人計(jì)算機(jī)軟件市場(chǎng)的趨勢(shì),所以創(chuàng)建的公司叫Microsoft(微軟):Micro(小)Soft(軟件)。那么Google呢?在Google出來(lái)之前已經(jīng)有一些很有成就的搜索引擎公司,其實(shí)力也很強(qiáng),看來(lái)不只是Google看見(jiàn)了搜索的趨勢(shì)。Google究竟成功的秘密在哪兒?
Google的成功有許多因素,最重要的是Google對(duì)搜索結(jié)果的排序比其它搜索引擎都要好。Google保證讓絕大部分用搜索的人,都能在搜索結(jié)果的第一頁(yè)找到他想要的結(jié)果。客戶得到了滿足,下一次還過(guò)來(lái),而且會(huì)向其他人介紹,這一來(lái)一往,使用的人就多了。所以Google在沒(méi)有做任何廣告的前提下,讓自己成為了全球最大的品牌。Google究竟采用了哪種排序技術(shù)?PageRank,即網(wǎng)頁(yè)級(jí)別。
Google有一個(gè)創(chuàng)始人叫Larry Page,據(jù)說(shuō)PageRank的專利是他申請(qǐng)的,于是依據(jù)他的名字就有了Page Rank。國(guó)內(nèi)也有一家很成功的搜索引擎公司,叫百度( http://www.baidu.com )。百度的創(chuàng)始人李彥宏說(shuō),早在1996年他就申請(qǐng)了名為超鏈分析的專利,PageRank的原理和超鏈分析的原理是一樣的,而且PageRank目前還在Paten-pending(專利申請(qǐng)中)。言下之意是這里面存在專利所有權(quán)的問(wèn)題。這里不討論專利所有權(quán),只是從中可看出,成功搜索引擎的排序技術(shù),就其原理上來(lái)說(shuō)都差不多,那就是鏈接分析。超鏈分析和PageRank都屬于鏈接分析。
鏈接分析到底為何物?由于李彥宏的超鏈分析沒(méi)有具體的介紹,筆者唯一看過(guò)的就是在美國(guó)專利局網(wǎng)站上關(guān)于李彥宏的專利介紹。PageRank的介紹倒是不少,而且目前Google畢竟是全球最大的搜索引擎,這里以PageRank為代表,詳細(xì)介紹鏈接分析的原理。
PageRank揭密
PageRank的原理類似于科技論文中的引用機(jī)制:誰(shuí)的論文被引用次數(shù)多,誰(shuí)就是權(quán)威。說(shuō)的更白話一點(diǎn):張三在談話中提到了張曼玉,李四在談話中也提到張曼玉,王五在談話中還提到張曼玉,這就說(shuō)明張曼玉一定是很有名的人。在互聯(lián)網(wǎng)上,鏈接就相當(dāng)于“引用”,在B網(wǎng)頁(yè)中鏈接了A,相當(dāng)于B在談話時(shí)提到了A,如果在C、D、E、F中都鏈接了A,那么說(shuō)明A網(wǎng)頁(yè)是最重要的,A網(wǎng)頁(yè)的PageRank值也就最高。
如何計(jì)算PageRank值有一個(gè)簡(jiǎn)單的公式 :

其中:系數(shù)為一個(gè)大于0,小于1的數(shù)。一般設(shè)置為0.85。網(wǎng)頁(yè)1、網(wǎng)頁(yè)2至網(wǎng)頁(yè)N表示所有鏈接指向A的網(wǎng)頁(yè)。
由以上公式可以看出三點(diǎn) :
1、鏈接指向A的網(wǎng)頁(yè)越多,A的級(jí)別越高。即A的級(jí)別和指向A的網(wǎng)頁(yè)個(gè)數(shù)成正比,在公式中表示,N越大, A的級(jí)別越高;
2、鏈接指向A的網(wǎng)頁(yè),其網(wǎng)頁(yè)級(jí)別越高, A的級(jí)別也越高。即A的級(jí)別和指向A的網(wǎng)頁(yè)自己的網(wǎng)頁(yè)級(jí)別成正比,在公式中表示,網(wǎng)頁(yè)N級(jí)別越高, A的級(jí)別也越高;
3、鏈接指向A的網(wǎng)頁(yè),其鏈出的個(gè)數(shù)越多,A的級(jí)別越低。即A的級(jí)別和指向A的網(wǎng)頁(yè)自己的網(wǎng)頁(yè)鏈出個(gè)數(shù)成反比,在公式中現(xiàn)實(shí),網(wǎng)頁(yè)N鏈出個(gè)數(shù)越多,A的級(jí)別越低。
每個(gè)網(wǎng)頁(yè)有一個(gè)PageRank值,這樣形成一個(gè)巨大的方程組,對(duì)這個(gè)方程組求解,就能得到每個(gè)網(wǎng)頁(yè)的PageRank值;ヂ(lián)網(wǎng)上有上百億個(gè)網(wǎng)頁(yè),那么這個(gè)方程組就有上百億個(gè)未知數(shù),這個(gè)方程雖然是有解,但計(jì)算畢竟太復(fù)雜了,不可能把這所有的頁(yè)面放在一起去求解的。對(duì)具體的計(jì)算方法有興趣的朋友可以去參考一些數(shù)值計(jì)算方面的書。
總之,PageRank有效地利用了互聯(lián)網(wǎng)所擁有的龐大鏈接構(gòu)造的特性。 從網(wǎng)頁(yè)A導(dǎo)向網(wǎng)頁(yè)B的鏈接,用Google創(chuàng)始人的話講,是頁(yè)面A對(duì)頁(yè)面B的支持投票,Google根據(jù)這個(gè)投票數(shù)來(lái)判斷頁(yè)面的重要性,但Google除了看投票數(shù)(鏈接數(shù))以外,對(duì)投票者(鏈接的頁(yè)面)也進(jìn)行分析!钢匾浴垢叩捻(yè)面所投的票的評(píng)價(jià)會(huì)更高,因?yàn)榻邮苓@個(gè)投票頁(yè)面會(huì)被理解為「重要的物品」。從新浪、雅虎、微軟的首頁(yè)都有我網(wǎng)頁(yè)的三個(gè)鏈接的話,可能比我在其他網(wǎng)站找三十個(gè)鏈接還強(qiáng)。如果還有人不理解這個(gè)原理,就去想想有句成語(yǔ)叫:三人成虎。如果有三個(gè)人都說(shuō)北京大街上有老虎,那么許多人會(huì)認(rèn)為有老虎,如果這三個(gè)人都是國(guó)家領(lǐng)導(dǎo)人的話,那么所有人都會(huì)認(rèn)為北京大街上有老虎。
每個(gè)網(wǎng)頁(yè)都會(huì)有PageRank值,如果大家想知道自己網(wǎng)站的網(wǎng)頁(yè)P(yáng)ageRank值是多少,最簡(jiǎn)單的辦法就是下載一個(gè)Google的免費(fèi)工具欄( http://toolbar.google.com/ ),

每當(dāng)你打開(kāi)一個(gè)網(wǎng)頁(yè),都可以很清楚的看見(jiàn)此網(wǎng)頁(yè)的PageRank值。當(dāng)然這個(gè)值是一個(gè)大概數(shù)字。
據(jù)Google技術(shù)負(fù)責(zé)人介紹,Google除了用PageRank衡量網(wǎng)頁(yè)的重要程度以外,還有其它上百種因素來(lái)參與排序。其它搜索引擎也是如此,不可能按照某一種規(guī)則來(lái)進(jìn)行搜索結(jié)果的排序。
其他方法
HillTop算法:
HillTop同樣是一項(xiàng)搜索引擎結(jié)果排序的專利,是Google的一個(gè)工程師Bharat在2001年獲得的專利。Google的排序規(guī)則經(jīng)常在變化,但變化最大的一次也就是基于HillTop算法進(jìn)行了優(yōu)化。HillTop究竟原理如何,值得Google如此青睞?
其實(shí)HillTop算法的指導(dǎo)思想和PageRank的是一致的,都是通過(guò)網(wǎng)頁(yè)被鏈接的數(shù)量和質(zhì)量來(lái)確定搜索結(jié)果的排序權(quán)重。但HillTop認(rèn)為只計(jì)算來(lái)自具有相同主題的相關(guān)文檔鏈接對(duì)于搜索者的價(jià)值會(huì)更大:即主題相關(guān)網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高。如果網(wǎng)站是介紹“服裝”的,有10個(gè)鏈接都是從“服裝”相關(guān)的網(wǎng)站鏈接過(guò)來(lái),那這10個(gè)鏈接比另外10個(gè)從“電器”相關(guān)網(wǎng)站鏈接過(guò)來(lái)的貢獻(xiàn)要大。Bharat稱這種對(duì)主題有影響的文檔為“專家”文檔,從這些專家文檔頁(yè)面到目標(biāo)文檔的鏈接決定了被鏈接網(wǎng)頁(yè)“權(quán)重得分”的主要部分。
與PageRank結(jié)合HillTop算法確定網(wǎng)頁(yè)與搜索關(guān)鍵詞的匹配程度的基本排序過(guò)程取代了過(guò)份依靠PageRank的值去尋找那些權(quán)威頁(yè)面的方法。這對(duì)于兩個(gè)具有同樣主題而且PR相近的網(wǎng)頁(yè)排序過(guò)程中,HillTop算法就顯得非常的重要了。HillTop同時(shí)也避免了許多想通過(guò)增加許多無(wú)效鏈接來(lái)提高網(wǎng)頁(yè)P(yáng)ageRank值的做弊方法。
錨文本(Anchor Text)
錨文本名字聽(tīng)起來(lái)難以理解,實(shí)際上錨文本就是鏈接文本。例如,在個(gè)人網(wǎng)站上把中央電視臺(tái)( www.cctv.com )做為新聞?lì)l道的鏈接,訪問(wèn)者通過(guò)點(diǎn)擊網(wǎng)站上的“新聞?lì)l道”就能進(jìn)入 http://www.cctv.com 網(wǎng)站,那么“新聞?lì)l道”就是中央電視臺(tái)網(wǎng)站首頁(yè)的錨文本。
錨文本可以做為錨文本所在的頁(yè)面的內(nèi)容的評(píng)估。正常來(lái)講,頁(yè)面中增加的鏈接都會(huì)和頁(yè)面本身的內(nèi)容有一定的關(guān)系。服裝的行業(yè)網(wǎng)站上會(huì)增加一些同行網(wǎng)站的鏈接或者一些做服裝的知名企業(yè)的鏈接;另一方面,錨文本能做為對(duì)所指向頁(yè)面的評(píng)估。錨文本能精確的描述所指向頁(yè)面的內(nèi)容,個(gè)人網(wǎng)站上增加Google的鏈接,錨文本為“搜索引擎”。這樣通過(guò)錨文本本身就能知道,Google是搜索引擎。
錨文本對(duì)搜索引擎起的作用還表現(xiàn)為可以收集一些搜索引擎不能索引的文件。例如,網(wǎng)站上增加了一張張曼玉的照片,格式為jpg文件,搜索引擎目前很難索引(一般只處理文本)。若這張照片鏈接的錨文本為“張曼玉的照片”,那么搜索引擎就能識(shí)別這張圖片是張曼玉的照片,以后訪問(wèn)者搜索“張曼玉”的時(shí)候,這張圖片就能被搜索到。
由此可見(jiàn),在網(wǎng)頁(yè)設(shè)計(jì)中選擇合適的錨文本,會(huì)讓所在網(wǎng)頁(yè)和所指向網(wǎng)頁(yè)的重要程度有所提升。
頁(yè)面版式
每個(gè)網(wǎng)頁(yè)都有版式,包括標(biāo)題、字體、標(biāo)簽等等。搜索引擎也會(huì)利用這些版式來(lái)識(shí)別搜索詞與頁(yè)面內(nèi)容的相關(guān)程度。以靜態(tài)的html格式的網(wǎng)頁(yè)為例,搜索引擎通過(guò)網(wǎng)絡(luò)蜘蛛把網(wǎng)頁(yè)抓取下來(lái)后,需要提取里面的正文內(nèi)容,過(guò)濾其他html代碼。在提取內(nèi)容的時(shí)候,搜索引擎就可以記錄所有版式信息,包括:哪些詞是在標(biāo)題中出現(xiàn),哪些詞是在正文中出現(xiàn),哪些詞的字體比其他的字體大,哪些詞是加粗過(guò),哪些詞是用KeyWord標(biāo)識(shí)過(guò)的等等。這樣在搜索結(jié)果中就可以根據(jù)這些信息來(lái)確定所搜索的結(jié)果和搜索詞的相關(guān)程度。例如搜索“毛澤東”,假如有兩個(gè)結(jié)果,一篇文章標(biāo)題是《毛澤東的一生》,另一篇文章的標(biāo)題是《江青的一生》但內(nèi)容有提到毛澤東,這時(shí)搜索引擎會(huì)認(rèn)為前者比較重要,因?yàn)椤懊珴蓶|”在標(biāo)題里出現(xiàn)了。
因此,合理的利用網(wǎng)頁(yè)的頁(yè)面版式,會(huì)提升網(wǎng)頁(yè)在搜索結(jié)果頁(yè)的排序位置。
收費(fèi)排名
應(yīng)該說(shuō)收費(fèi)排名并不屬于排序技術(shù)(這里指的收費(fèi)排名也包括競(jìng)價(jià)排名),而是一種搜索引擎的贏利模式。但收費(fèi)排名已經(jīng)最直接的影響到了搜索引擎的排序,在此也略做說(shuō)明。
用戶可以購(gòu)買某個(gè)關(guān)鍵詞的排名,只要向搜索引擎公司交納一定的費(fèi)用,就可以讓用戶的網(wǎng)站排在搜索結(jié)果的前幾位,按照不同關(guān)鍵詞、不同位置、時(shí)間長(zhǎng)短來(lái)定義價(jià)格。價(jià)格從幾千元到幾十萬(wàn)元不等(像“六合彩”在3721上的排名費(fèi)用大多是幾十萬(wàn))。
收費(fèi)排名一方面給搜索引擎公司帶來(lái)收益,一方面給企業(yè)帶來(lái)訪問(wèn)量,另外對(duì)訪問(wèn)者也有一定好處。因?yàn)樵L問(wèn)者想找“西服”,企業(yè)想賣“西服”,于是出錢讓訪問(wèn)者能找到他,這樣,買家和賣家能馬上見(jiàn)面。但收費(fèi)排名給訪問(wèn)者帶來(lái)更多的卻是不真實(shí),結(jié)果排序已經(jīng)失去了公正性,有時(shí)候還帶來(lái)大量垃圾。在百度搜索引擎上搜索“ 星球 ”,排在第一位的是一家做石墨的公司,排在第二位的居然是“想找星球?上易趣吧!”(見(jiàn)下圖)。真有些讓訪問(wèn)者哭笑不得。

當(dāng)然,對(duì)于企業(yè)來(lái)說(shuō),收費(fèi)排名是提升網(wǎng)站在搜索引擎中排名的最直接和最簡(jiǎn)單的辦法。如今,如何提升網(wǎng)頁(yè)在搜索引擎中的排序,已經(jīng)形成了一門職業(yè),叫SEO(Search Engine Optimization),即搜索引擎優(yōu)化。SEO是針對(duì)搜索引擎排序的技術(shù),通過(guò)修改網(wǎng)頁(yè)(或者網(wǎng)站)結(jié)構(gòu)和主動(dòng)增加網(wǎng)站鏈接等方法來(lái)讓搜索引擎認(rèn)為這些網(wǎng)頁(yè)是很重要的,從而提升網(wǎng)頁(yè)在搜索引擎結(jié)果中的排序。
排序技術(shù)的發(fā)展趨勢(shì)
各種搜索引擎的技術(shù)改進(jìn)和優(yōu)化,都直接反應(yīng)到搜索結(jié)果的排序上。許多搜索引擎都在進(jìn)一步研究新的排序方法,來(lái)提升客戶的滿意度。專業(yè)人士認(rèn)為,目前的搜索引擎排序算法上還存在兩大不足。
一、沒(méi)有真正解決相關(guān)性。
相關(guān)性是指搜索詞和頁(yè)面的相關(guān)程度。僅僅通過(guò)鏈接、字體、位置等表面特征,不能真正判斷搜索詞和文章的相關(guān)性,更何況許多時(shí)候這些特征不會(huì)都同時(shí)存在。這也是許多對(duì)搜索引擎做弊方法能有效的原因。另外,有些文章中沒(méi)有出現(xiàn)搜索詞,但說(shuō)的就是和搜索詞十分相關(guān)的內(nèi)容,例如搜索“恐怖分子”,但有網(wǎng)頁(yè)是介紹本拉登的一些破壞行動(dòng),文中沒(méi)有出現(xiàn)“恐怖分子”的子眼,搜索引擎就無(wú)法搜索到該網(wǎng)頁(yè)。表面特征只能治標(biāo),不能治本。治本的方法應(yīng)該是增加語(yǔ)意理解,例如主題詞和關(guān)鍵詞的提取,從語(yǔ)意上分析,得出搜索詞和網(wǎng)頁(yè)的相關(guān)程度,分析的越準(zhǔn),效果就會(huì)越好。
二、搜索結(jié)果的單一化。
在搜索引擎上,任何人搜索同一個(gè)詞的結(jié)果都是一樣。這樣明顯不能滿足訪問(wèn)者?茖W(xué)家搜索“星球”,可能是希望了解星球的知識(shí),但普通人可能是想找“星球大戰(zhàn)”電影,但搜索引擎所給的都是一樣的結(jié)果。如何滿足這些不同類型的訪問(wèn)者,需要對(duì)搜索結(jié)果的個(gè)性化。國(guó)外vivisimo公司( http://www.vivisimo.com )就是想解決這個(gè)問(wèn)題,他們采用對(duì)搜索結(jié)果自動(dòng)聚類的辦法來(lái)滿足不同類型客戶的需要。搜索結(jié)果排序如果要實(shí)現(xiàn)從單一化到個(gè)性化,vivisimo已經(jīng)邁出了一步,但最理想的結(jié)果應(yīng)該是針對(duì)每個(gè)訪問(wèn)者,排序結(jié)果直接和他們的搜索習(xí)慣和意愿有關(guān)。搜索“體育”,對(duì)喜歡足球的人應(yīng)該把足球的相關(guān)結(jié)果排在前面,對(duì)喜歡籃球的人應(yīng)該把籃球的相關(guān)結(jié)果排在前面。
搜索引擎的排序技術(shù)應(yīng)該也會(huì)朝著解決這兩個(gè)不足的方向發(fā)展:語(yǔ)意相關(guān)性和排序個(gè)性化。前者需要完善的自然語(yǔ)言處理技術(shù),后者需要記錄龐大訪問(wèn)者信息和復(fù)雜的計(jì)算,要達(dá)到其中任何一個(gè)的要求均非易事,如何解決這些難題,任務(wù)落在了科學(xué)家和工程師們的肩上,哪個(gè)搜索引擎解決了這些問(wèn)題,她可能會(huì)稱為下一個(gè)搜索世界的霸主。 |