直男被压成总受肉高h_日一区二区_国产21区_动漫美女被吸乳羞羞软件

新聞中心

搜索引擎關鍵詞排名的鏈接原理

類型 : 行業動態

 

    在Google誕生之前,傳統搜索引擎主要依靠頁面內容中的關鍵詞匹配搜索詞進行排名。這中排名方式的短處現在看來是顯而易見,那就是很容易被刻意操縱。黑帽SEO在頁面上堆積關鍵詞。或加入與主題無關的熱門關鍵詞,都能提高排名,使搜索引擎排名結果質量大為下降。現在的搜索引擎都使用鏈接分析技術減少垃圾,提高用戶體驗。本節就簡要探討鏈接在搜索引擎排名中的應用原理。
 
        在排名中計入鏈接因素,不僅有助于減少垃圾,提高結果相關性,也使傳統關鍵詞匹配無法排名的文件能夠被處理。比如圖片、視頻文件無法進行關鍵詞匹配,但是卻可能有外部鏈接,通過鏈接信息,搜索引擎就可以了解圖片和食品的內容從而排名。
 
         鏈接因素現在已經超過頁面內容的重要性。不過理解鏈接關系比較抽象。頁面上的因素對排名的影響能看得到:關鍵詞在標題標簽中出現有什么影響,出現在最前面又有什么影響,有技術資源的還可以大規模地統計,技術出關鍵詞出現在標題標簽中不同位置與排名之間的關系。雖然這種關系不一定是因果關系,但至少是統計上的聯系,使SEO人員大致了解如何優化。
 
李彥宏超鏈分析
 
        百度創始人李彥宏在回國之前就是美國頂級的搜索引擎工程師之一。據說李彥宏在尋找風險投資時,投資人詢問其他三個搜索引擎業界的技術高人一個問題:要了解搜索引擎技術應該問誰。這三個被問到的高人中有兩個人回答:搜索引擎的事就問李彥宏。由此投資人斷定李彥宏是最了解搜索引擎的人之一。
 
        這事實就是在現實生活中類似于鏈接關系的應用。要判斷哪個頁面最具權威性,不能光看頁面自己怎么說,還要看其他頁面怎么評價。
 
        李彥宏1997年就提交了一份名為“鏈接文件檢索系統和方法”的專利,這比Google傳說人發明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統信息檢索系統不同的基于鏈接的排名方法。
 
        這個系統除了索引頁面之外,還建立一個鏈接詞庫,記錄鏈接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發出鏈接的頁面索引,包含特定錨文字的鏈接總數,包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型,也包含同一個詞干的其他衍生關鍵詞。
 
        根據這些鏈接數據,尤其是錨文字,計算出基于鏈接的文件相關性。在用戶搜索時,將得到的基于鏈接的相關性與基于關鍵詞匹配的傳統相關性綜合使用,得到更準確的排名。
 
        在今天看到,這種基于鏈接的相關性計算是搜索引擎的常態,每個SEO人員都知道。但是在十幾年前,這無疑是非常創新的概念,當然現在的搜索引擎算法對鏈接的考慮,已經不僅僅是錨文字,實際上要復雜的多。
 
HITS算法
 
        HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為“超鏈誘導主題搜索” 。
 
        按照HITS算法,用戶輸入關鍵詞后,計算對返回的匹配頁面技術兩種值,一種是樞紐值,另一種是權威值,這兩個值是相互依存、相互影響的。所謂樞紐值,指的是頁面上所有導出鏈接指向頁面的權威值之和。權威值指的是所有導入鏈接所在頁面的樞紐值之和。
 
        上面的定義比較拗口,我們可以簡單的說,HITS算法會提煉出兩種比較重要的頁面。也就是樞紐頁面和權威頁面。樞紐頁面本身可能沒有多少導入鏈接,但是有很多導出鏈接指向權威頁面。權威頁面本身可能導出鏈接不多,但是有很多來自樞紐頁面的導入鏈接。
 
        典型的樞紐頁面就是如雅虎目錄,開放目錄或好123這樣的網站目錄。這種高質量的網站目錄作用就在于指向其他權威網站,所有稱為樞紐,而權威頁面有很多導入鏈接。其中包含很多來自樞紐頁面的鏈接。權威頁面通常是提供真正相關內容的頁面。
 
        HITS算法是針對特定查詢詞的,所以稱為主題搜索。
 
 
        HITS算法的最大缺點是,它在查詢階段進行計算,而不是在抓取或預處理階段。所以HITS算法是以犧牲查詢排名相應為代價的。也正因為如此。原始HITS算法在搜索引擎中并不常用。不過HITS算法的思想很可能融入到搜索引擎的索引階段,也就是根據鏈接關系找出具有樞紐特征或權威特征的頁面。
 
        稱為權威頁面的第一優先,不過難度比較大,唯一的辦法就是獲得高質量的鏈接,當你的網站不能成為權威頁面時,就讓它成為樞紐頁面。所以導出鏈接也是當前搜索引擎排名的因素之一。絕不鏈接到其他網站的做法,并不是好的SEO辦法。
 
 
TrustRank算法
 
        TrustRank是近年來比較受關注的基于鏈接關系的排名算法。TrustRank可以翻譯為“信任指數”。
 
        TrustRank算法最初來自于2004年斯坦福大學和雅虎的一項聯合研究,用來檢測垃圾網站,并且于2006年申請專利。TrustRank算法發明人還發表了一份專門的PDF文件,說明TrustRank算法的應用。
 
TrustRank算法并不是有Google提出的,不過哦由于Google所占市場份額最大,而且TrustRank在Google排名中也是一個非常重要的因素,所以有些人誤認為TrustRank是Google提出的。更讓人糊涂的是,Google曾經把TrustRank申請為商標,但是TrustRank商標中的TrustRank指的是Google檢測含有惡意代碼網站的方法,而不是指排名算法中的信任指數。
 
        TrustRank算法基于一個基本假設:好的網站很少會鏈接到壞的網站,反之則不成立,也就是說,壞的網站很少鏈接到好的網站這句話不成立。正相反,很多垃圾網站會鏈接到高權威、高信任指數的網站,試圖提高自己的信任指數。
 
        基于這個假設,如果能挑選出可以百分之百信任的網站,這些網站的Trustrank評為最高,這些TrustRank最高的網站所鏈接的網站信任網站稍微降低,但也會提高。與此類似,第二層被信任的網站鏈接出去的第三層網站,信任度繼續下降。由于種種原因,好的網站也不可避免的會鏈接到一些垃圾網站,不過離第一層網站點擊距離越近,所傳遞的信任指數越高,離第一級網站點擊距離越遠,信任指數將以此下降,這樣,通過TrustRank算法,就能給所有網站計算出相應的信任指數,離第一層網站越遠,成為垃圾網站的可能性越大。
 
        計算TrustRank值首先要選擇一批種子網站,然后人工查看網站,設定一個初始TrustRank值,挑選種子網站的兩種方式,一種是選擇導出鏈接最多的網站,因為TrustRank算法就是計算指數隨著導出鏈接的衰減。導出鏈接多的網站,在某種意義上可以理解為“逆向PR值”比較高。
 
        另一種挑選種子網站的方法是選PR值高的網站,因為PR值越高,在搜索結果頁面出現的概率越大。這些網站才正是TrustRank算法最關注的、需要調整排名的網站,那些PR值很低的頁面,在沒有TrustRank算法時排名也很靠后,計算TrustRank意義就不大了。
 
        根據測算,挑選出兩百個左右網站作為種子,就可以比較準確地計算出所有網站的TrustRank值。
 
        計算TrustRank隨鏈接關系減少的公式有兩種形式。一種是隨著鏈接次數衰減,也就是說如果第一層頁面TrustRank指數為100,第二層頁面衰減為90,第三層衰減為80.第二種計算辦法是按導出鏈接數目分配TrustRank值,也就是說,如果一個頁面的TrustRank值為100,頁面上有5個導出鏈接,那個鏈接將傳遞20%的TrustRank值,衰減和分配這兩種計算方法通常綜合使用,整體效果都是隨著鏈接層次的增加,TrustRank值逐步降低。
 
        得出網站和頁面的TrustRank值后,可以通過兩種方式影響排名。一種是把傳統排名算法挑選出的多個頁面,根據TrustRank值比較,重新做排名調整。另一種是設定一個最低的TrustRank值門檻,只有超過這個門檻的頁面,才被認為有足夠的質量進入排名,低于這個門檻的頁面將被認為是垃圾頁面,從搜索結果中過濾出去。
 
        雖然TrustRank算法最初是作為檢測垃圾的辦法,但在現在的搜索引擎排名算法中,TrustRank概念使用更為廣泛,常常影響大部分網站的整體排名,TrustRank算法最初針對的是頁面級別,現在在搜索引擎算法中,TrustRank值也通常表現在域名級別,整個域名的信任指數越高,整體排名能力就越強。
 
Google PR
 
         PR是PageRank的縮寫。Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。PR是Google創始人之一拉里佩奇發明的,用于表示頁面重要性的概念。用最簡單的話說就是,反向鏈接越多的頁面就是越重要的頁面,因此PR值也就越高。Google PR有點類似于科技文獻中互相應用的概念,被其他文獻引用較多的文獻,很可能是比較重要的文獻。
PR的概念和計算
         我們可以把互聯網歷程成由結點和鏈接組成的有向圖,頁面就是一個個結點,頁面之間的有向鏈接傳遞著頁面的重要性。一個鏈接傳遞的PR值決定于導入鏈接所在頁面的PR值,發出鏈接的頁面本身PR值越高,所能傳遞出去的PR值也越高。傳遞的PR數值也取決于頁面上的導出鏈接數目。對于給定PR值的頁面來說,假設能傳遞到下級頁面100份的PR,頁面上有10個導出鏈接,每個鏈接能傳遞10份PR,頁面上有20個導出鏈接的話,每個鏈接只能傳遞5份PR。所以一個頁面的PR值取決于導入鏈接總數,發出鏈接頁面的PR值,以及發出鏈接頁面上的導出鏈接數目。
 
PR的兩個比喻模型
         關于PR有兩個著名的比喻。一個比喻是投票。鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。同時A頁面本身的PR值決定了A所能投出去的投票力,PR值越高的頁面,投出的票也更重要。在這個意義上,傳統基于關鍵詞匹配的算法是看頁面直接說頁面內容是什么,基于鏈接的PR則是看別人怎么評價這個頁面。
         第二個比喻是隨機沖浪比喻。假設一個訪問者從一個頁面開始,不停地隨機點擊鏈接,訪問下一個頁面,有時候這個用戶感到無聊了,就再點擊鏈接,就隨機跳到另一個網址,再次開始不停地向下點擊。所謂PR值,也就是一個頁面在這種隨機沖浪訪問中被訪問到的概率。一個頁面導入鏈接越多,被訪問的概率也越高,因此PR值也越高。
地址 : 浙江省湖州市吳興區加利廣場
QQ : 2279641406 547859428
電話:13735195038 傳真:0572-2198989
電子郵件:cn-hope@163.com 網址:m.hjrvhig.cn
后普網絡 版權所有 Copyright ? 2018 浙ICP備11012944號 網站地圖 | 免責申明 | 聯系我們