“HillTop”論-探索Google排名新算法(續) |
| |
| 此外,若兩個站點均為相同IP地址下的宿主,則認為其中一個是另外一個站點的成員站點。(即:若ww.abc.com和www.ibm.com均為相同IP地址下的宿主,則認為www.abc.com是www.ibm.co.uk的成員站點)
Hilltop算法的一個極其重要的特征在于:若沒有找到搜索引擎認為數量足夠的“專家文件”(要求至少需有兩票),則該算法失效,即返回結果為零。換言之,對于高度明確化的查詢條件(查詢詞語),Hilltop算法的結果很可能為“0”。這是該算法的一個獨特特性。如此一來,造成了SEO一族中的大部分人都深信Google的確在用“商業詞”過濾名單來過濾掉商業網站。 事實上,在Hilltop算法無法奏效時,將顯示“舊”Google的搜索結果。這些查詢條件的集合就是SEO一族所收集并稱之為的“商業詞名單”。這一效果無意中卻提供了一個強有力的證據,表明Google確是采用了Hilltop算法。2003年11月15號,Google基于新算法的更新之后,某分析家就指出:在進行查詢時,若對某一查詢條件加上一些“不包含”的無意義字符,如“carrental–ghjkl”,則Google將會顯示以往(算法變化前)的搜索結果,而繞過所謂的“商業詞”過濾名單。 例如,若查找“realestate–hdfkdhgk”,則Google將試圖返回所有關于“realestate”,同時內容中又不包含“hdfkdhgk”的頁面。又由于包含“hdfkdhgk”這種字眼的網頁幾乎沒有,所以按道理來講,Google返回的查詢結果應該和“realestate”的查詢結果是相同的。然而結果卻出人意料:Google所顯示的查詢結果和采用新算法之前的搜索結果的排名是相同的。事實上,Scroogle.org這個網站就是捕捉Google的搜索結果在排名上的不同,并以此得出一個所謂的“商業詞”過濾名單。 在所謂的“商業詞”背后到底是什么? 我們相信,“商業詞”過濾式效果只是Hilltop算法的一個衍生癥狀。每當用戶進行類似“realestate–hdfkdhgk”的查詢時,Google都會對整個查詢詞語進行Hilltop運算,當無法找到足夠的包含這種查詢詞語的“專家文件”時,該算法將返回一個零值(即零效果)。這就意味著我們通過這種多少有些滑稽的特殊排除詞語繞過了Hilltop算法,這時候Google的其它算法就該出頭發揮作用了,而它們所提供的查詢結果明顯地和算法更新前的查詢結果是一樣的!后來Scroogle.org的聲名鵲起讓Goolge發現了這個bug。后來Google為了防止此類漏洞,索性把查詢分成兩步走,先把排除條件詞語放一邊,將查詢條件送至Hilltop進行運算,如此一來,由于Hilltop不再同時對排除條件進行解析,所以可保證其正常發揮效用,并提供相應的搜索結果,然后再將此結果傳遞給Google算法,Google根據最初查詢中的排除條件從Hilltop提供的結果中將符合排除條件的網頁剔除,然后再將結果顯示給用戶。這也就是為什么我們現在用上面的法子再也無法看到“舊Google”的搜索結果的原因了。 Google新算法意義何在 Hilltop算法與Google的頁面等級算法及頁面相關性算法的結合看起來是超佳組合,幾乎無懈可擊。其聯姻對于鏈接流行度/頁面等級和來自專家文件(LocalScore)的鏈接對你網站的排名的影響程度有著深遠的意義。 我列了一個簡單的公式來說明新算法的效果和影響(謹供參考): “舊”Google排名公式={(1-d)+a(RS)}*{(1-e)+b(PR*fb)} “新”Google排名公式={(1-d)+a(RS)}*{(1-e)+b(PR*fb)}*{(1-f)+c(LS)} 其中: RS=相關性得分:基于網頁標題(Title)。元標識(Metatags),正文標題(Headlines),正文(Bodytext)。URL,圖片Alt文字,錨文字(AnchorText)等元素中出現的關鍵詞得出的分數。 PR=頁面等級:(基于鏈接至你網站的網頁數量及其PR值得出的分數。原始公式為PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn)),其中D為阻尼因子,一般設為0.85;公式可描述為:A網頁的其PR值等于鏈向該頁面的所有鏈接頁面的PR值分別除以各自的外部鏈接數量的總和。 LS=行業得分(LocalScore):根據專家文件計算得出的分數。 a,b,c=調節控制比重:Google用于精工調整查詢結果 d,e,f=阻尼控制:Google用于精工調整查詢結果。目前“f”值可能為“0”。 fb=因子基數:Google工具欄山所顯示的頁面等級得分范圍從1到10,但它實質上并不是一個線性函數,而是一個指數/對數函數。經過分析,我們認為它有一個趨近于8的基數。即PR為5的網頁的值比PR為4要多8倍之多(PR5=PR4X8),同樣,一個PR值為8的網站比一個PR值為4的網站的值要高出4000多倍(PR8=PR4X8X8X8X8)。 Google新算法的優勢/優點 頁面因子極易被人利用和控制,例如最早被用作排名因子的METATAGS,就由于很多網站無度的關鍵詞充斥泛濫而不得不被搜索引擎喊停。此外,在開始的時候,由于顧忌到真實來訪者的感受,對網站內容一般作手腳的并不多,但后來亦難免誘惑,過度優化,甚至頁面上放上許多“隱形”的內容已是屢見不鮮的伎倆。頁面因子確實無形中賦予網站管理員太多“惡意”控制權。而在Google的新算法中,各排名因素所占比重分別如下: 總“排名”得分由三部分組成:相關性得分(頁面因素),頁面等級得分(非頁面因素)和行業得分(非頁面因素): 相關性得分(RS)=20%,頁面等級值(PR)=40%,行業得分(LS)=40% 其中: RS(相關性得分:頁面相關度)--是所有SEO努力的轉換結果; PR(頁面等級得分:外部鏈接度)--是所有建立鏈接的努力的轉換結果; LS(行業得分:專家文件鏈接度)--是得自專家文件的鏈接的轉換結果; 從上述結果不難看出,頁面優化的得分只占到20%,Google顯然已將重心轉至非頁面因子上,而把排名控制權越來越多地從網站管理員手中奪回來。假若一個水平一般般的優化專家可以拿到RS中的10分,而一個水平很高的優化專家最高也不過能拿到18,19分,大家可以看到:這兩個水平懸殊的優化專家之間的差別僅僅只有8分而已! Hilltop算法是否以實時方式運行 Google所擁有的服務器體系架構就是網絡上分布的一萬臺奔騰級服務器。而一旦了解了Hilltop算法后,我們很難相信這樣的奔騰服務器能夠具備如此的處理能力:試想一下,首先要從成千上萬的主題性文件中找到“專家文件”,然后計算目標網頁自這些專家文件的鏈接的得分,然后再將數值返回Google算法的其它排名系統,并做進一步處理—而所有這些要在大約0.07秒內--這個讓Google舉世聞名的搜索速度內完成。確實使人難以置信。 Hilltop算法的運行頻率及涵蓋范圍 我們認為,要保證Google一貫的“閃電般”搜索速度,Google會對搜索頻率較高(熱門)的查詢詞(即所謂的“商業詞”黑名單)定期運行批處理,并將結果存儲起來供日后使用。Google的數據庫擁有數目龐大的高查詢頻率的查詢詞,收集自實地搜索和其AdWords自助廣告系統中所使用的關鍵詞。Google很可能對關鍵詞搜索次數設置了上限值,凡搜索頻率高于此閾值的查詢詞都將被納入Hilltop系統,然后Hilltop系統再對收集的所有高查詢頻率關鍵詞定期運行批處理,可能一個月一次。增量級的稍小規模的批處理可能會頻繁一些。同時,每個月將對Hilltop系統運行批處理后的結果對Google的萬臺服務器的數據庫進行同步更新,但稍小規模的批處理的數據庫更新會更加頻繁一些。 對于那些用戶查詢頻率不算高,因而無此“榮幸”被納入Hilltop算法的查詢詞語,Google仍將使用原來的算法并顯示原來的排名結果。因而對于那些高度明確或專業化的關鍵詞,由于它們被排除在新算法的范圍之內,因而有望保持原來的排名。 Hilltop算法為何經過如此長時間才投入使用 Google早在2003年2月就獲得了該專利,但在實際投入使用前,需要首先保證新算法和Google當時所使用的頁面等級和頁面相關性系統的完全兼容性,所以需要對其兼容性做大量測試,然后再評估算法整合后所提供的結果,再做精工調整,然后是進一步的繁復測試…我想所有這些都需要大量時間。 Google新算法的不利方面/瑕疵 經過進一步分析,我們發現了該算法存在著的若干缺陷和不足: Hilltop的前提是每個專家文件都是完全公正的,且無欺騙和人工操縱成分。然而情況可能并非如此理想。專家文件的一個小小污點就可以對排名產生極大的負面影響。 Hilltop意圖通過“權威性”專家文件的鏈接來確定一個網頁的行業可信度,但又不能夠明確保證這些所謂的“專家文件”的”“量”確是名副其實。 運行Hilltop算法需要大量的計算機處理能力,因而我們猜測Hilltop算法(可能)是每個月對收集到的全部高頻率(熱門)查詢詞運行一次批處理。由于Google算法將40%重心轉移至Hilltop,且Hilltop算法運行后的得分會保持至下一次批處理,因而在此期間搜索結果很可能不會有太大變動。此外,由于“專家”網頁的投票方式往往不會有太大變動,因而在某段時期內我們可能只會看到一些“陳舊”的搜索結果。這一點悖離了搜索引擎的“提供最新、最好”的查詢結果的宗旨。除了“權威網頁”,用戶同樣希望看到一些新鮮的內容,然而對“新”Google而言,用戶只有寄望于那些查詢頻率不太高,從而未被納入Hilltop系統的查詢詞語上看到“新鮮”的查詢結果了。 新站點對熱門查詢詞的排名的難度將越發加大。看來對于那些特別熱門的查詢詞,Google對新網站或新內容的排名的門檻是越來越高了。 商業性站點要鏈向網絡分類目錄,貿易協會,政府貿易機構,教育機構,公益性組織的站點并非難事,故而這樣的站點會占據搜索結果的前十名位置。 哪些站點是Google新算法最可能的殃及者? 成員站點/域群集/運行于相同服務器下的MLM(多層營銷系統程序)程序。 過度依賴“頁面”優化因子的網站。 依賴高度競爭性的查詢詞語來獲得訪問量的網站。 對網站擁有者的若干建議: 排名規則已發生重大改變,網站的成功推廣需從提高PR值及獲得更多來自“專家文件”的鏈接著手; 盡可能為更多主流網上分類目錄(DMOZ,Yahoo,About,LookSmart等),貿易目錄,黃頁,貿易協會和資源頁等所收錄; 避免使用域群集/成員程序或帶有成員性質的系統; 避免來自可疑的FFA站點及鏈接工廠的互惠鏈接。 若干需要澄清的傳言: 關于“過度優化會受到懲罰”之說--過濾優化本身就是一種SPAM,因而受到懲罰也是理所當然的事情。然而當前大多數商業網站所受到的排名沖擊并非由于受到懲罰,而是由Google將重心從頁面因子轉至非頁面因子而造成的。網站的良好優化仍必不可少。 關于“建立外部鏈接不再重要”之說--建立鏈接流行度還是和從前一樣舉足輕重,甚至還有可能會更加重要。Google專利的頁面等級算法仍舊占據舉足輕重的地位。 關于“Google開始使用‘商業詞’過濾名單”之說--Google并沒有使用任何“過濾名單”來懲罰商業站點。Google也無意去“懲罰”或“篩掉”任何東西,它所力求的只是建立一個能夠識別最具備相關性網頁的系統。 站點收錄進DMOZ,Google目錄和商業目錄收錄會讓Google認為該站點屬商業性網站,從而對其進行懲罰--正相反,由于這些目錄都是質量非常之高的“專家文件”,因而得到這些目錄的鏈接不但不會受到懲罰,反而會帶給你較高的收益。 隨著Google對其算法的大更新,我們不得不承認,要想讓網站得到好的排名真是越來越不容易了。若只采用簡單的優化技術,如元標識(Meta)或頁面優化,幾乎沒辦法得到理想排名。我們需要顧及很多的算法變量,而不僅僅是一個MetaTags。搜索引擎優化會更為專業化。老式的優化伎倆已經不管用或收效甚微了。現在需要計劃和實施的是全方位的SEO策略。為保證成效,SEO專家現在需要做的是投入更多的智慧、研究、分析、計劃和時間。這樣的話,SEO的優化“成本”亦將逐漸增高。 PPC(付費點擊)的價格會繼續攀升。PPC廣告方式不但會成為網上營銷策略的一個主要組成部分,而且需要保證相應的搜索引擎訪問量。現在,網站的外部鏈接和頁面等級愈加重要。它對排名的影響更加重要。搜索引擎優化和建立鏈接的結合已勢在必行。此外,搜索引擎排名算法的更新不僅會越加頻繁,而且幅度會越來越大。現在,定期的搜索引擎優化維護變得尤為重要。對網站的搜索引擎優化不僅是必須的,而且大有裨益。 很多網站都丟掉了它們原來的好排名,因而尤其需要搜索優化專家。每一次更新算法都是對搜索引擎優化人員名單的一次縮水。搜索引擎的優化和排名生意變得愈加困難,然而也愈加重要了。 |
| Tags: 美容 | 減肥 | 去斑 | 眼部護理 | 黑眼圈 | 收緊眼袋 | 美容護理 | 暗瘡 | 收毛孔 | 身體護理 | 穴位按摩 | 刮痧 | tutor | 補習 | 導師 | Interior Design | 室內設計 | 家居設計 | 設計師 | 室內設計師 | 設計學院 | 平面設計 | 數碼家居 | AV器材 | 投影熒幕控制器 |
2010年8月10日星期二
“HillTop”論-探索Google排名新算法(續)
订阅:
博文评论 (Atom)
没有评论:
发表评论