校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > 淺談文章排名 百度是如何給網頁排序的

淺談文章排名 百度是如何給網頁排序的

熱門標簽:陜西高頻外呼防封系統(tǒng) 漫漫長夜全地圖標注 南京聯(lián)通大數(shù)據(jù)新后臺外呼系統(tǒng) 密云電銷機器人 易網機器人電銷 云南智能電銷機器人報價 財富地圖標注 語音外呼系統(tǒng)安全 桂林智能電銷機器人招商

我們向搜索引擎提交一個查詢,搜索引擎會從先到后列出大量的結果,排序的不同帶來的經濟效應也不同,我們想要的就是讓自己的搜索結果靠前,最好是能得到NO.1。那么這些搜索結果排序的標準是什么呢?

還是看看百度搜索研發(fā)部以求醫(yī)為例談搜索引擎排序算法的基礎原理。

比如,如果我牙疼,應該去看怎樣的醫(yī)生呢?假設只有三種選擇:

A醫(yī)生,既治眼病,又治胃病;

B醫(yī)生,既治牙病,又治胃病,還治眼病;

C醫(yī)生,專治牙病。

A醫(yī)生肯定不在考慮之列,B醫(yī)生和C醫(yī)生之間,貌視更應該選擇C醫(yī)生,因為他更專注,更適合我的病情。假如再加一個條件:B醫(yī)生經驗豐富,有二十年從醫(yī)經歷,醫(yī)術高明,而C醫(yī)生只有五年從醫(yī)經驗,這個問題就不那么容易判斷了,是優(yōu)先選擇更加專注的C醫(yī)生,還是優(yōu)先選擇醫(yī)術更加高明的B醫(yī)生,的確成了一個需要仔細權衡的問題。

至少,我們得到了一個結論,擇醫(yī)需要考慮兩個條件:醫(yī)生的專長與病情的適配程度、醫(yī)生的醫(yī)術。大家肯定覺得這個結論理所當然,而且可以很自然地聯(lián)想到,搜索引擎排序不也是這樣嗎,既要考慮網頁內容與用戶搜索查詢的匹配程度,又要考慮網頁本身的質量。

但是,怎么把這兩種因素結合起來,得到一個,而不是兩個或多個排序標準呢?簡單的加減乘除是不夠嚴謹?shù)模詈媚芨鷶?shù)學這樣堅實的學科聯(lián)系起來。人類在古代就能建造出高樓,但要建造出高達數(shù)百米的摩天大廈,如果沒有建筑力學、材料力學這樣堅實的學科作為后盾,則是非常非常困難的。同理,搜索引擎算法要處理上億的網頁,也需要更為牢固的理論基礎。

求醫(yī),病人會優(yōu)先選擇診斷準確、治療效果好的醫(yī)生。而對于搜索引擎來說,一般按網頁滿足用戶需求的概率從大到小排序。如果用q表示用戶給出了一個特定的搜索查詢,用d表示一個特定的網頁滿足了用戶的需求,那么排序的依據(jù)可以用一個條件概率來表示:

這個簡單的條件概率,將搜索引擎排序算法與概率論這門堅實的學科聯(lián)系了起來。可以看到,搜索引擎的排序標準,是由三個部分組成的:搜索查詢本身的屬性P(q)、網頁本身的屬性P(d)、兩者的匹配關系P(q|d)。對于同一次查詢來說,所有網頁對應的P(q)都是一樣的,因此排序時可以不考慮,即

搜索引擎為了提高響應用戶搜索查詢的性能,需要事先對所有待查詢的網頁做預處理。預處理時,搜索引擎預處理只知道網頁,還不知道用戶查詢,因此需要倒過來計算,即分析每個網頁能滿足哪些需求,該網頁分了多大比例來滿足該需求,即得到公式右邊的第一項P(q|d),這相當于醫(yī)生的專注程度。

比如,一個網頁專門介紹牙病,另一個網頁既介紹牙病又介紹胃病,那么對于“牙疼”這個查詢來說,前一個網頁的P(q|d)值就會更高一些。

公式右邊的第二項P(d),是一個網頁滿足用戶需求的概率,它反映了網頁本身的好壞,與查詢無關。假如要向一個陌生人推薦網頁(我們并不知道他需要什么),那么P(d)就相當于某個特定的網頁被推薦的概率。在傳統(tǒng)的信息檢索模型中,這個不太被重視,之前都試圖只根據(jù)查詢與文檔的匹配關系來得到排序的權重。而實際上,這個與查詢無關的量是非常重要的。

假如我們用網頁被訪問的頻次來估計它滿足用戶需求的概率,可以看出對于兩個不同的網頁,這個量有著極其巨大的差異:有的網頁每天只被訪問一兩次,而有的網頁每天被訪問成千上萬次,這對于排序非常重要。

總而言之,這個公式模型告訴了我們網頁與查詢的匹配程度,和網頁本身的好壞都是參與排序排名的重要因素

怎么樣?文章中的內容在現(xiàn)在是不是有很多都似曾相似,是不是在互聯(lián)網上看到很多文章都和這類似?其實很多內容都是從這里衍生出去的。比如搜索引擎的綜合得分排序、比如關鍵詞與網頁內容的相關度、比如網頁本身好壞對排序影響等等。

一個最簡單的例子,著名的搜索引擎排序算法pagerank算法,其實就是為了彌補傳統(tǒng)算法對P(d)值(頁面本身好壞判斷)的不足而產生的,Pagerank是對網頁好壞判斷的一個不錯的標準。而現(xiàn)在的網頁點擊量、停留時間、跳出率、頁面訪問速度等都是對網頁滿足用戶需求概率的預估,這一個因素越來越重要。

其實也是大篇幅的在談談網頁本身好壞這一點。隨著用戶時代來臨,用戶投票越來越影響搜索排名,而用戶主要衡量的除了需求滿足外就是網頁本身質量。所以,網頁本身質量不管對于用戶還是搜索引擎,在排序上都變得越來越重要。

一句話,很多時候需要透過現(xiàn)象去看本質,而你看透這個本質后,再看其他現(xiàn)象,一切都那么明了。謝謝閱讀,希望能幫到大家,請繼續(xù)關注腳本之家,我們會努力分享更多優(yōu)秀的文章。

標簽:三明 鎮(zhèn)江 煙臺 臺州 北海 張家界 商洛 梅州

巨人網絡通訊聲明:本文標題《淺談文章排名 百度是如何給網頁排序的》,本文關鍵詞  淺談,文章,排名,百度,是,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《淺談文章排名 百度是如何給網頁排序的》相關的同類信息!
  • 本頁收集關于淺談文章排名 百度是如何給網頁排序的的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 大冶市| 渝北区| 寻甸| 玉门市| 九龙城区| 葫芦岛市| 拉萨市| 南乐县| 常山县| 仁布县| 汉沽区| 库尔勒市| 郯城县| 庐江县| 武强县| 深泽县| 白银市| 仁怀市| 西峡县| 波密县| 武平县| 罗甸县| 诸城市| 盈江县| 阜阳市| 昆山市| 苏尼特右旗| 五台县| 珠海市| 拉萨市| 巴彦淖尔市| 仲巴县| 石屏县| 阳东县| 寿宁县| 台安县| 郸城县| 东平县| 北安市| 桓台县| 康马县|