查找引擎面臨的應(yīng)戰(zhàn)

發(fā)布時(shí)間：2018-05-06 文章來源：本站瀏覽次數(shù)：3584

查找引擎體系是最雜亂的核算體系之一，當(dāng)今干流查找引擎服務(wù)商都是有財(cái)力、人力的大公司。即便有技能、人力、財(cái)力的確保，查找引擎仍是面臨許多技能應(yīng)戰(zhàn)。查找引擎誕生后的十多年中，技能現(xiàn)已得到了長(zhǎng)足的進(jìn)步。咱們今天看到的查找成果質(zhì)量與10年前相比現(xiàn)已好得太多了。不過這還只是一個(gè)開始，查找引擎必定還會(huì)有更多創(chuàng)新，供給更多、更精確的內(nèi)容。

整體來說，查找引擎主要會(huì)面臨以下幾方面的應(yīng)戰(zhàn)。

1．頁面抓取需求快而全面

互聯(lián)網(wǎng)是一個(gè)動(dòng)態(tài)的內(nèi)容網(wǎng)絡(luò)，每天有許多頁面被更新、創(chuàng)立，許多用戶在網(wǎng)站上發(fā)布內(nèi)容、交流聯(lián)系。要回來最有用的內(nèi)容，查找引擎就要抓取最新的頁面�？墒且�?yàn)轫撁鏀?shù)量巨大，查找引擎蜘蛛更新一次數(shù)據(jù)庫中的頁面要花很長(zhǎng)時(shí)間。查找引擎剛誕生時(shí)，這個(gè)抓取周期往往以幾個(gè)月核算。

現(xiàn)在干流查找引擎都現(xiàn)已能在幾天之內(nèi)更新重要頁面，權(quán)重高的網(wǎng)站上的新文件幾小時(shí)乃至幾分鐘之內(nèi)就會(huì)被錄入。不過，這種快速錄入和更新也只能局限于高權(quán)重網(wǎng)站。許多頁面幾個(gè)月不被從頭抓取和更新，也是十分常見的。

要回來最好的成果，查找引擎也有必要抓取盡量全面的頁面，這就需求處理許多技能問題。一些網(wǎng)站并不利于查找引擎蜘蛛匍匐和抓取，比方網(wǎng)站鏈接結(jié)構(gòu)的缺點(diǎn)、很多運(yùn)用Flash、JavaScript腳本，或許把內(nèi)容放在用戶有必要登錄今后才干拜訪的部分，都增大了查找引擎抓取內(nèi)容的難度。

2．海量數(shù)據(jù)存儲(chǔ)

一些大型網(wǎng)站單是一個(gè)網(wǎng)站就有百萬千萬個(gè)頁面，可以幻想網(wǎng)上一切網(wǎng)站的頁面加起來是一個(gè)什么數(shù)據(jù)量。查找引擎蜘蛛抓取頁面后，還有必要有用存儲(chǔ)這些數(shù)據(jù)，數(shù)據(jù)結(jié)構(gòu)有必要合理，具有極高的擴(kuò)展性，寫入及拜訪速度要求也很高。

除了頁面數(shù)據(jù)，查找引擎還需求存儲(chǔ)頁面之間的鏈接聯(lián)系及很多歷史數(shù)據(jù)，這樣的數(shù)據(jù)量是用戶無法幻想的。聽說Google有幾十個(gè)數(shù)據(jù)中心，上百萬臺(tái)服務(wù)器。這樣大規(guī)模的數(shù)據(jù)存儲(chǔ)和拜訪必定存在許多技能應(yīng)戰(zhàn)。

咱們經(jīng)常在查找成果中看到，排名會(huì)沒有明顯原因地上下動(dòng)搖，乃至可能改寫一下頁面，就看到不同的排名，有的時(shí)分網(wǎng)站數(shù)據(jù)也可能丟失。這些都可能與大規(guī)模數(shù)據(jù)存儲(chǔ)的技能難題有關(guān)。

3．索引處理快速有用，具可擴(kuò)展性

查找引擎將頁面數(shù)據(jù)抓取和存儲(chǔ)后，還要進(jìn)行索引處理，包括鏈接聯(lián)系的核算、正向索引、倒排索引等。因?yàn)閿?shù)據(jù)庫中頁面數(shù)量大，進(jìn)行PR之類的迭代核算也是耗時(shí)吃力的。要想及時(shí)供給相關(guān)又及時(shí)的查找成果，只是抓取沒有用，還有必要進(jìn)行很多索引核算。因?yàn)殡S時(shí)都有新數(shù)據(jù)、新頁面參加，因而索引處理也要具有很好的擴(kuò)展性。

4．查詢處理快速精確

查詢是普通用戶唯一能看到的查找引擎作業(yè)進(jìn)程。用戶在查找框輸入關(guān)鍵詞，單擊”查找“按鈕后，一般不到一秒鐘就會(huì)看到查找成果。外表最簡(jiǎn)略的進(jìn)程，實(shí)際上觸及十分雜亂的后臺(tái)處理。在最終的查詢階段，最重要的難題是怎樣在不到一秒鐘的時(shí)間內(nèi)，快速從幾十萬、幾百萬，乃至幾千萬包括查找詞的頁面中，找到最合理、最相關(guān)的1000個(gè)頁面，而且按照相關(guān)性、權(quán)威性擺放。

5．判別用戶意圖及人工智能

應(yīng)該說前4個(gè)應(yīng)戰(zhàn)現(xiàn)在的查找引擎都現(xiàn)已可以比較好地處理，但判別用戶意圖還處在初級(jí)階段。不同用戶查找相同的關(guān)鍵詞，很可能是在尋找不同的東西。比方查找”蘋果“，用戶到底是想了解蘋果這個(gè)生果，仍是蘋果電腦？仍是電影《蘋果》的信息？沒有上下文，沒有對(duì)用戶個(gè)人查找習(xí)氣的了解，就完全無從判別。

查找引擎目前正在致力于根據(jù)用戶查找習(xí)氣及歷史數(shù)據(jù)的了解上，判別查找意圖，回來更相關(guān)的成果。今后查找引擎是否能達(dá)到人工智能水平，真實(shí)了解用戶查找詞的含義和意圖，讓咱們拭目而待。

查找成果顯示格局

讓咱們先略微深化地了解一下查找成果的展示方式。

上一條：軟文圈套和發(fā)布渠道...

下一條：查找引擎與目錄...