Cum funcţionează Google? (1)

Google-bot Dacă citiţi această pagină, ştim un lucru cu certitudine despre dv: aţi auzit de Google. Folosirea Google este foarte simplă, dar v-aţi întrebat cum funcţionează de fapt acesta? De unde ştie, de pildă, de site-ul Scientia, atunci când la o interogare a dv. în caseta de căutare acesta vă "livrează", printre altele, un link către acest site?

Google, motorul de căutare, este constituit din trei părţi:
::: google-bot - un program denumit web crawler ori robot de căutare care are rolul de a găsi şi colecta paginile web,
::: indexer - un program care sortează cuvintele găsite pe paginile colectate de google-bot şi le stochează într-o bază de date imensă;
::: query processor (procesorul de interogaţii) - softul care foloseşte cuvintele introduse de dumnevoastră în caseta de căutare a Google pentru a extrage din baza de date o serie de linkuri, care reprezintă în fapt lista de site-uri date ca răspuns la o interogaţie.

1. GOOGLE-BOT

Din cauza cuvintelor folosite pentru a-l numi, ca web crawler ori spider (păianjen), probabil că mulţi îşi imaginează că google-bot are abilitatea bizară de a sări din site în site, călătorind neobosit prin Internet. În fapt acesta face un lucru mult mai banal şi mai inteligibil: asemenea unui browser web (cum sunt Firefox ori Internet Explorer), google-bot trimite cereri către serverele web pentru a primi conţinutul paginilor web, pe care le trimite apoi către Indexer pentru prelucrare.

Google-bot, pornind să zicem de la pagina de start, determină tot lanţul de linkuri existent pe un site. De exemplu, pe Scientia.ro, pe pagina de start sunt linkuri către secţiunile site-ului. Mai departe, pe paginile corespunzătoare secţiunilor se vor găsi linkuri către categoriile site-ului, de unde se pot strânge linkurile către articolele existente pe site. Din aproape în aproape, rapid şi eficient, Google scanează site-ul mişcându-se din link în link.

După cum probabil v-aţi făcut o idee, Internetul este enorm, iar Google îşi propune, ca orice motor de căutare care se respectă, să indexeze cât mai multe dintre paginile web existente. Pentru a face acest lucru nu se poate limita la a interoga site cu site, pentru că ritmul de dezvoltare al Internetului este extrem de rapid. Pentru a ţine pasul, google-bot, bazându-se pe impresionanta reţea de calculatoare desemnată pentru a-i îndeplini misiunea de către inginerii Google, transmite mii de cereri de pagini web în acelaşi timp. Pentru a nu îngreuna funcţionarea serverelor accesate, google-bot transmitere cereri de conexiuni mult mai rar decât ar putea în fapt.

Clădirea serverelor Google

Cum află Google de un site că există?

Să luăm exemplu Scientia.ro. În momentul în care am realizat site-ul, practic acesta era necunoscut pentru utilizatorii de Internet. Google nu oferea linkuri către site-ul nostru, pentru că paginile Scientia nu figurau în baza de date Google.

Am avut la dispoziţie trei căi de a face cunoscut site-ul:
::: înştiinţarea către Google că existăm prin adăugarea site-ului or unor pagini ale site-ului pe pagina dedicată a google: www.google.com/addurl.html.
::: folosirea unui sitemap (hartă a site-ului) şi transmiterea acesteia către Google prin intermediul Webmaster Tools (opţiune disponibilă oricui are un cont Google. Din pagina google.ro, daţi clic pe Setting-Google account setting. În pagina care va apărea veţi observa şi un link către Webmaster Tools).
::: promovarea site-ului prin inserarea de linkuri către Scientia.ro pe alte site-uri cunoscute de Google.

Până am depăşit 100 de utilizatori pe zi veniţi pe site prin intermediul Google autrecut mai bine de patru luni.

Aşadar, pentru a simplifica, Google află de un site în urma promovării acestuia de către proprietarul site-ului ori întâlnind un link către respectivul site atunci când "vizitează" un alt site pe care îl are în baza de date.

Cât de des vizitează un site google-bot?

În mod ideal, google-bot ar trebui să "viziteze" un site în funcţie de ritmul de actualizare a site-ului. Astfel, pentru un site ca Scientia.ro, unde apar linkuri noi în fiecare zi (fie că sunt articole, fie că sunt ştiri, fie că sunt întrebări în secţiunea Q&A), google-bot ar trebui să se întoarcă în fiecare zi. Şi după verificările noastre, chiar o face. În consecinţă, dacă pe un site apar informaţii noi o dată la o săptămână, google-bot "va trece" pe acolo o dată pe săptămână.

La ce foloseşte fişierul robots.txt?

Pentru posesorii de site-uri probabil că este cunoscut faptul că în folderul rădăcină al site-ului poate exista un fişier denumit robots.txt. Rostul acestui fişier, robots.txt, este acela de a restricţiona accesul roboţilor de căutare gen google-bot la anumite părţi ale site-ului.

Conţinutul acestui fişier este asemănător celui de mai jos:

User-agent: *
Disallow: /configuratie/
Disallow: /restricted/

Semnificaţia rândurilor de mai sus este aceea că folderele "configuratie" şi "restricted" nu vor fi accesate de roboţii de căutare. De ce ar vrea un posesor de site ca anumite părţi ale site-ului să nu fie indexate de un motor de căutare? Pentru că acele secţiuni ale site-ului nu sunt dedicate vizitatorilor site-ului, ci sunt fişiere de configurare ori care asigură funcţionarea site-ului. Pe cale de consecinţă, dacă tot conţinutul site-ului dumneavoastră este destinat publicului, nu aveţi nevoie de un fişier robots.txt.

O altă cale de a interzice accesul unui robot de căutare gen google-bot la unele dintre paginile site-ului este includerea în secţiune HEAD a site-ului (ce este cuprins între <head> şi </head> în partea de început a paginii web) a unui meta tag cu următorul conţinut: <meta name="Googlebot" content="nofollow" />. Dacă daţi clic dreapta - View page source pe pagina de start a Scientia.ro, în partea de sus a paginii sursă, veţi găsi următorul rând: <meta name="robots" content="index, follow" />, ceea ce indică pentru roboţii de căutare faptul că pagina de start a Scientia poate fi accesată şi indexată.

Cum funcţionează Google? (1)

Ești vizitator ( Sign Up ? )

ori postează ca „vizitator”

Citiți și:

Ce citesc/ văd pe Internet: