IES Arnau Cadell

Pràctiques d'Informàtica pel batxillerat

Cerques a Internet Exercicis del crèdit d'informàtica a batxillerat



Els robots de cerca el

Com funciona ?

Si coneixeu una mica de la historia d'internet sabreu que des de la aparició del http://google.com

les altres pàgines de cerques com http://Yahoo.com o Altavista han quedat desbancades.

La rapidesa, efectivitat, exhaustivitat, i simplicitat de funcionament del Google s'han imposat.

El funciona de la següent manera:
    » 1 un programa recorre de forma automàtica tota la web mundial procurant arribar a tots els racons i fer-ne una copia. És el que es coneix com "l'aranya"

    » 2 totes aquestes pàgines es guarden en un conjunt d'ordinadors de l'empresa Google on s'organitzen i indexen de forma automàtica. És la seva base de dades.

    » 3
quan un usuari escriu unes paraules a la finestra de cerques del Google, aquest consulta les seva base de dades i respon.

Normalment doncs obtenim una quantitat enorme de direccions la major part d'elles de coses que no tenen res a veure amb el que estem interessat.
L'èxit del Google ha consistit en que els seus programadors han aconseguit fer que de forma automàtica les primeres pàgines donin informació significativa.
El Google utilitza sofisticades tècniques de relació de textos, que indiquen quines pàgines són les més importants i rellevants per la recerca.
Així, per exemple, quan el Google analitza una pàgina, mira què li indiquen les altres pàgines que hi enllacen.
El Google també prefereix les pàgines que té el diferents termes de recerca propers entre ells

És per raó d'aquest funcionament automatitzat que aquest sistema de recerca s'anomena ROBOT

És usual que el Google ens contesti s'han trobat tants milions de pàgines en 0,000x segons.
Naturalment podem tenir sort i trobar el que busquem en les 10 adreces de la primera pàgina, però cal saber com delimitar més la recerca per tal de no tenir tantes pàgines però més bones.

Com refinar les recerques als robots?

En primer lloc hem de tenir en compte que el cercador és un programa, i per tant, farà estrictament el que li diem, que pot ser diferent de la idea que tenim al cap. Per exemple, atès que el mètode de cerca es basa en paraules clau, paraules amb més d'un significat provocaran que el cercador torni moltes referències que no tenen res a veure amb el que volem. Per una altra banda, com que no entén els significats  no retornarà referències a sinònims de la paraula cercada. Hem d'afinar la cerca perquè el que li diem coincideixi amb el que li volem dir.

Vegem els "trucs" que poden ser útils més habitualment:

(aquest apartat també està a http://www.google.es/intl/ca_ALL/help/basics.html)

  • Utilitzar més paraules. Com més restringim el criteri, més possibilitats hi ha que entre les primeres pàgines trobem el que cerquem. Convé utilitzar les paraules que sapiguem especifiques de la qüestió que busquem, per exemple noms propis de persones, llocs etc.
  • El Google respon sempre amb webs que contenen TOTES les paraules de la cerca. Prioritza la webs que tenen les paraules aprop.
     
  • Localitzar frases o grups de paraules. Podem agrupar paraules tancant les paraules entre cometes i així incrementar dràsticament l'efectivitat de la nostra cerca. Per exemple, Sant Cugat del Vallès ens va retornar 268.357 webs mentre que"Sant Cugat del Vallès" ens va retornar 152.958 webs. El motiu és que sense cometes localitzava webs amb aquestes paraules Sant, Cugat, del i Vallès(encara que estiguessin separades) en canvi amb cometes sols dona les webs en que ha trobat aquestes 4 paraules seguides.

  • Existeixen paraules, signes, etc que el Google ignora sistemàticament per ser massa comunes per exemple http .com the el la a en i o and et etc . Si volem forçar que s'utilitzi alguna paraula cal que hi incorporem el signe + davant. Per exemple en la recerca anterior per tal de garantir la recerca de la paraula del es pot escriure "Sant Cugat +del Vallès"

  • De forma predeterminada no diferència entre majúscules i minúscules ni entre lletres accentuades o sense accentuar. Per exemple és indiferent escriure valles, Valles, vallès, VALLES, Vallès, o vàLLEs. Per obligar-lo a tenir-ho en compte també cal escriure el signe + al davant la paraula +Vallès.

  • Prohibir paraules o frases amb el signe - al davant. Per exemple si busquem webs de Picasso però que no ens surti la web de Citroën amb el seu cotxe Picasso hauríem d'escriure +Picasso -Citroën


  • El google considera diferent la paraula matemàtiques que matemàtica. Si volem buscar tant una paraula com les variants d'ella mateixa, hem d'anar a Recerca Avançada i escriure totes les variants a la casella corresponent.


  • Mireu totes les opcions de recerca avançada i de eines d'idioma per conèixer-les i utilitzar-les quan calgui.

  • Altres robots són Altavista , Excite, Northen light, o el Fast

    Els directoris o índexs:

    Els directoris o índexs són reculls classificats d'enllaços segons determinades categories de forma jeràrquica.
    Normalment van acompanyats d'una breu explicació del contingut de la web.
    Les webs recollides als directoris han estan valorades per persones expertes en el tema.
    Ens són d'utilitat especialment en aquelles ocasions en que no sabem ben bé què busquem i desitgem localitzar webs que tractin un tema de forma general i amb garantia de fiabilitat.

    El més conegut i segurament el més complert d'aquests índex és:
    el  Yahoo.com (d'àmbit general, en anglès) ,
    el Yahoo en català http://encatala.yahoo.com o el yahoo.es (en espanyol),

    Aquest és l'aspecte típic d'un directori:


    El google a més a més del robot de cerca també té un directori: http://www.google.com/dirhp

    Cal destacar en particular el Projecte de directori obert http://dmoz.org pretén crear un directori a partir de voluntaris que classifiquin webs de les diferents àrees en les que siguin experts. la seva versió en català és:

    captura de pantalla del dmoz en català

    Hi ha a més a més altres directoris útils per estar especialitzats en algun àmbit o temàtica.
    Així per les web en llengua catalana hi ha el buscador de  nosaltres.com
    i amb castellà hispavista.com     o     el índice

    Els meta índexs com els següents permeten trobar catàlegs especialitzats per temes:

    Cal tenir sempre present doncs que les webs que trobem aquí han estat visitades, analitzades i classificades manualment per persones especialistes en aquest tema, això ens dona sempre garanties de no trobar coses inútils. 

    Hem de tenir clar la diferència entre els dos sistemes encara que sovint molts llocs webs ens ofereixen els dos serveis (directoris i robots) en una mateixa pàgina.

    També es presta a confusió el fet que per buscar dins un directori s'utilitzi una finestra semblant a la d'un robot. 

    Les enciclopèdies

    Si busquem una temàtica podem acudir a les enciclopèdies en línia. La més recomanable és la Wikipedia és un projecte obert i col·laboratiu.

    També té renom de qualitat la Britànica que proporciona en general enllaços a llocs de qualitat i a la qual podeu accedir gratuïtament des de http://www.edu365.com gràcies al contracte que el departament d'ensenyament té amb aquesta empresa.

    Altres enciclopèdies són:

    Smithsonian Encyberpedia Encarta Red Icarito Encyclopedia PCWebopedia Cognositio

    Exercici 1: Diferència entre un directori i un robot 

    Escriu en un arxiu de text, i amb les teves paraules, el que és un directori i el que és un robot i en què es diferencien.

    Classifica les següents coses segons creguis que convé cercar-les a un robot o a un directori:

    Guarda l'arxiu a la teva carpeta amb el nom de DIFEREN.RTF

     

    Exercici 2: Treballar amb el

    1. Escriu a la finestra de recerca del Google les paraules Arnau Cadell. Quantes webs ha trobat?
    2. Ara escriu "Arnau Cadell" entre cometes, quantes direccions has trobat?
    3. No hauràs trobat el mateix nº de webs en les dues recerques. A que és degut aquesta diferència?
    4. Aneu a Recerca Avançada. Explica el que cal fer per tal que sols surtin resultats que parlin de l'escultor del claustre Arnau Cadell i no del nostre institut o altres qüestions.
    5. Busca la imatge actual d'una webcam d'un volcà en erupció. Quina és l'adreça d'aquesta web?

    Contesta a les preguntes en un arxiu de text que cal guardar a la teva carpeta amb el nom de GOOGLE.RTF

    Exercici 3: Conèixer un directori

    En primer lloc es tracta que entenguis com funciona, vés a http://www.google.com/dirhp o a http://encatala.yahoo.com, investiga i contesta:
    1. Imagina que necessites informació sobre astronomia. Com que no és una qüestió molt concreta és millor buscar en un directori que un un robot. Busca l'apartat d'astronomia i escriu els subtemes continguts dins astronomia.
    2. Que signifiquen els números entre parèntesis al final dels temes?
    3. Què signifiquen les @ al final de les categories? (ho explica l'ajuda )
    4. Busca les dates del proper eclipsi de Sol a Europa. Escriu la web on ho has trobat i la data i característiques d'aquest eclipsi.

    Contesta a les preguntes en un arxiu de text que cal guardar a la teva carpeta amb el nom de YAHOO.DOC



    a l'índex general de les pràctiques
    a dalt d'aquesta pàgina
    Actualitzat el gener del 2006

    Enric Brasó 1990-2005