jueves, 7 de marzo de 2013

Explicación interactiva de cómo funciona el buscador Google

Google acaba de publicar una página interactiva para enseñarnos el proceso de búsqueda de su buscador. Merece la pena echarla un vistazo. Su enlace es http://www.google.com/insidesearch/howsearchworks/thestory/





El proceso se divide en tres grandes pasos:

  • El rastreo (crawling) y la indexación.
  • La aplicación de algoritmos para: entender qué buscamos, calcular la relevancia y presentar los mejores resultados.
  • Filtrar la información poco relevante y lucha contra el spam.
A continuación explicamos cómo se hace cada uno de ellos.


Rastreo (Crawling)

Todo empieza rastreando la web. Google y el resto de motores de búsqueda tiene a una serie de agentes de software llamados arañas web, rastreadores web (web crawlers) o bots, que se dedican a conectarse a los distintos sitios web y a extrae información sobre ellos. El más famoso se llamada Googlebot

Actualmente se estima que existen más de 30 billones de páginas en la Web y creciendo rápidamente. Luego su trabajo es arduo. ¿Y qué quiere obtener? Principalmente busca enlaces (internos y externos) y las palabras que con mayor frecuencia aparecen en su contenido. Se fija también en si el contenido se ha actualizado y en la existencia de enlaces rotos. De esta forma construye mapas de relaciones entre web y clasifica cada página de acuerdo al contenido de la misma y obtiene información para tratar de calcular la relevancia de la página: su importancia y pertinencia cuando se buscan determinadas palabras clave.

Interesante: podemos decidir si el rastreador puede o no indexar nuestras páginas web. Esto se realiza en un fichero llamado robots.txt que, generalmente, se encuentra en el directorio principal de nuestra página web.

Indexación

La información de las palabras obtenidas de cada página junto con otros datos (metadatos, estándares de web semántica, geolocalización, información de autores, etc.) sirve para clasificar una página web dentro de temáticas o de conjuntos de palabras clave.
Actualmente Google tiene un índice de página de más de 100 millones de gigabytes.

Aplicación de algoritmos

Pero un buscador es bueno cuando entiende perfectamente qué queremos buscar. Las aplicaciones no entiende bien nuestro lenguaje con lo que es preciso elaborar algoritmos para tratar de entender bien al usuario y ofrecerle los mejores resultados posibles.

Para entender bien la pregunta, el buscador aplica varias técnicas (y por supuesto en cada idioma):
  • Aplicación de sinónimos.
  • Corrección automática de palabras mal escritas.
  • Autocompletado.
  • Sugerencia de términos de búsqueda mientras se escribe (Google Instant)
  • Mecanismos de procesamiento de lenguaje natural para tratar de entender la búsqueda
Asimismo se recoge información de la localización del usuario y, si es posible, de sus búsquedas anteriores. Con todo esto se genera una pregunta hacia el índice creado anteriormente.

Presentación de resultados

La respuesta a la pregunta son los resultados que Google nos presenta. El orden es clave pues, por regla general, los resultados de la primera página se consideran los más relevantes y son los que suelen ser consultados por los usuarios.
¿Cómo determina Google su ordenación? Bueno, este es uno de los secretos mejor guardados de Google. Pero la base de todo es un algoritmo que tiene en cuenta más de 200 factores y que permiten determinar:
  • La calidad del contenido
  • Su actualidad
  • Su autoridad, basada en los enlaces externos al sitio web.
  • La adecuación al contexto del usuario: idioma, país, ciudad, etc.
Con todo esto se crea un índice de relevancia para cada sitio web y así se ordenan los resultados. Estos resultados pueden estar filtrado si se han aplicado filtros como SafeSearch, muy utilizado en buscadores para niños, ya que se pueden filtrar ciertas palabras de búsqueda y ciertos sitios de la Web.

Lucha contra el spam

Por supuesto que no toda la información que existe en la web es de utilidad. Existe mucha información inútil, copiada y recopiada, de baja calidad... Google trata de filtrar esa información.

Además, notifica a los admisnitradores de los sitios web de posibles vulnerabilidades o de la existencia de páginas potencialmente dañinas, de sitios hackeados, etc. por ejemplo, en septiembre de 2012 se notificaron a casi 400.000 sitios web.