C++ / Rastreando websites

Anuncios

Bienvenidos sean a este post, hoy veremos en que consiste esta tarea.

Anuncios

En el post anterior mencionamos que uno de los mayores inconvenientes es buscar a traves de millones de documentos cada vez que el usuario ingrese una solicitud, siendo algo poco realista. De solo pensar que esto se debe realizar por cada busqueda, nos tomaria para siempre por cada una de ellas. Con esto podemos decir, cada solicitud nos tomara algo de tiempo. Y por mas corto que sea, el hecho de analizar y estudiar cada documento puede llevar mucho tiempo. Supongamos que para buscar y acceder a una pagina web nos lleva unos 0.5 milisegundos, lo cual si debe hacerlo en un millon de paginas nos llevara alrededor de 8 minutos. Y quien abriria un buscador y esperaria esos 8 minutos para ver el resultado de su busqueda?

Anuncios

El enfoque mas correcto es almacenar en una base de datos para que el engine de busqueda pueda hacerlo eficientemente. El «crawler» descarga las paginas web y las almacena como documentos temporales hasta que el analisis e indexacion toma lugar, y un crawler mas complejo tambien puede analizar documentos para tenerlos en un formato mas apropiado para la indexacion. Pero el verdadero punto importante es que la descarga de una pagina web no es una accion que sucede una sola vez. Principalmente porque estas pueden ser actualizadas, asi como tambien pueden aparecer nuevas durante este tiempo y esto obliga a que la informacion en la base de datos se mantenga actualizada. Para lograr esto, se debe programar al crawler para descargar paginas habitualmente. Mediante un crawler bien programado se puede comparar el contenido y buscar modificaciones y actualizar al indexador si hubo algun cambio.

Anuncios

Por lo general, el crawler trabaja como una aplicacion multithread. Aqui es donde debemos prestar especial atencion al mantener un rastreo o crawling porque al ser de miles de millones de documentos en todo internet no sera una tarea facil. Por eso, como mencionamos en el post anterior, al momento de buscar no lo hacemos en cada documento sino en el archivo de indexacion, lo cual convierte al crawling en una tarea muy interesante.

Anuncios

En resumen, hoy hemos visto a rastreando websites, crawling websites, que es, como nos ayuda, algunas particularidades, asi como tambien algunas particularidades y dando pie a un tema que veremos en el proximo post. Espero les haya resultado de utilidad sigueme en tumblr, Twitter o Facebook para recibir una notificacion cada vez que subo un nuevo post en este blog, nos vemos en el proximo post.

Anuncios

Donación

Es para mantenimento del sitio, gracias!

$1.50

El blog de Tinchicus

Un blog para el programador

C++ / Rastreando websites

Un comentario sobre “C++ / Rastreando websites”

Deja un comentario Cancelar la respuesta

Comparte esto:

Relacionado

Un comentario sobre “C++ / Rastreando websites”

Deja un comentario Cancelar la respuesta