Quels sont les araignées Internet?

August 7

Quels sont les araignées Internet?


araignées Internet sont automatisées des programmes informatiques qui rampent de page en page sur le Web. Ils effectuent des tâches courantes, telles que les recherches en ligne, et fonctionnent selon un ensemble de politiques comportementales définies par leurs créateurs, de sorte qu'ils récupèrent, l'index et classer le contenu Web le plus approprié à leur but.

Composants

Le composant fonctionnel principal d'une araignée Internet est connu comme un localisateur de ressources universel (URL) Frontier. L'URL Frontier est une liste d'adresses Web qui l'araignée Internet n'a pas encore à explorer. Les autres composants fonctionnels sont un Domain Name System (DNS) module, un module de saisie, un module d'analyse et un module duplication d'élimination. Le module de DNS détermine le serveur Web à partir de laquelle l'araignée Internet récupère une page Web, les modules aller chercher et d'analyser de récupérer et d'analyser le contenu et le module duplication d'élimination empêche chaque page Web en cours de récupération plus d'une fois.

Opération

La plupart des pages Web contiennent des hyperliens - mots, des phrases, des images ou des icônes que les utilisateurs peuvent cliquer pour accéder à d'autres pages Web - donc, en théorie, une araignée Internet peut commencer à ramper partout sur le Web. En pratique, cependant, les araignées Internet commencent généralement avec quelques pages Web bien connus, connus sous forme de graines. L'araignée récupère le contenu de l'une de ces pages, y compris les liens vers d'autres pages, et ajoute les liens vers l'URL Frontier, qui fournit la base pour plus rampants.

Moteurs de recherche

araignées Internet sont largement utilisés par les moteurs de recherche tels que Google et Yahoo !. Les moteurs de recherche utilisent généralement beaucoup d'araignées Internet, fonctionnant en parallèle, pour récupérer et contenu Index du Web. Les araignées copier le contenu qu'ils trouvent dans une base de données et, en effet, créer un index local, les moteurs de recherche peuvent rechercher beaucoup plus rapidement que l'ensemble du Web lorsqu'un utilisateur soumet une requête. araignées Internet peuvent ramper des millions de pages Web dans un court espace de temps, mais même beaucoup d'araignées ne peuvent pas espérer explorer l'ensemble du Web avant pages sont modifiées ou supprimées, de sorte que des robots de recherche sélectionner les pages qu'ils visitent et à quelle fréquence.

Email récolte

araignées Internet peuvent valider la structure des pages Web, y compris les hyperliens, ou générer des statistiques qui permettent de mieux comprendre le contenu du Web. Ils peuvent également recueillir, ou «récolte» des informations spécifiques, telles que les adresses e-mail, qui peuvent être utilisés par des individus ou des groupes pour la distribution de ferraille de courrier Internet peu scrupuleux, autrement connu comme spam.


          

Post a comment: