Grenzen des Crawlers: Deep-Web
Verschiedene Teile des WWW lassen sich nur schwer mit dem automatisierten Webclient (Crawler) erfassen. Dieser Teil wird oft als "deep-", "dark-" oder "invisible web" bezeichnet - kurz was Suchmaschinen nicht sehen (Der Begriff wurde schon 1994 von Dr. Jill Ellsworth geprägt. (siehe http://www.brightplanet.com/deepcontent/)).
    • Suchmaschinen folgen Verweisen von Seite zu Seite
    • oftmals nur die "obersten" Ebenen indiziert (Surface Web)
    • Erfasst deutschspachige Seiten der grossen Suchmaschinen ~100 Mio. Seiten (geschätzt!)
    • Umfang des deutschsprachigen Netzes: über 1 Mrd. Seiten (geschätzt)
    • nicht zugängliche Inhalte oftmals sehr hochwertig 
22.02.2006