4.2 Konfiguration und Betrieb
  • Konfiguration der Indizierung über XML-Dateien
  • Steuerung der Indizierung über die Kommandozeile (gut automatisierbar)
  • Anpassung des Frontends über XSL/XML-Dateien
  • Gezielte Tiefenindizierung einzelner Sites und nachfolgende Integration möglich
  • "Web-Crawling" möglich (baut einen eigenen Webgraphen auf)
  • Blacklists und Filterung bei der Indizierung.
  • Gezielte Löschung von Begriffen / URLs im Index
  • Monitoring nur über Log-Dateien möglich
  • (fast) Hardware und Betriebssystem unabhängig.
  • Trennung zwischen Parsen der Dokumente und Indizierung
  • Dokumenten-Parser als Plugin (keine zusätzliche Verzögerung)
  • Starke Parallelisierung durch Java-Threads
  • Stärke: Konzept zur verteilten Indizierung!
  • Ansätze zur Verteilung des Suchfrontends
  • Abschätzung der Entwickler: mit aktuellen Linux-Servern:
    • ca. 100 Mio. Pages je Suchmaschine indizierbar, 
    • 20 Suchanfragen / Sekunde je Frontendserver