Startseite
|
Inhalt
|
Übersichtsmap
Technische Realisierung von Mini-Suchern
Michael Nebel
michael@nebel.de
Startseite
>
4. Nutch
>
4.2 Konfiguration und Betrieb
Zurück
Vor
4.2
Konfiguration und Betrieb
Konfiguration der Indizierung über XML-Dateien
Steuerung der Indizierung über die Kommandozeile (gut automatisierbar)
Anpassung des Frontends über XSL/XML-Dateien
Gezielte Tiefenindizierung einzelner Sites und nachfolgende Integration möglich
"Web-Crawling" möglich (baut einen eigenen Webgraphen auf)
Blacklists und Filterung bei der Indizierung.
Gezielte Löschung von Begriffen / URLs im Index
Monitoring nur über Log-Dateien möglich
(fast) Hardware und Betriebssystem unabhängig.
Trennung zwischen Parsen der Dokumente und Indizierung
Dokumenten-Parser als Plugin (keine zusätzliche Verzögerung)
Starke Parallelisierung durch Java-Threads
Stärke: Konzept zur verteilten Indizierung!
Ansätze zur Verteilung des Suchfrontends
Abschätzung der Entwickler: mit aktuellen Linux-Servern:
ca. 100 Mio. Pages je Suchmaschine indizierbar,
20 Suchanfragen / Sekunde je Frontendserver
Seitenanfang
http://www.nebel.de/
Letzte Aktualisierung:
21.11.2004