Es gibt eine Vielzal von Open-Source-Projekten, die es erlaubt, eigene Crawler und Suchmsachinen aufzubauen. Diese können individuell gesteuert, flexibel erweitert und an Ihre Bedürfnisse angepasst werden. Nur selten macht es hierbei Sinn, große Software-Anwendungen indivuell zu programmieren.
Technologisch reichen die Projekte von einem einfachen "Screen-Scrapper" über Volltextindizierungsbibiotheken wie Apache Lucene, Suchapplikationen wie Apache Solr bis zu komplexen Hadoop-Cluster mit Apache Nutch. Das Ziel ist immer die Informationsextraktion, strukturierte Aufbereitung und Abfragemöglichkeit der gesammelten Daten.
Anwendungen können beispielsweise sein:
- Suchmaschinen für Intra- und Extranets
- Suchplugins für Ihren Webserver
- Thematisch fokussierte Suchmaschinen
- Aufbereitung von Office-Dokumenten
- Erfassung und Aufbereitung der Kundenkommunikation
- Beobachtung wichtiger Themen in Internetforen und sozialen Netzwerken
- Erstellung von "Online-Presse-Spielgeln"
Alle Werkzeuge lassen sich flexibel kombinieren, erweitern und in Ihre IT-Umgebung einfügen.