Erfolgreich Suchen mit einer Open Source Lösung
Portale bilden heute zentrale Kommunikationsschnittstellen in Unternehmen für Mitarbeiter und externe Partner wie Lieferanten und Kunden. Alle Mitarbeiter und Geschäftspartner wollen schnellen Zugriff auf relevante Informationen, Unternehmenswissen und die dazugehörigen Dokumente haben. Wer vergeblich oder lange sucht, verbrennt Zeit und damit Geld.
Moderne Serverstrukturen und mächtige Search Engines machen es möglich, dass nach dem Suchen auch schnell ein relevantes Suchergebnis angeboten wird. Der Markt bietet Open Source Lösungen, die mit proprietären Systemen gut Schritt halten können wie bspw. die Enterprise Search SOLR.
Lucene Search Engine als Basis
Die Jakarta Lucene ist eine leistungsstarke, vollfunktionsfähige Text-Such-Engine, geschrieben in Java. Sie ist eine Technologie, die für fast jede mögliche Anwendung verwendbar ist, die Ganztextsuche erfordert. Lucene ist allerdings keine fertige Suchmaschine, sondern stellt Klassen und Funktionen zur Verfügung, um für beliebige Projekte eine eigene Suchmaschine zu bauen. Lucene unterstützt standardmäßig reichhaltige Suchoptionen. Es besteht auch die Möglichkeit, einen eigenen Suchsyntax zu entwickeln.
Warum nicht nur Lucene verwenden?
Lucene hat Grenzen als Enterprise Search. SOLR erweitert Lucene um diverse Metainformationen, die über ein erweiterbares XML-Schema definiert sind und Beschreibungen von Feldern, Datentypen sowie Indexierungsinformationen enthalten.
Unterschiede zwischen SOLR und Lucene
- Lucene ist eine Bibliothek, die Funktionalitäten für die Suche bereitstellt
- Lucene kann auch als Standalone-Server betrieben werden
- SOLR ist eine Suchmaschine, die Lucene als Suchbibliothek verwendet
- SOLR stellt einfachere Konfigurationsmöglichkeiten und umfangreichere Erweiterungen zur Verfügung
- SOLR ergänzt den Lucene-Funktionsumfang um Stoppwörter, Wortstammbildung, platzierte Suchergebnisse, Facetten, Caching, Replikation und vieles mehr.
SOLR – eine echte Enterprise Search
Mit einer Enterprise Search Lösung auf Basis der lizenzkostenfreien Software kann das gesamte Wissen des Unternehmens sekundenschnell durchforstet werden. SOLR durchsucht sämtliche Systeme des Intranets: Datenbanken, CRM- und ERP-Systeme, Dokumenten Management Systeme, Content Management Systeme sowie E-Mails.
Modell: Zusammenspiel Lucene und SOLR
Vorteile von SOLR Enterprise Search Volltextsuche
SOLR ist eine hochskalierbare Suche auf der Basis der Lucene Java-Bibliothek und kann somit unabhängig vom Portal betrieben werden. Dies führt zu einer besseren Performance, Skalierbarkeit, Lastverteilung und Wartbarkeit von SOLR.
Indexierung
Es können sehr große bzw. viele Dokumente im Mrd.-Bereich verteilter Systeme indexiert werden. Alle Datenquellen und Dokumente werden vollindiziert. SOLR kann parallel Indexe/Suchanfragen verarbeiten. Arbeiten können im RAM durchgeführt werden. Die besseren Caching-Technologien liefern bessere Performance.
Individualisierung
Flexible Anpassung der Suchalgorithmen und umfangreiche Erweiterung und mittels Plug-ins sind möglich.
Transparenz
Offene APIs, Protokolle, Formate und Suchalgorithmen bieten Transparenz.
Portabilität
Lucene/ SOLR läuft auf allen Plattform-Systemen, welche Java unterstützen. Die erstellten Indices sind unabhängig vom Plattform-System und können somit ohne Probleme zwischen verschiedenen Plattformen ohne Anpassungen portiert werden.
Sicherheit
SOLR wird bereits in geschäftskritischen Anwendungen bei über 4.000 Unternehmen weltweit eingesetzt, darunter Branchengrößen wie MySpace, AOL, Nike, LinkedIn oder Monster.com.
Replikation
SOLR verfügt über einen skalierbaren Replikationsmechanismus für den Aufbau verteilter Indizes nach dem Master-Slave-Prinzip. Die Replikation sorgt für eine bessere Datenverteilung, optimiert den Suchanfrage-Prozess und beschleunigt so insgesamt die Suche bei hoher Auslastung: pro Index können zirka 1.000 Suchanfragen in der Sekunde verarbeitet werden.
Performance von SOLR
SOLR zeichnet sich durch schnelle Antwortzeiten (intern oft unter 50 ms) aus. Dies ist möglich, da keine Datenbankzugriffe nötig sind und verbessert die Geschwindigkeit der Suche und gleichzeitig das Ranking in Suchmaschinen.
Skalierbarkeit von SOLR
Auch bei wachsenden Datenbeständen sind keine überproportionalen Investitionen in Hardware nötig – dies schont das IT-Budget. Große Anwender können von den Replikationsmöglichkeiten und Load-Balancer-Systemen von SOLR profitieren. Durch die hohe Leistungsfähigkeit und Skalierbarkeit können die Lucene-Werkzeuge für unterschiedlichste Projektgrößen und Anforderungen eingesetzt werden.
Funktionen von SOLR
- Volltext-Suche
- Suchergebnis nach Relevanz und Rankinglisten
- Facetting – es bietet dem Suchenden eine Auswahl von Kategorien für das Eingrenzen der Freitextsuche
- Stammworterkennung/Rechtstrunkierung heißt: Verwenden Sie den Stern (*) rechts von einem Wort oder einem Wortbaustein, so ersetzt dieser Stern beliebige Wörter
- Filterung mit regulären Ausdrücken, phonetische Filter
- Rechtschreibvorschläge – Meinten Sie…?
- Unterstützung von Synonymen, Stopp-Wortlisten
- Auto-Vervollständigung
- Hit-High-Lighting
- Verfeinerung des Suchergebnisses durch Filter, Sortierung
- Vorschläge für ähnliche Treffer
- Indizierung von Inhalten in Dokumenten (Word, PDF, … mit Tika. Tika ist ein Apache Framework zur Textextraktion aus nahezu allen möglichen Dokument-Typen)
- schnelle Suchergebnisse bei vielen Zugriffen durch Caching-Technologie
- skalierbar durch verteilte Indizes auf mehreren Rechnern
- flexibel erweiterbar durch Plugins
- Schnittstellen (RESTful API) zur Eingabe/Ausgabe von Daten
- Administrationsoberfläche
- Monitoring, Logging von Suchanfragen
Auto-Vervollständigung
Wer mit den Internet-Suchmaschinen vertraut ist, erwartet auch am Arbeitsplatz ähnliches Verhalten der Enterprise Search im Intranet oder Mitarbeiterportal. Die Auto-Vervollständigung der Suchbegriffe gehört zu den Funktionen, die Mitarbeitern das Suchen erleichtern. Beispiel:
SOLR Facetting
Eine herausragende Funktion von SOLR ist die Facetten Suche. Sie ist interessant sowohl für eine effektive schnelle Suche als auch für das Bummeln durch die Resultate. Sie bringt das Suchergebnis einerseits schnell auf den Punkt, andererseits lädt sie aber auch zum Stöbern ein, da sie verschiedene Kombinationen der einzelnen Facetten zulässt, die sich jederzeit verändern lassen.
Mit der Facetten-Suche wird das Suchergebnis nach und nach verfeinert.
Ein Beispiel: Sie durchsuchen in einem Stadtportal nach einem Lokal. Es stehen 520 Lokale zur Verfügung. Deshalb wählen Sie zunächst einen Wert im Feld Gastronomie aus: „Restaurant“. Damit verkleinert sich mit einem Schlag die Treffermenge, denn Kneipen und Fastfood-Ketten fallen raus. Nun wählen Sie aus den verbleibenden Treffern eine weitere Facette aus: „Italienisch“ mit dem Wert „Pizzeria“. Nun fällt die endgültige Wahl nicht mehr so schwer. Facetten werden als besondere Parameter bei der Übermittlung der Suchanfrage mitgegeben und in der Berechnung des Ergebnisses als Muss-Kriterien berücksichtigt. Facetten haben also den Effekt, dass eine Suche auf einer Teilmenge des Gesamtindexes sehr gute und unverfälschte Suchergebnisse liefert.
Aktive SOLR Enterprise Search im Unternehmen
Technik
SOLR basiert auf Lucene Core und ist eine Volltext-Suchmaschine mit Web-Schnittstelle. Dokumente zur Indexierung werden im XML-Format per HTTP-Request übernommen. Suchanfragen werden mittels HTTP GET durchgeführt, Resultate werden als XML oder in anderen Formaten wie JSON zurückgegeben. SOLR lässt sich in einen Webserver und Servlet-Container wie Apache Tomcat integrieren. Mit dem Release 3.1 sind die Projekte SOLR und Lucene zu einer Entwicklung zusammengeführt worden, die von einem gemeinsamen Projektteam weiterentwickelt werden.
Bildquellen
- Open_Source: © Coloures-Pic - Fotolia.com
No Comment