Navigation
Seiten-Aktionen
Wiki-Aktionen
Benutzeraktionen
Beitrag einreichen
Melden Sie sich an, um diese Seite zu bearbeiten!

Sharepoint for Search 2007

Überblick

Microsoft bringt mit dem Microsoft Office SharePoint Server for Search 2007 („MOSS For Search 2007“) die in Sharepoint Server 2007 integrierte Suchtechnik als eigenständiges Produkt für die Enterprise-Suche heraus. Damit sollen vornehmlich kleinere und mittlere Unternehmen angesprochen werden.

Während Suchtechnologien für Internet-Surfer längst zur Selbstverständlichkeit geworden sind, so sind entsprechende Suchfunktionen zur Erschließung der vielfältigen strukturierten und unstrukturierten Informationen in Unternehmen bislang eher noch die Ausnahme. Entweder sind sie als teure Highend-Lösungen in Großunternehmen implementiert oder es wird am anderen Extrem mit kostenfreien Desktop-Suchprogrammen experimentiert (und am falschen Ende gespart).

Dadurch liegt nicht nur ungeheures Informationsportal brach - wenn man Microsoft-eigenen Studien glauben darf, sind die heutigen „Information worker“ in Unternehmen zu immerhin einem Viertel ihrer Arbeitszeit mit der - überflüssigen - Suche nach Informationen beschäftigt, ob diese nun in Dokumenten, Datenbanken, auf Dateiservern oder in Köpfen von Menschen liegen. Die fehlende Technik kostet die Unternehmen demzufolge auch bares Geld.

In diese Lücke möchte Microsoft stoßen und mit dem Standalone-Produkt auch Unternehmen erreichen, welche keine Sharepoint-Anwender sind.

Merkmale

Dementsprechend positioniert Microsoft das Produkt in der mittleren Marktebene - unterhalb z.B. FAST und Autonomy, aber beispielsweise neben der Google Appliance. Das Produkt hat dabei den Anspruch, Suchtechnologien bereitzustellen, welche sich speziell auf Business-Anforderungen hin ausrichten, die durchaus in verschiedenen Bereichen grundverschieden von denen des Internet-Surfers sind. Dementsprechend verfügt MOSS For Search über umfangreiche APIs zur Integration z.B. in SOA-Frameworks, aber auch zur Erweiterung der Funktionalität. In der Vollversion des Sharepoint Server ist dementsprechend auch die Anbindung an externe Datenhaltungssysteme via BDC (Business Data Connector) möglich und ein Highlight der Suchplattform aus Redmond.

Interessant kann dabei gerade für etwas kleinere Unternehmen sein, dass MOSS for Search Suchdienste neben dem Intranet auch im Internet für die Unternehmenswebsite realisieren kann.

MOSS For Search kann als Standard oder Enterprise-Edition geordert werden, wobei die Standard-Fassung eine Begrenzung auf 500.000 indexierte Dokumente aufweist, welche bei Enterprise aufgehoben ist. Anwender von MOSS verfügen bereits über die entsprechende Such- und Verwaltungsfunktionalität. Eine Integration mit der Microsoft Desktopsuche ist gegeben; diese ist bei Windows Vista besonders gut gelungen.

MOSS For Search wird über eine Serverlizenz erworben. Im Gegensatz zu Google ist das Produkt derzeit nicht als Appliance verfügbar.

Suchtechnologie

MOSS For Search ist spezialisiert auf die Erschließung strukturierter und unstrukturierter Datenquellen in Unternehmen. Es ist dementsprechend ausgestattet mit einem Crawler für Websites, Fileshares, Sharepoint-Sites inkl. Benutzerdaten, Datenhaltungssysteme via BDC, Exchange Public Folders und Lotus Notes Datenbanken. Unterstützt werden dabei die Dokumentenformate DOC, XLS, DOCx, XLSx, PPT, HTML, TXT, ASP, ASPX, PUB, TIFF, XML. Das System kann frei um weitere Formate durch installierbare Ifilter erweitert werden. Solche sind kostenfrei z.B. für PDF, Visio, JPG, OneNote, Lotus Notes, ZIP verfügbar. Die Installation dieser Ifilter kann dabei zuweilen etwas hakelig ausfallen.

Der Anwender findet eine gewohnte Browserumgebung vor, über welche Suchanfragen gestellt und Ergebnisse ausgewertet werden können. Speziell im Zusammenhang mit Sharepoint kann eine sehr umfangreiche Individualisierung der Optik und Funktionalität vorgenommen werden.


Suchmaske und Ergebnisdarstellung

Unter anderem folg. Funktionen unterstützen den Anwender bei Recherchen:

  • Suche frei oder über Eigenschaften (Properties), frei definierbar, z.B. Doktyp, Autor, Änderungsdatum
  • Relevanzermittlung mit automatischen Mechanismen und nach manuell konfigurierbaren Parametern
  • Suchvorschläge macht das System passend zur Anfrage
  • Peoplesearch, mit Berücksichtigung der „Social Distance“. Erschließung von Kontakten, Netzwerken und Wissen im Unternehmen. Dabei kann das System Zugriff nehmen auf AD, LDAP, BDC (nur in der Vollversion von MOSS 2007).
  • Definition von inhaltlichen Suchbereichen, Einschränkung der Suche auf Bereiche
  • Der Suchdienst schließt automatisch Variationen von Wörtern auf der Basis des Wortstamms ein, z. B. Plurale. Beispielsweise werden beim Suchen nach dem Wort Seite auch Ergebnisse für Seiten zurückgegeben.
  • Platzhalterzeichen wie das Sternchen (\*) können leider nicht verwendet werden.

Der Aufbereitung nach Relevanz widmen sich in MOSS For Search eine Reihe speziell an die Gegebenheiten in Unternehmen angepaßter Mechanismen. Die übliche Link-Popularität ist dort zumeist nicht relevant, so dass andere Algorithmen herangezogen müssen. MOSS For Search wertet daher automatisch die „URL-Tiefe“ eines Dokuments aus, also wie weit unten in einem gedachten Verlinkungs- bzw. Dokumentenbaum ein Dokument angesiedelt ist. Je weiter es von der Wurzel entfernt ist, desto weniger relevant wird es eingestuft. Gleiches gilt für die sog. Click-Distance, welche die Entfernung von als „autoritativ“ vermerkten Dokumenten misst und nach zunehmender Entfernung die Relevanz hinunterstuft. Höher eingestuft werden im Ranking die Hyperlink-Wörter, also jener Text welcher mit einem Hyperlink versehen ist. Für die Ermittlung der Relevanz werden außerdem Meta-Daten wie z.B. Titel in Dokumenten herangezogen. Ein Kuriosum ist das sog. file type biasing: Dieses sorgt für eine unterschiedliche Gewichtung von Suchergebnissen je nach Typ des zugrundeliegenden Dokuments in der absteigenden Reihenfolge HTML, Powerpoint, Word, XML, Excel, Text.

Umfangreiche Algorithmen greifen bei der Aufbereitung der präsentierten Suchergebnisse, welche sehr schnell geliefert werden:

  • Der Administrator kann umfangreiches Relevanztuning vornehmen: Er definiert Synonyme für häufige Suchwörter, nimmt Stichwortdefinitionen vor, gibt zu häufigen Anfragen gezielt das „Beste Suchergebnis“ vor („Best Bet“)
  • Duplikate werden vom System automatisch ausgefiltert oder wahlweise ausgewiesen


Definitionen von Stichwörtern mit passenden Ergebnistexten

  • Der Anwender kann sich Benachrichtigungen (Alerts) bei neuen Suchergebnissen per eMail oder per RSS zukommen lassen

Wie von einem Enterprise-Produkt zu erwarten, wird der Aspekt der Sicherheit groß geschrieben: so werden die unternehmensweiten Zugriffsberechtigungen vom System bei der Indexierung als auch der Auslieferung der Ergebnisse berücksichtigt. Dabei greift das Modul ASP.net Authentication auf Basis von LDAP oder Active Directory sowie ADFS. Rollen-basierte Konzepte sind implementierbar, um zu bestimmen, welcher Anwender welche Arten von Informationen suchen und abrufen darf.

Installation

Der rein technische Part der Installation und grundsätzlichen Konfiguration ist relativ überschaubar. So kann eine Demoversion als ISO-Datei heruntergeladen werden. Die Installation wird nach dem Booten der damit erstellten CD automatisch gestartet und bringt alle benötigten Komponenten mit.

Die Herausforderungen bei der Einführung des Systems liegen eher in organisatorischen und fachlichen Aspekten - eine kleine Auswahl:

  • Konzept, welche Daten und Formate sowie Datenhaltungssysteme indexiert werden sollen
  • Konzept für die Definition der Zugriffsrechte
  • Wenn Indexierung und Suche über WAN-Verbindungen zu realisieren ist, muss die benötigte Bandbreite kalkuliert und bereitgestellt werden.

Administration

MOSS For Search stellt eine zentrale Administrationsoberfläche bereit, welche sich - je nach Variante - nahtlos in die MOSS-Administration einklinkt. Diese ist unter anderem aufgrund der sinnvoll eingesetzten AJAX-Elemente durchaus komfortabel, aber teilweise etwas unübersichtlich geraten. So sucht man mitunter bestimmte Punkte immer wieder an den falschen Stellen.

Die wichtigsten Komponenten:

  • Auswertung und Monitoring des Crawlings
  • Crawler-Scheduling und -Tuning
  • der Crawler sieht vollständiges sowie inkrementelles Crawling vor
  • Verwaltung von Managed Properties, so dass unternehmensübergreifend gleiche Metadatenbezeichnungen verwendet werden und in einer zusammengeführt werden, um gezielte feldbezogene Suche durchführen zu können
  • Weitgehende Anpassbarkeit der Benutzeroberfläche für Anwender per Konfiguration. Intern per XML und XSL.
  • Monitoring der Suchanfragen
  • Debugging, Troubleshooting über Microsoft Operations Manager (MOM) Pack


Crawler-Steuerung


Auswertung der Anwender-Suchabfragen

Erweiterbarkeit

Der Erweiterbarkeit des Systems hat Microsoft viel Aufwand gewidmet und darf zu seinen Stärken gezählt werden, wobei insbesondere wichtig erscheint, dass sehr viel ohne „echtes“ Programmieren erreicht werden kann. Dies ist der konsequenten Implementierung vor allem der verschiedenen Schnittstellen auf Basis von XML und XSLT zu verdanken, welche weitgehende Definitionen und Konfiguration sowie Nutzung vorhandener Funktionen zulassen. Allerdings kann das Arbeiten mit diesen Dateien auch schnell unübersichtlich werden.

In vier Bereichen wird Administratoren und Programmierern viel Platz für eigene Realisierung gelassen:

  • API für Datenzugriffe:
    • Erstellung eigener Zugriffs- und Dokumentenfilter (iFilter, Protocol Handlers)
    • Installation aber auch Erstellung eigener Dokumentenkonverter, z.B. für Online-Darstellung verschiedener Dokumentformate wie DOC oder PDF
  • BDC (Business Data Catalog)(s.u.)
  • API für Suchtechnik:
    • Webservice-API für Integration der Suchfunktionalität auf anderen Plattformen/Applikationen
    • Ergänzung um Webparts für verschiedenste Funktionen, auch selbst erstellbar
    • „Search and Process“: Auslösen bestimmter definierbarer Funktionen, z.B. bei Auflistung jedes einzelnen Ergebniseintrags
  • API für Administrationskomponenten

Business Data Catalog (BDC)

Der BDC bezeichnet das mächtigste Instrument im Orchester der Such-APIs in Sharepoint. Es ist allerdings nicht Bestandteil von MOSS for Search, sondern nur in der Vollversion des Sharepoint-Servers verfügbar. Der BDC dient der Anbindung von Line-of-Business-Anwendungen, also primär der Erschließung von strukturierten Daten. Damit können Anwender über die gewohnten Suchmechanismen Informationen direkt aus diesen Systemen ziehen, wobei hierbei diese zumeist strukturiert abgelegten Informationen beispielsweise über feldbezogene Suche abgerufen werden können.

Die Voraussetzungen für die Integrierbarkeit einer Anwendung sind für diese recht gering: sie muss über ADO.NET erreichbar oder aber als Web-Service ansprechbar sein.

Der BDC ist dabei als reine XML-basierende Konfigurationsschnittstelle realisiert; der Programmierer arbeitet ohne Programmcodierung sondern über reine Bereitstellung von XML-Definitionen. Diese beschreiben die Anbindung, den Datenaustausch sowie die Datenstruktur und Methoden.
Importieren einer BDC-Definition

Die Bereitstellung entsprechender Suchfunktionen und Auflistungen erfolgt über Standardmethoden in MOSS über Business Data Web Parts, die direkt auf die jew. BDC-Konfiguration zugreifen. Der Crawler kann über die BDC-Definition die Inhalte der entfernten Anwendung erreichen und indexieren, so dass der Content automatisch suchbar wird. Auch hierbei können die durch die Quell-Anwendung definierten Zugriffsrechte berücksichtigt werden, indem bei der Ergebnisauflistung durch das sog. Security Trimming jene Einträge automatisch entfernt werden, für welche der Anwender keine Berechtigung vorweisen kann.

Fazit

Insgesamt vermag das Microsoft-Suchprodukt vor allem im Hinblick auf die gewählte Zielgruppe zu überzeugen. Funktionalität, Bedienung und vor allem Berücksichtigung der spezifischen Anforderungen von Unternehmen an Information Retrieval sind sehr gut. Leider sind gerade die sehr tiefgehenden Integrationsfunktionen wie der BDC nur in Verbindung mit einer vollständigen Sharepoint-Installation zu haben, was als Indiz dafür gewertet werden mag, dass Microsoft mit MOSS For Search Unternehmen vornehmlich zum Kauf von MOSS animieren will. So ist das Produkt auch insgesamt nur Unternehmen mit ausgesprochen starker Microsoft-Ausrichtung zu empfehlen, zumal entsprechendes Knowhow im Umgang mit dem Microsoft Webserver sowie SQL-Server und auch AD-Server zwingend notwendig ist.

Stärken und Schwächen

Plus

  • Funktionsumfang
  • Integration in Unternehmens-IT
  • Schlüssiges Sicherheitskonzept
  • Durchgängige XML-basierende Konfiguration von Suche, Ergebnislistung, Crawling usw.
  • Vollständige, nahtlose Integration in MOSS
  • SOA-Konzept

Minus

  • Auslieferungszustand funktional etwas schmal: Kein Online-Rendering der Dokumentenformate zur sofortigen Ansicht im Browser, keine PDF-Suche
  • Keine Wildcards in der Suche möglich/zulässig
  • Der BDC ist nur in der teuren Vollversion des Sharepoint-Servers erhältlich. Außerdem fehlt dafür ein eigenes grafisches Tool, es muss bislang von Drittanbietern gekauft werden.

Lizenzierung

Entweder als Standalone-Server (Standard oder Enterprise) als Teilmenge des Sharepoint Servers oder als Bestandteil einer MOSS-Server-Lizenz (Standard oder Enterprise), nur bei Enterprise mit Zugriff auf externe Datenhaltungssysteme via BDC (Business Data Connector). Nur bei MOSS-Server ist auch die „People“-Suche enthalten.

Verschiedene Komponenten je nach „Rolle“ bzw. Einsatzgebiet benötigt:

Grundsätzlich für MOSS gilt:

  • Windows SharePoint Services 3.0 (WSS 3)
  • Microsoft Office SharePoint Server 2007 Server License.
  • Microsoft Office SharePoint Server 2007 for Internet sites: Ausschließlich für Einsatz im Internet.
  • Microsoft Office SharePoint Server 2007 CAL, Standard oder Enterprise Edition. Je internem User (Mitarbeiter) ist eine Client Access License erforderlich.

Für MOSS for Search gilt:

  • Lizenzierung pro Server, keine CALs benötigt
  • Microsoft Office SharePoint Server 2007 for Search, Standard Edition Server License: Standalone Produkt, limitiert auf 500.000 Dokumente. Preis ab ca. 7.800,- EUR.
  • Microsoft Office SharePoint Server 2007 for Search, Enterprise Edition Server License: Wie Standard, aber ohne Begrenzung. Preis ab ca. 54.000,- EUR (Preisangaben ohne Gewähr und stark abhängig vom Rahmenvertrag).
  • Upgrade zu MOSS 2007 möglich
MOSS For Search StandardMOSS For Search EnterpriseMOSS Std. CALMOSS Enterprise CAL
Suche Dateien, Websites, Exchange, Notes Ja Ja Ja Ja
Suche in Dritt-Dok-Repositories Ja Ja Ja Ja
Indexierung von 40 Dateitypen Ja Ja Ja Ja
Sicherer Dokumentenzugriff Ja Ja Ja Ja
Benutzerdatensuche Ja Ja
erweiterte Suchinterfaces Ja Ja
Strukturierte Daten durchsuchen Ja
Dokument-Begrenzung 500.000 keine keine keine

(Tabellarium entnommen aus: http://www.stovereffect.com/blog/Lists/Posts/Post.aspx?ID=6)

Systemvoraussetzungen

  • Windows 2003 SP 1
  • Rechner mit mind. 2.5 Ghz Prozessor und 2 GB RAM, ggf. zusätzlicher Application Server („Farm Deployment“)
  • MS SQL Server: SQL Server 2005 empfohlen, alternativ ist aber auch SQL Server 2005 Express oder SQL Server 2000 verwendbar
  • .NET 3.0, ASP .Net 2.0,
  • MS IIS

Weblinks

 
suchmaschinen/moss_for_search.txt · Zuletzt geändert: 07.04.2008 16:04 von Wolfgang Sommergut     Nach oben
Recent changes RSS feed Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki