Dienstag, 3. März 2009

Deep Web ist ganz tief im Inneren des Web

Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes Web bezeichnet den Teil des World Wide Webs, der bei einer Recherche über normale Suchmaschinen nicht auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten Visible Web (Sichtbares Web) oder Surface Web (Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst durch Anfragen dynamisch aus Datenbanken generiert werden. Grob kann das Deep Web unterschieden werden in „Inhalte, die nicht frei zugänglich sind“ und „Inhalte, die nicht von Suchmaschinen indiziert werden“. Die Größe des Deep Web kann nur geschätzt werden – es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Suchmaschinen und ihre Webcrawler werden jedoch ständig weiterentwickelt, daher können Webseiten, die gestern noch zum Deep Web gehörten, heute schon Teil des Oberflächenwebs sein.

Dynamisch erstellte Webseiten
Webcrawler bearbeiten fast ausschließlich statische Webseiten und können viele dynamische Webseiten nicht erreichen, da sie andere Seiten nur durch Hyperlinks erreichen können, jene dynamischen Seiten aber oft erst durch Ausfüllen eines HTML-Formulars, was ein Crawler momentan noch nicht bewerkstelligen kann.
Kooperative Datenbankanbieter erlauben Suchmaschinen über Mechanismen wie JDBC einen Zugriff auf den Inhalt ihrer Datenbank, gegenüber den (normalen) nicht-kooperativen Datenbanken, die den Datenbankzugriff nur über ein Such-Formular bieten.

Hosts und Fachdatenbanken
Hosts sind kommerzielle Informationsanbieter, die Fachdatenbanken unterschiedlicher Informationsproduzenten innerhalb einer Oberfläche bündeln. Manche Datenbankanbieter (Hosts) oder Datenbankproduzenten selbst betreiben relationale Datenbanken, deren Daten nicht ohne eine spezielle Zugriffsmöglichkeit (Retrieval-Sprache, Retrieval-Tool) abgerufen werden können. Webcrawler verstehen weder die Struktur noch die Sprache, die benötigt wird, um Informationen aus diesen Datenbanken auszulesen. Viele Hosts sind seit den 1970er Jahren als Online-Dienst tätig und betreiben in ihren Datenbanken teilweise Datenbanksysteme, die lange vor dem WWW entstanden sind.
Beispiele für Datenbanken: Bibliothekskataloge (OPAC), Börsenkurse, Fahrpläne, Gesetzestexte, Jobbörsen, Nachrichten, Patente, Telefonbücher, Webshops, Wörterbücher.

Suchmaschinen machen zunehmend die Inhalte des Deep Web zugänglich und recherchierbar (Produktsuche, Routenplaner, Patente, Wetter). Zudem entwickeln sie sich weg vom bisher maßgeblichen Page-Rank hin zu einer Orientierung an den personalisierten Bedürfnissen des Nutzers. Bei einer Recherche nach aktuellen Fachinformationen ist eine Suche mit Suchmaschinen zurzeit noch unzulänglich. Gute Informationen benötigen die Kenntnis über entsprechende kostenlose Fachdatenbanken und deren Einstiegsadressen – oder kosten Geld (Host). Das Wissen über geeignete Gateways zu Informationsressourcen ist jedoch unter Nutzern wenig verbreitet. Es entwickelt sich zunehmend eine Zahlungsbereitschaft für qualitativ hochwertige Daten.

Keine Kommentare:

Kommentar veröffentlichen