Webrings

Webrings sind eine sehr alte Struktur im Web mit der thematisch ähnliche Sites über ein externes Navigationselement verknüpft werden sollen. In der Arbeit soll statistisch geprüft werden ob dies erreicht wird.

Ausgehend vom Verzeichnis von Webrings bei www.webring.com soll zunächst die Strukturen von Webrings (Größe und Konnektivität) analysiert werden. Weiterhin sollen jeweils miteinander verbundene Site auf Ähnlichkeit überprüft werden (Indexierung z.B. mit Lucene und Berechnung des Dokumentenabstands) sowie die Auswirkung auf die Popularität der verbundenen Sites anhand ihres Pageranks (statischer Vergleich des Pageranks innerhalb des Webrings mit dem vondurch google als ähnlich identifizierten Sites ausserhalb des Webrings) analysiert werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Web Technologien, Information Retrieval, Netzwerke

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Extraktion & Visualisierung von Webseiten als Netzwerk

Webseiten stellen ein Netzwerk aus Hypertexten dar, die über Hyperlinks miteinander verbunden sind. Die graphische Darstellung der Linkstruktur könnte zur schnellen Identifikation von Clustern von Webseiten, die beispielsweise einen Themenschwerpunkt darstellen, dienen. Eine vergleichende Analyse von Linkstruktur und Klickpfaden, kann zur Verbesserung der Nutzerführung genutzt werden.

In der Arbeit soll mittels bestehender Open Source Software ein Webcrawler (basierend auf Nutch) erstellt werden, welcher die gesammelten Daten für die Netzwerkanalyse und -visualisierungs software SONIVIS aufbereitet.

SONIVIS (das Wiki unter sonivis.org/wiki enthält Informationen für Entwickler) ist eine auf Eclipse basierende open source software zur Analyse und Visualisierung von  Netzwerken. Sie verfügt über ein generisches Datenmodell und Erweiterungsschnittstellen (extension points), um verschiedene Informationsbestände zu extrahieren und aus diesen Netzwerke zu laden.

Nutch ist eine Open Source Web-Search Software. Sie basiert auf Lucene Java und fügt webspezifische Funktionen, wie einen Crawler, Parser für HTML und weitere Dokumenten Formate etc. hinzu.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Java Programmierung. Eclipse Kenntnisse sind von Vorteil, aber keine Voraussetzung.

Betreuer

Dipl.-Inf. Benedikt Meuthrath

Weitere Informationen

Termin mit Benedikt Meuthrath vereinbaren.

Konvertierung tabellarischer Adressinformationen in ein Geoinformationssystem

Informationen mit regionalem Bezug sind heute textuell im regulären Web veröffentlicht. Ein Beispiel sind die Standorte und Art von Altglascontainern im Bezirk Charlottenburg Wilmersdorf. Um die Informationen allerdings wirklich nutzbar zu machen (”wo ist der nächste Container und wie komme ich dorthin?”), wäre eine Einbindung in ein webbasiertes Geoinformationssystem wie Google Maps sinnvoller.

In der Arbeit soll ein Rahmenwerk und ein Tool zur Übernahme existierender Adresstabellen aus dem Web nach Google-Maps entworfen und die realisiert werden. Dazu muss eine Extraktions-Komponente Adresstabellen aus Web-Seiten ermitteln. Diese müssen in eine Austauschsprache zur eventuellen manuellen Nachbereitung oder automatischen Anreicherung konvertiert werden. Daraus sollen entsprechende Einträge in einer Google-Maps Karte erstellt und publiziert werden.

Art der Arbeit

Bachelor- oder Studienarbeit

Voraussetzungen

Kenntnisse in Web-Technologien und Web-Services

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Korrelationen der Ähnlichkeiten von Webadressen und Webinhalten

Zwischen Web-Seiten können Ähnlichkeiten durch eine Analyse ihres Inhalts (z.B. in einem Volltextindex) oder ihrer Position im Netzwerk (HITS, Pagerank) ermittelt werden. Es wäre attraktiv, Ähnlichkeitsmaße aus URLs alleine zu ermitteln, da Rechenaufwand und Netzwerkverkehr entfällt. In einigen Anwendungen (z.B. Clustering das nur im Hintergrund genutzt wird) wäre auch lediglich eine solche URL-Ähnlichkeitsfunktion nötig.

So könnte man vermuten, dass beispielsweise alle Dokumente deren URL mit http://www.inf.fu-berlin.de/ beginnen ähnlich sind, da sie wahrscheinlich größtenteils mit Informatik zu tun haben. Diese Vermutung ist zu testen bevor eine entsprechende URL-Ähnlichkeitsfunktion verwendet werden kann.

In der Arbeit soll ermittelt werden, welche Ähnlichkeitsmaße dies leisten können. Dazu sollen mehrere existierende oder selber erstelle URL-Ähnlichkeitsfunktionen (z.B. unter Verwendung der SimMetrics Bibliothek) betrachtet werden. Mithilfe des Google API soll getestet werden, welche Ähnlichkeit bei Betrachtung des Inhalts und der Struktur errechnet wird. Es soll dann ermittelt werden, inwiefern die ermittelte URL-Ähnlichkeit mit der ermittelten Google-Ähnlichkeit korreliert und somit die leistungsfähigste URL-Ähnlichkeitsfunktion errechnet werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Web-Technologie, Netzbasierte Informationssystem, Netzprogrammierung

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Zusammenfassung von Web-Seiten aufgrund visueller Prominenz von Textteilen

Die automatische Zusammenfassung von Web-Seiten (automatisches Abstracting) basiert auf statistischen oder computerlinguistischen Verfahren auf dem Textinhalt einer Seite. Web-Seiten haben aber auch eine visuelle Repräsentation (die Darstellung im Web-Browser), die - beispielsweise durch Stylesheets beeinflusst - weitere Hinweise auf entscheidende Inhalte geben kann, die für ein Abstracting genutzt werden sollten.

In der Arbeit soll ein Konzept entwickelt und prototypisch implementiert werden, das für eine Web-Seite ein Abstract erzeugt und dabei die visuelle Erscheinung der Seite untersucht. Dazu sollen geeignete Browser-Erweiterungen (z.B. Web Developer) modifiziert werden. Zu berücksichtigen sind visuelle Eigenschaften von Textteilen wie Position auf der Seite, Größe, Farbkontrast zu den anderen Teilen etc. Die Ergebnisse sollen geeignet evaluiert werden.

Art der Arbeit

Diplom- oder Masterarbeit

Voraussetzungen

Kenntnisse in Web-Technologien, insbesondere Seitendarstellung, Technologie von Web-Browsern, Interesse an Gestaltungsprinzipien im Web.

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen