Adresse und Kontakt

AG Netzbasierte Informationssysteme
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

Korrelationen der Ähnlichkeiten von Webadressen und Webinhalten

Zwischen Web-Seiten können Ähnlichkeiten durch eine Analyse ihres Inhalts (z.B. in einem Volltextindex) oder ihrer Position im Netzwerk (HITS, Pagerank) ermittelt werden. Es wäre attraktiv, Ähnlichkeitsmaße aus URLs alleine zu ermitteln, da Rechenaufwand und Netzwerkverkehr entfällt. In einigen Anwendungen (z.B. Clustering das nur im Hintergrund genutzt wird) wäre auch lediglich eine solche URL-Ähnlichkeitsfunktion nötig.

So könnte man vermuten, dass beispielsweise alle Dokumente deren URL mit http://www.inf.fu-berlin.de/ beginnen ähnlich sind, da sie wahrscheinlich größtenteils mit Informatik zu tun haben. Diese Vermutung ist zu testen bevor eine entsprechende URL-Ähnlichkeitsfunktion verwendet werden kann.

In der Arbeit soll ermittelt werden, welche Ähnlichkeitsmaße dies leisten können. Dazu sollen mehrere existierende oder selber erstelle URL-Ähnlichkeitsfunktionen (z.B. unter Verwendung der SimMetrics Bibliothek) betrachtet werden. Mithilfe des Google API soll getestet werden, welche Ähnlichkeit bei Betrachtung des Inhalts und der Struktur errechnet wird. Es soll dann ermittelt werden, inwiefern die ermittelte URL-Ähnlichkeit mit der ermittelten Google-Ähnlichkeit korreliert und somit die leistungsfähigste URL-Ähnlichkeitsfunktion errechnet werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Web-Technologie, Netzbasierte Informationssystem, Netzprogrammierung

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Einen Kommentar schreiben

 

 

 

Diese HTML-Tags können verwendet werden

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>