Adresse und Kontakt

AG Netzbasierte Informationssysteme
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

Visualisierung von Ontologienutzungsdaten in SONIVIS

Die Analyse der Nutzung von Webseiten stellt schon heute eine wichtige Grundlage für bedarfsorientierte Angebote im Web dar. Kommen die Technologien des Semantic Web zur Anwendung, wird diese Analyse ungleich schwieriger, weil reine HTTP-Antworten des Servers zum Beispiel keine Aussage darüber zulassen, ob und welche Daten durch eine SPARQL-Anfrage an einem Endpoint gefunden wurden. Für die Betreiber von semantischen Datenrepositories verbergen sich aber hinter ebendiesen Infomrationen interessante Rückschlüsse auf die Qualität der Daten im Bezug zu den Anforderungen der Nutzer bzw. der Anwendungen, die diese Daten nutzen. Im Rahmen eines Promotionsvorhabens wurde eine Methode zur Sammlung solcher Nutzungsinformationen entworfen und implementiert und es liegen erste Beispieldaten über die Nutzung des DBpedia 3.3 Datensets vor.

Im Rahmen dieser Arbeit sollen nun die Beispieldaten und die ihnen zugrunde liegenden Ontologien durch eine Erweiterung der quelloffenen Software SONIVIS als Netzwerk visualisiert werden. Darüberhinaus sollen, ebenfalls für das SONIVIS Tool, Metriken entworfen und implementiert werden, die unterschiedliche Sichten auf diese Netzwerke ermöglichen. Ein Beispiel hierfür wären sogenannte Heat Maps, d.h. eine Visualisierung, die anhand der Anfragehäufigkeit Konzepte der Ontologie größer oder kleiner darstellt.

Art
Bachelor- oder Studienarbeit

Voraussetzungen
Kenntnisse in Programmierung mit Java und dem Umgang mit Eclipse. Kenntnisse in RCP Entwicklung von Vorteil. Verständnis von Semantic-Web-Technologien (insbes. RDF, Ontologien)

Betreuer
Dipl.-Inform. Markus Luczak-Rösch

Normennetzwerke: RFCs

Die Requests for Comments, RFCs definieren die Standards des Internet. Der Korpus dieser Dokumente liegt in verarbeitbarer und weit regulierter Form vor.Dokumente sind in verschiedene Kategorien eingeordnet.

Aufgabe dieser Arbeit ist die Erfassung und Analyse des kompletten RFC Korpus als Netzwerk. Beziehungen darin umfassen die definierten und in Metadaten erfassten “Obsoletes xxx”, “Obsoleted by xxx”, “Updates xxx”, “Updated by xxx” aber auch das durch Referenzen sich ergebende Zitationsnetzwerk zu weitern RFCs einerseits und zu externen Quellen andererseits.

In der Arbeit soll eine Erfassung der vorliegenden RFC Dokumente erfolgen, eine Extraktion der Beziehungen zu anderen Dokumenten und Standards sowie eine Analyse der sich ergebenden Netzwerkstruktur mit Hilfe eines Werkzeugs wie SONIVIS erfolgen.

Art der Arbeit: Studien- oder Bachelorarbeit

Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Normennetzwerke: Gesetze

Gesetzes- und Verordnungstexte sind von teilweise hoher Komplexität geprägt. So verlangt die Allgemeine Verwaltungsvorschrift zur Bestimmung der Formblätter nach § 46 Abs. 3 des Bundesausbildungsförderungsgesetzes (BAföG-FormblattVwV 2008): “An den mit einem Stern gekennzeichneten Stellen der Versicherung des Erklärenden in Formblatt 3 Seite 4 Spiegelstrich 5 sind die Bedarfssätze nach § 12 Abs. 1 Nr. 1 des Gesetzes, nach § 12 Abs. 2 Nr. 2 und Abs. 3 in Verbindung mit § 13a Abs. 1 und Abs. 2 des Gesetzes, nach § 13 Abs. 1 Nr. 1 in Verbindung mit Abs. 2 Nr. 1 des Gesetzes und nach § 13 Abs. 1 Nr. 2, Abs. 2 Nr. 2 und Abs. 3 in Verbindung mit § 13a Abs. 1 und Abs. 2 des Gesetzes nach dem Bundesausbildungsförderungsgesetz in der zu Beginn des Bewilligungszeitraums, für den Ausbildungsförderung beantragt wird, maßgeblichen Höhe einzusetzen.”

Bei genauerer Betrachtung lassen sich in Gesetzestexten Verweisnetzwerke zwischen Gesetzen, Paragraphen oder Absätzen feststellen. In der Arbeit soll untersucht werden ob die Eigenschaften dieses Netzwerks charakteristisch für bestimmte Klassen von Gesetzen und Verordnungen sein können.

Dazu sollen die online verfügbaren Gesetze und Verwaltungsvorschriften des Bundes (gegebenenfalls auch von Ländern) syntaktisch auf Verweise analysiert werden um sie als Netzwerke zu repräsentieren. Mit Hilfes des Werkzeugs SONIVIS sind geeignete Netzwerkmetriken zu ermitteln und zu überprüfen ob wie beschrieben aus den strukturellen Eigenschaften heraus Aussagen über die Art oder gar dem Inhalt der Vorschrift ableitbar sind. Die Resultate der Analyse sollen in einem Online-Dienst bereitgestellt werden.

Art der Arbeit: Studien- oder Bachelorarbeit

Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Webrings

Webrings sind eine sehr alte Struktur im Web mit der thematisch ähnliche Sites über ein externes Navigationselement verknüpft werden sollen. In der Arbeit soll statistisch geprüft werden ob dies erreicht wird.

Ausgehend vom Verzeichnis von Webrings bei www.webring.com soll zunächst die Strukturen von Webrings (Größe und Konnektivität) analysiert werden. Weiterhin sollen jeweils miteinander verbundene Site auf Ähnlichkeit überprüft werden (Indexierung z.B. mit Lucene und Berechnung des Dokumentenabstands) sowie die Auswirkung auf die Popularität der verbundenen Sites anhand ihres Pageranks (statischer Vergleich des Pageranks innerhalb des Webrings mit dem vondurch google als ähnlich identifizierten Sites ausserhalb des Webrings) analysiert werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Web Technologien, Information Retrieval, Netzwerke

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Semantische Technologien in Wordpress

Wordpress ist eine sehr populäres CMS für Blogs. Dabei können Inhalte mit Kategorien und Tags markiert werden um ihre inhaltliche Ausrichtung zu beschreiben. Allerdings gibt es bislang keine Systematik für diese Kategorisierung und man kann sich nicht auf externe Kategoriensysteme beziehen.

Die Arbeit soll Technologien des Semantic Web dafür nutzen. So soll man sich als Autor bei der Auswahl von Tags und Kategorien auf eine externe Ontologie nach Semantic Web Standards beziehen können oder beim Editieren semantische Microformate verwenden können. Nach außen soll eine semantische Suche für Nutzer angeboten werden sowie Metadaten zu einem Blog als RDF anfragbar sein. Weitere Einsatzmöglichkeiten zu Semantischen Technologien in Wordpress sind abzustimmen.

Zu erstellen ist ein Wordpress Plugin, dass sich in die bislang kurze Liste semantischer Wordpress Erweiterungen einreiht. Das Plugin ist unter eine LGPL Lizenz zu stellen.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Semantic Web, Web Technologien

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Songnetzwerke

Über auf CD veröffentlichte Musik liegen Metadaten bezüglich der Künstler und der aufgenommenen Titel vor. Die freedb ist eine quelloffene Datenbank von ca. 2,8 Millionen CDs mit ca. 42 Millionen  Titeln, teilweise in 11 Genres klassifiziert.

Es ergibt sich ein Netzwerk aus Künstlern und aufgenommenen Songs. In der Arbeit soll die freedb entsprechend aufbereitet und einer Netzwerkanalyse unterzogen werden. Dabei sollen Fragen beantwortet werden wie: Welche Songs wurden von mehreren Künstlern aufgenommen, welche Künstler nehmen viele Songs auf die auch andere aufnehmen, gibt es Künstlergruppen deren Aufnahmen sich überlappen, sind diese Maße spezifisch für Genres? Weiterhin sollen anhand der unterschiedlichen Snapshots der freedb Datenbank Fragen zur Dynamik des Künstler-Song-Netzwerks beantwortet werden: Welche Songs werden zunehmend gecovered, gibt es einen signifikanten Zusammenhang mit bestehenden ähnlichen Künstlergruppen? Weitere, ähnliche Fragestellungen sollen in der Arbeit entwickelt werden.

Zur Netzwerkanalyse soll ein geeignetes Werkzeug, bevorzugt SONIVIS verwendet werden. Die Resultate der Analyse sollen in einem Online-Dienst bereitgestellt werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Datenbankanwendungen, Netzwerkanalyse, Netzbasierten Informationssystemen.

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Automatische Klausurerstellung mit semantischen Informationen

Lehrveranstaltungen, Weiterbildungen etc. werden von Prüfungen abgeschlossen, die beispielsweise als Klausuren eine Reihe von Prüfungsfragen in geeigneter inhaltlicher Kombination in geeigneten Schwierigkeitsgraden zusammenstellen.

Diese Zusammenstellung in hoher Qualität ist momentan ein manueller und damit teurer Vorgang. Aus einem Pool von Aufgaben werden mit menschlichem Hintergrundwissen um den Inhalt und die Schwierigkeit einige ausgewählt und zu einer Klausur kombiniert. Falls bestimmte Themen noch nicht abgedeckt sind, werden neue Aufgaben erstellt.

In der Arbeit soll dieser Vorgang automatisiert werden. Aufgaben sollen dabei einzeln geeignet mit Metadaten zu ihrem Inhalt und Schwierigkeitsgrad markiert sind. Es soll eine Zielvorgabe für inhaltliche Schwerpunkt der Klausur und ihrer Schwierigkeit geben. Die in er Arbeit zu erstellende Software soll dann mit Hilfe Semantischer Technologien eine geeignete Auswahl treffen und die Klausur kombinieren.

Als triviales Beispiel könnte in einer Klausur eine Frage nach einem Internet-Transportprotokoll gestellt werden sollen. Vorhandene Aufgaben zu NNTP, FTP, HTTP etc. sind als solche semantisch markiert und in einer Ontologie ist vermerkt, dass sie alle Internet-Transportprotokolle sind. Das System soll dann automatisch eine davon auswählen.

Art der Arbeit

Studien-, oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Semantischen Technologien

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Konvertierung tabellarischer Adressinformationen in ein Geoinformationssystem

Informationen mit regionalem Bezug sind heute textuell im regulären Web veröffentlicht. Ein Beispiel sind die Standorte und Art von Altglascontainern im Bezirk Charlottenburg Wilmersdorf. Um die Informationen allerdings wirklich nutzbar zu machen (“wo ist der nächste Container und wie komme ich dorthin?”), wäre eine Einbindung in ein webbasiertes Geoinformationssystem wie Google Maps sinnvoller.

In der Arbeit soll ein Rahmenwerk und ein Tool zur Übernahme existierender Adresstabellen aus dem Web nach Google-Maps entworfen und die realisiert werden. Dazu muss eine Extraktions-Komponente Adresstabellen aus Web-Seiten ermitteln. Diese müssen in eine Austauschsprache zur eventuellen manuellen Nachbereitung oder automatischen Anreicherung konvertiert werden. Daraus sollen entsprechende Einträge in einer Google-Maps Karte erstellt und publiziert werden.

Art der Arbeit

Bachelor- oder Studienarbeit

Voraussetzungen

Kenntnisse in Web-Technologien und Web-Services

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Korrelationen der Ähnlichkeiten von Webadressen und Webinhalten

Zwischen Web-Seiten können Ähnlichkeiten durch eine Analyse ihres Inhalts (z.B. in einem Volltextindex) oder ihrer Position im Netzwerk (HITS, Pagerank) ermittelt werden. Es wäre attraktiv, Ähnlichkeitsmaße aus URLs alleine zu ermitteln, da Rechenaufwand und Netzwerkverkehr entfällt. In einigen Anwendungen (z.B. Clustering das nur im Hintergrund genutzt wird) wäre auch lediglich eine solche URL-Ähnlichkeitsfunktion nötig.

So könnte man vermuten, dass beispielsweise alle Dokumente deren URL mit http://www.inf.fu-berlin.de/ beginnen ähnlich sind, da sie wahrscheinlich größtenteils mit Informatik zu tun haben. Diese Vermutung ist zu testen bevor eine entsprechende URL-Ähnlichkeitsfunktion verwendet werden kann.

In der Arbeit soll ermittelt werden, welche Ähnlichkeitsmaße dies leisten können. Dazu sollen mehrere existierende oder selber erstelle URL-Ähnlichkeitsfunktionen (z.B. unter Verwendung der SimMetrics Bibliothek) betrachtet werden. Mithilfe des Google API soll getestet werden, welche Ähnlichkeit bei Betrachtung des Inhalts und der Struktur errechnet wird. Es soll dann ermittelt werden, inwiefern die ermittelte URL-Ähnlichkeit mit der ermittelten Google-Ähnlichkeit korreliert und somit die leistungsfähigste URL-Ähnlichkeitsfunktion errechnet werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Web-Technologie, Netzbasierte Informationssystem, Netzprogrammierung

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Semantik zum Layout von Netzwerken

Zur Darstellung von Graphen und Netzwerken existiert eine Fülle von Software, Tools und Forschung. Ein verbreitetes Modell ist die Verwendung von Kräften mit denen sich verbundene Knoten anziehen oder abstoßen.

In der Arbeit soll anhand mehrerer Verfahren erprobt werden, inwiefern sich semantische Abstandsmasse als Grundlage für solche Kräfte verwenden lassen. Dazu ist ein Konzept zu erstellen, eine geeignete Open Source Software auszuwählen und zu erweitern sowie das Konzept zu evaluieren.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse mindestens in einem der Bereiche Semantic Web und Graphlayout

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen