Adresse und Kontakt

AG Netzbasierte Informationssysteme
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

Normennetzwerke: RFCs

Die Requests for Comments, RFCs definieren die Standards des Internet. Der Korpus dieser Dokumente liegt in verarbeitbarer und weit regulierter Form vor.Dokumente sind in verschiedene Kategorien eingeordnet.

Aufgabe dieser Arbeit ist die Erfassung und Analyse des kompletten RFC Korpus als Netzwerk. Beziehungen darin umfassen die definierten und in Metadaten erfassten “Obsoletes xxx”, “Obsoleted by xxx”, “Updates xxx”, “Updated by xxx” aber auch das durch Referenzen sich ergebende Zitationsnetzwerk zu weitern RFCs einerseits und zu externen Quellen andererseits.

In der Arbeit soll eine Erfassung der vorliegenden RFC Dokumente erfolgen, eine Extraktion der Beziehungen zu anderen Dokumenten und Standards sowie eine Analyse der sich ergebenden Netzwerkstruktur mit Hilfe eines Werkzeugs wie SONIVIS erfolgen.

Art der Arbeit: Studien- oder Bachelorarbeit

Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Kunstnetzwerke: Werke, Künstler und Auktionen

Der weltweite Kunstmarkt ist sehr lose organisiert. Relevante Rollen sind die Künstler mit ihren Werken und Auktionshäuser, die Werke von Künstlern auf dem sog. 2. Markt an Museen und Sammler versteigern. Kunstauktionen werden mittlerweile von umfangreichen Online-Katalogen begleitet, die Gebotsabgabe über das Internet ist möglich und auch Ergebnislisten werden online bereitgestellt. Aufgrund der individuellen Insellösungen von Auktionshäusern ist es aber kaum möglich sich einen vollständigen Überblick zu Inhalt und Struktur des Kunstauktionsmarkts zu bilden. Kommerzielle Dienste wie artprice.com oder artfacts.net sind vergleichsweise hochpreisig.

In dieser Arbeit sollen Informationen über in Auktionen gehandelte Werke und deren Künstler ermittelt und mit Hilfe einer Netzwerkanalyse Strukturen des 2. Markts identifiziert werden. Verzeichnisse von Auktionshäusern wie von kunstmarkt.com erfassen relevante Sites und liefern Ausgangspunkte für einen Crawler, der beispielsweise auf einem Rahmenwerk wie beispielsweise SMILA oder Nutch basiert und vielleicht an einen Screen Scraper wie scrapy angeschlossen ist. Aus Online-Katalogen sollen angebotene Künstler und Werke extrahiert werden und geeignet ein Netzwerk erstellt werden. Mit dem Tool SONIVIS sollen dann Analysen zu Netzwerkeigenschaften durchgeführt werden und deren Ergebnisse sowie das Werke-Künstler-Auktionshaus-Netzwerk online dargestellt werden. Sämtliche Software ist unter die BSD oder Apache Lizenz zu stellen.

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in grundlegenden Web-Technologien und Netzwerken

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Kunstnetzwerke: Künstler und Galerien

Der weltweite Kunstmarkt ist sehr lose organisiert. Relevante Rollen sind die Künstler mit ihren Werken, Galerien die die Werke von Künstlern auf dem sog. 1. Markt vermarkten sowie Museen und private Sammler die Werke ankaufen sowie weiter Intermediäre die Öffentlichkeit herstellen. Künstler, Galerien und Museen haben in den letzten Jahre erkannt, dass ihre Online-Repräsentanzen notwendig für das Funktionieren des Kunstmarkts sind. Aufgrund der sehr losen Organisation ist es aber kaum möglich sich einen vollständigen Überblick zu Inhalt und Struktur des Kunstmarkts zu bilden.

In dieser Arbeit sollen mit Hilfe einer Netzwerkanalyse solche Strukturen identifiziert werden. Als Künstler sollen dabei jene gelten die von deutschen oder deutschsprachigen Galerien vertreten werden. Dazu müssen die verteilt vorliegenden Online-Informationen geeignet analysiert werden. In der Arbeit ist dies durch einen Crawler zu automatisieren, der auf einem Rahmenwerk wie beispielsweise SMILA oder Nutch basiert und vielleicht an einen Screen Scraper wie scrapy angeschlossen ist.

Galerieverzeichnisse wie bei artfacts oder beim Bundesverband Deutscher Galerien und Editionen e.V. müssen geeignet analysiert werden um Listen mit Netzadressen von Galerien zu ermitteln. Auf den Galerie-Sites muss dann durch eine Heuristik die Liste der von der Galerie vertretenen Künstler ermittelt werden. Aus diesen Informationen – eventuell angereichert um Metainformationen wie Stilrichtung des Künstlers oder Schwerpunkt der Galerie – soll geeignet ein Netzwerk erstellt werden. Mit dem Tool SONIVIS sollen dann Analysen zu Netzwerkeigenschaften durchgeführt werden und deren Ergebnisse sowie das Künstler-Galerie-Netzwerk online dargestellt werden. Sämtliche Software ist unter die BSD oder Apache Lizenz zu stellen.

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in grundlegenden Web-Technologien und Netzwerken

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Semantische Technologien in Wordpress

Wordpress ist eine sehr populäres CMS für Blogs. Dabei können Inhalte mit Kategorien und Tags markiert werden um ihre inhaltliche Ausrichtung zu beschreiben. Allerdings gibt es bislang keine Systematik für diese Kategorisierung und man kann sich nicht auf externe Kategoriensysteme beziehen.

Die Arbeit soll Technologien des Semantic Web dafür nutzen. So soll man sich als Autor bei der Auswahl von Tags und Kategorien auf eine externe Ontologie nach Semantic Web Standards beziehen können oder beim Editieren semantische Microformate verwenden können. Nach außen soll eine semantische Suche für Nutzer angeboten werden sowie Metadaten zu einem Blog als RDF anfragbar sein. Weitere Einsatzmöglichkeiten zu Semantischen Technologien in Wordpress sind abzustimmen.

Zu erstellen ist ein Wordpress Plugin, dass sich in die bislang kurze Liste semantischer Wordpress Erweiterungen einreiht. Das Plugin ist unter eine LGPL Lizenz zu stellen.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Semantic Web, Web Technologien

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Semantische Integration von Konferenzinformationen

Informationen über wissenschaftliche Konferenzen in der Informatik und anderen Wissenschaften sind im Netz nur schlecht erschließbar. Neben den völlig verstreut angebotenen eigentlichen Konferenzankündigungen und Aufrufen zur Beitragseinreichung gibt es verschiedene Angebote mit Sammlungen solcher Informationen. So wollen z.B. allconferences.com oder goingtomeet.com möglich alle Konferenzen erfassen, während Fachverbände wie die IEEE, die ACM oder die GI jeweils informatikspezifische Kalender anbieten.

Wissenschaftler möchten die Anfrage “Auf welchen Konferenzen kann ich meine Arbeit im Themenbereich X, Y und Z einreichen” einfach von einer Suchmaschine beantwortet bekommen. Eine solche Suchmaschine existiert bislang aber nicht.

In der Arbeit soll ein Rahmenwerk geschaffen und exemplarisch für informatische Themen realisiert werden mit dem aus unterschiedlichen Quellen erschlossene Konferenzankündigungen Informationen über die jeweils geforderten Themen ermittelt werden und auf dieser Basis die obige Anfrage präzise und umfassend beantwortet werden kann. Dabei soll eine Ontologie für die Themenklassifikation sowie eine semantische Suche genutzt werden.

Das Rahmenwerk soll exemplarisch für Konferenzen aus der Informatik realisiert werden, gleichzeitig aber so allgemein sein, dass leicht eine Suchmaschine für andere Disziplinen (z.B. Elektrotechnik, Mathematik) oder andere Veröffentlichungsarten (z.B. wissenschaftliche Zeitschriften) konfiguriert werden könnte. Die zu erstellende Software soll als LGPL lizensiert sein.

Art der Arbeit

Diplom- oder Masterarbeit

Voraussetzungen

Kenntnisse in Web-Technologien und Semantic Web

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Automatische Klausurerstellung mit semantischen Informationen

Lehrveranstaltungen, Weiterbildungen etc. werden von Prüfungen abgeschlossen, die beispielsweise als Klausuren eine Reihe von Prüfungsfragen in geeigneter inhaltlicher Kombination in geeigneten Schwierigkeitsgraden zusammenstellen.

Diese Zusammenstellung in hoher Qualität ist momentan ein manueller und damit teurer Vorgang. Aus einem Pool von Aufgaben werden mit menschlichem Hintergrundwissen um den Inhalt und die Schwierigkeit einige ausgewählt und zu einer Klausur kombiniert. Falls bestimmte Themen noch nicht abgedeckt sind, werden neue Aufgaben erstellt.

In der Arbeit soll dieser Vorgang automatisiert werden. Aufgaben sollen dabei einzeln geeignet mit Metadaten zu ihrem Inhalt und Schwierigkeitsgrad markiert sind. Es soll eine Zielvorgabe für inhaltliche Schwerpunkt der Klausur und ihrer Schwierigkeit geben. Die in er Arbeit zu erstellende Software soll dann mit Hilfe Semantischer Technologien eine geeignete Auswahl treffen und die Klausur kombinieren.

Als triviales Beispiel könnte in einer Klausur eine Frage nach einem Internet-Transportprotokoll gestellt werden sollen. Vorhandene Aufgaben zu NNTP, FTP, HTTP etc. sind als solche semantisch markiert und in einer Ontologie ist vermerkt, dass sie alle Internet-Transportprotokolle sind. Das System soll dann automatisch eine davon auswählen.

Art der Arbeit

Studien-, oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Semantischen Technologien

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Konvertierung tabellarischer Adressinformationen in ein Geoinformationssystem

Informationen mit regionalem Bezug sind heute textuell im regulären Web veröffentlicht. Ein Beispiel sind die Standorte und Art von Altglascontainern im Bezirk Charlottenburg Wilmersdorf. Um die Informationen allerdings wirklich nutzbar zu machen (“wo ist der nächste Container und wie komme ich dorthin?”), wäre eine Einbindung in ein webbasiertes Geoinformationssystem wie Google Maps sinnvoller.

In der Arbeit soll ein Rahmenwerk und ein Tool zur Übernahme existierender Adresstabellen aus dem Web nach Google-Maps entworfen und die realisiert werden. Dazu muss eine Extraktions-Komponente Adresstabellen aus Web-Seiten ermitteln. Diese müssen in eine Austauschsprache zur eventuellen manuellen Nachbereitung oder automatischen Anreicherung konvertiert werden. Daraus sollen entsprechende Einträge in einer Google-Maps Karte erstellt und publiziert werden.

Art der Arbeit

Bachelor- oder Studienarbeit

Voraussetzungen

Kenntnisse in Web-Technologien und Web-Services

Betreuer

Prof. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Korrelationen der Ähnlichkeiten von Webadressen und Webinhalten

Zwischen Web-Seiten können Ähnlichkeiten durch eine Analyse ihres Inhalts (z.B. in einem Volltextindex) oder ihrer Position im Netzwerk (HITS, Pagerank) ermittelt werden. Es wäre attraktiv, Ähnlichkeitsmaße aus URLs alleine zu ermitteln, da Rechenaufwand und Netzwerkverkehr entfällt. In einigen Anwendungen (z.B. Clustering das nur im Hintergrund genutzt wird) wäre auch lediglich eine solche URL-Ähnlichkeitsfunktion nötig.

So könnte man vermuten, dass beispielsweise alle Dokumente deren URL mit http://www.inf.fu-berlin.de/ beginnen ähnlich sind, da sie wahrscheinlich größtenteils mit Informatik zu tun haben. Diese Vermutung ist zu testen bevor eine entsprechende URL-Ähnlichkeitsfunktion verwendet werden kann.

In der Arbeit soll ermittelt werden, welche Ähnlichkeitsmaße dies leisten können. Dazu sollen mehrere existierende oder selber erstelle URL-Ähnlichkeitsfunktionen (z.B. unter Verwendung der SimMetrics Bibliothek) betrachtet werden. Mithilfe des Google API soll getestet werden, welche Ähnlichkeit bei Betrachtung des Inhalts und der Struktur errechnet wird. Es soll dann ermittelt werden, inwiefern die ermittelte URL-Ähnlichkeit mit der ermittelten Google-Ähnlichkeit korreliert und somit die leistungsfähigste URL-Ähnlichkeitsfunktion errechnet werden.

Art der Arbeit

Studien- oder Bachelorarbeit

Voraussetzungen

Kenntnisse in Web-Technologie, Netzbasierte Informationssystem, Netzprogrammierung

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Grapheigenschaften ähnlicher Ontologien

Die Ontologien des Semantic Web sind Netzwerke aus getypten Konzepten und getypten Beziehungen zwischen ihnen. Neben verschiedenen Metaeigenschaften wie Entwurfszweck oder Einsatzgebiet der Ontologie, sind die üblichen Maße für Graphen Eigenschaften einer Ontologie. Die Kombination verschiedener Maße des Ontologie-Graphen könnte man zu einer Signatur zusammenführen mit deren Hilfe ähnliche Ontologien identifiziert werden könnten.

In der Arbeit soll ein Konzept zu solchen Signaturen entworfen und seine Aussagefähigkeit experimentell überprüft werden. werden. Dazu sollen zunächst mit Hilfe vorhandener Tools (z.B. GUESS oder SONIVIS) eine einfache Möglichkeit zur Ermittlung von Grapheigenschaften von Ontologien erstellt werden. Dann soll das gewählte Konzept überprüft werden indem für thematisch ähnliche Ontologien aus Ontologierepositorien (z.B. SchemaWeb) Signaturen ermittelt und dahingehend überprüft werden ob sie diese thematische Nähe wiederspiegeln.

Art der Arbeit

Diplom- oder Masterarbeit

Voraussetzungen

Kenntnisse in Semantic Web und Netzwerken

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

Zusammenfassung von Web-Seiten aufgrund visueller Prominenz von Textteilen

Die automatische Zusammenfassung von Web-Seiten (automatisches Abstracting) basiert auf statistischen oder computerlinguistischen Verfahren auf dem Textinhalt einer Seite. Web-Seiten haben aber auch eine visuelle Repräsentation (die Darstellung im Web-Browser), die – beispielsweise durch Stylesheets beeinflusst – weitere Hinweise auf entscheidende Inhalte geben kann, die für ein Abstracting genutzt werden sollten.

In der Arbeit soll ein Konzept entwickelt und prototypisch implementiert werden, das für eine Web-Seite ein Abstract erzeugt und dabei die visuelle Erscheinung der Seite untersucht. Dazu sollen geeignete Browser-Erweiterungen (z.B. Web Developer) modifiziert werden. Zu berücksichtigen sind visuelle Eigenschaften von Textteilen wie Position auf der Seite, Größe, Farbkontrast zu den anderen Teilen etc. Die Ergebnisse sollen geeignet evaluiert werden.

Art der Arbeit

Diplom- oder Masterarbeit

Voraussetzungen

Kenntnisse in Web-Technologien, insbesondere Seitendarstellung, Technologie von Web-Browsern, Interesse an Gestaltungsprinzipien im Web.

Betreuer

Prof. Dr.-Ing. Robert Tolksdorf

Weitere Informationen

Sprechstundentermin bei Prof. Robert Tolksdorf nehmen