Aufgabe dieser Arbeit ist die Erfassung und Analyse des kompletten RFC Korpus als Netzwerk. Beziehungen darin umfassen die definierten und in Metadaten erfassten “Obsoletes xxx”, “Obsoleted by xxx”, “Updates xxx”, “Updated by xxx” aber auch das durch Referenzen sich ergebende Zitationsnetzwerk zu weitern RFCs einerseits und zu externen Quellen andererseits.
In der Arbeit soll eine Erfassung der vorliegenden RFC Dokumente erfolgen, eine Extraktion der Beziehungen zu anderen Dokumenten und Standards sowie eine Analyse der sich ergebenden Netzwerkstruktur mit Hilfe eines Werkzeugs wie SONIVIS erfolgen.
Art der Arbeit: Studien- oder Bachelorarbeit
Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik
Gesetzes- und Verordnungstexte sind von teilweise hoher Komplexität geprägt. So verlangt die Allgemeine Verwaltungsvorschrift zur Bestimmung der Formblätter nach § 46 Abs. 3 des Bundesausbildungsförderungsgesetzes (BAföG-FormblattVwV 2008): “An den mit einem Stern gekennzeichneten Stellen der Versicherung des Erklärenden in Formblatt 3 Seite 4 Spiegelstrich 5 sind die Bedarfssätze nach § 12 Abs. 1 Nr. 1 des Gesetzes, nach § 12 Abs. 2 Nr. 2 und Abs. 3 in Verbindung mit § 13a Abs. 1 und Abs. 2 des Gesetzes, nach § 13 Abs. 1 Nr. 1 in Verbindung mit Abs. 2 Nr. 1 des Gesetzes und nach § 13 Abs. 1 Nr. 2, Abs. 2 Nr. 2 und Abs. 3 in Verbindung mit § 13a Abs. 1 und Abs. 2 des Gesetzes nach dem Bundesausbildungsförderungsgesetz in der zu Beginn des Bewilligungszeitraums, für den Ausbildungsförderung beantragt wird, maßgeblichen Höhe einzusetzen.”
Bei genauerer Betrachtung lassen sich in Gesetzestexten Verweisnetzwerke zwischen Gesetzen, Paragraphen oder Absätzen feststellen. In der Arbeit soll untersucht werden ob die Eigenschaften dieses Netzwerks charakteristisch für bestimmte Klassen von Gesetzen und Verordnungen sein können.
Dazu sollen die online verfügbaren Gesetze und Verwaltungsvorschriften des Bundes (gegebenenfalls auch von Ländern) syntaktisch auf Verweise analysiert werden um sie als Netzwerke zu repräsentieren. Mit Hilfes des Werkzeugs SONIVIS sind geeignete Netzwerkmetriken zu ermitteln und zu überprüfen ob wie beschrieben aus den strukturellen Eigenschaften heraus Aussagen über die Art oder gar dem Inhalt der Vorschrift ableitbar sind. Die Resultate der Analyse sollen in einem Online-Dienst bereitgestellt werden.
Art der Arbeit: Studien- oder Bachelorarbeit
Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik
Webrings sind eine sehr alte Struktur im Web mit der thematisch ähnliche Sites über ein externes Navigationselement verknüpft werden sollen. In der Arbeit soll statistisch geprüft werden ob dies erreicht wird.
Ausgehend vom Verzeichnis von Webrings bei www.webring.com soll zunächst die Strukturen von Webrings (Größe und Konnektivität) analysiert werden. Weiterhin sollen jeweils miteinander verbundene Site auf Ähnlichkeit überprüft werden (Indexierung z.B. mit Lucene und Berechnung des Dokumentenabstands) sowie die Auswirkung auf die Popularität der verbundenen Sites anhand ihres Pageranks (statischer Vergleich des Pageranks innerhalb des Webrings mit dem vondurch google als ähnlich identifizierten Sites ausserhalb des Webrings) analysiert werden.
Art der Arbeit
Studien- oder Bachelorarbeit
Voraussetzungen
Kenntnisse in Web Technologien, Information Retrieval, Netzwerke
Wordpress ist eine sehr populäres CMS für Blogs. Dabei können Inhalte mit Kategorien und Tags markiert werden um ihre inhaltliche Ausrichtung zu beschreiben. Allerdings gibt es bislang keine Systematik für diese Kategorisierung und man kann sich nicht auf externe Kategoriensysteme beziehen.
Die Arbeit soll Technologien des Semantic Web dafür nutzen. So soll man sich als Autor bei der Auswahl von Tags und Kategorien auf eine externe Ontologie nach Semantic Web Standards beziehen können oder beim Editieren semantische Microformate verwenden können. Nach außen soll eine semantische Suche für Nutzer angeboten werden sowie Metadaten zu einem Blog als RDF anfragbar sein. Weitere Einsatzmöglichkeiten zu Semantischen Technologien in Wordpress sind abzustimmen.
Zu erstellen ist ein Wordpress Plugin, dass sich in die bislang kurze Liste semantischer Wordpress Erweiterungen einreiht. Das Plugin ist unter eine LGPL Lizenz zu stellen.
Über auf CD veröffentlichte Musik liegen Metadaten bezüglich der Künstler und der aufgenommenen Titel vor. Die freedb ist eine quelloffene Datenbank von ca. 2,8 Millionen CDs mit ca. 42 Millionen Titeln, teilweise in 11 Genres klassifiziert.
Es ergibt sich ein Netzwerk aus Künstlern und aufgenommenen Songs. In der Arbeit soll die freedb entsprechend aufbereitet und einer Netzwerkanalyse unterzogen werden. Dabei sollen Fragen beantwortet werden wie: Welche Songs wurden von mehreren Künstlern aufgenommen, welche Künstler nehmen viele Songs auf die auch andere aufnehmen, gibt es Künstlergruppen deren Aufnahmen sich überlappen, sind diese Maße spezifisch für Genres? Weiterhin sollen anhand der unterschiedlichen Snapshots der freedb Datenbank Fragen zur Dynamik des Künstler-Song-Netzwerks beantwortet werden: Welche Songs werden zunehmend gecovered, gibt es einen signifikanten Zusammenhang mit bestehenden ähnlichen Künstlergruppen? Weitere, ähnliche Fragestellungen sollen in der Arbeit entwickelt werden.
Zur Netzwerkanalyse soll ein geeignetes Werkzeug, bevorzugt SONIVISverwendet werden. Die Resultate der Analyse sollen in einem Online-Dienst bereitgestellt werden.
Art der Arbeit
Studien- oder Bachelorarbeit
Voraussetzungen
Kenntnisse in Datenbankanwendungen, Netzwerkanalyse, Netzbasierten Informationssystemen.
Quelltextverwaltungen/Versionsverwaltungen stellen die Grundlage für fast sämtliche OpenSource Software Projekte dar. Die Gemeinschaft aus Entwicklern auf der einen und Nutzern auf der anderen Seite bilden das Wesen dieser Projekte. Kenntnis um die Netzwerke, in denen sich Entwickler und Nutzer organisieren, über die sie k0mmunizieren und zusammenarbeiten, stellen oftmals essentiell wichtige Faktoren für Erfolg oder Misserfolg dieser Projekte dar. Das Netzwerk der Zusammenarbeit kann beispielsweise anhand der Versionsverwaltung rekonstruiert und analysiert werden. Aus der Kenntnis, wer mit wem zusammen arbeitet, kann so beispielsweise herausgefunden werden,
In der Arbeit soll die quelloffene Software SONIVIS um einen SubversionExtraktor erweitert werden. Dem ETL-Prinzip (Extract-Transform-Load) folgend kann mittels SONIVIS dann das Netzwerk der Zusammenarbeit generell analysiert werden. Da SONIVIS auf der RichPlatform (RCP) von Eclipse Client aufbaut, können vorhandene subversionplugins (subversive/subclipse) zum Zugriff auf Subversionrepositories genutzt bzw. erweitert werden. Zur tiefergehenden Analyse sollen domänenspezifische Metriken (beispielsweise LinesOf Code (LOC), Interface Nutzungshäufigkeit etc.) implementiert werden. Eine Analyse von beispielhaften Opensource Projekten (z.B. KDE) soll die Arbeit beschließen.
Art der Arbeit
Studien- oder Bachelorarbeit
Voraussetzungen
Kenntnisse in Programmierung mit Java und dem Umgang mit Eclipse. Kenntnisse in RCP Entwicklung von Vorteil.
Webseiten stellen ein Netzwerk aus Hypertexten dar, die über Hyperlinks miteinander verbunden sind. Die graphische Darstellung der Linkstruktur könnte zur schnellen Identifikation von Clustern von Webseiten, die beispielsweise einen Themenschwerpunkt darstellen, dienen. Eine vergleichende Analyse von Linkstruktur und Klickpfaden, kann zur Verbesserung der Nutzerführung genutzt werden.
In der Arbeit soll mittels bestehender Open Source Software ein Webcrawler (basierend auf Nutch) erstellt werden, welcher die gesammelten Daten für die Netzwerkanalyse und -visualisierungs software SONIVIS aufbereitet.
SONIVIS (das Wiki unter sonivis.org/wiki enthält Informationen für Entwickler) ist eine auf Eclipse basierende open source software zur Analyse und Visualisierung von Netzwerken. Sie verfügt über ein generisches Datenmodell und Erweiterungsschnittstellen (extension points), um verschiedene Informationsbestände zu extrahieren und aus diesen Netzwerke zu laden.
Nutch ist eine Open Source Web-Search Software. Sie basiert auf Lucene Java und fügt webspezifische Funktionen, wie einen Crawler, Parser für HTML und weitere Dokumenten Formate etc. hinzu.
Art der Arbeit
Studien- oder Bachelorarbeit
Voraussetzungen
Kenntnisse in Java Programmierung. Eclipse Kenntnisse sind von Vorteil, aber keine Voraussetzung.
Lehrveranstaltungen, Weiterbildungen etc. werden von Prüfungen abgeschlossen, die beispielsweise als Klausuren eine Reihe von Prüfungsfragen in geeigneter inhaltlicher Kombination in geeigneten Schwierigkeitsgraden zusammenstellen.
Diese Zusammenstellung in hoher Qualität ist momentan ein manueller und damit teurer Vorgang. Aus einem Pool von Aufgaben werden mit menschlichem Hintergrundwissen um den Inhalt und die Schwierigkeit einige ausgewählt und zu einer Klausur kombiniert. Falls bestimmte Themen noch nicht abgedeckt sind, werden neue Aufgaben erstellt.
In der Arbeit soll dieser Vorgang automatisiert werden. Aufgaben sollen dabei einzeln geeignet mit Metadaten zu ihrem Inhalt und Schwierigkeitsgrad markiert sind. Es soll eine Zielvorgabe für inhaltliche Schwerpunkt der Klausur und ihrer Schwierigkeit geben. Die in er Arbeit zu erstellende Software soll dann mit Hilfe Semantischer Technologien eine geeignete Auswahl treffen und die Klausur kombinieren.
Als triviales Beispiel könnte in einer Klausur eine Frage nach einem Internet-Transportprotokoll gestellt werden sollen. Vorhandene Aufgaben zu NNTP, FTP, HTTP etc. sind als solche semantisch markiert und in einer Ontologie ist vermerkt, dass sie alle Internet-Transportprotokolle sind. Das System soll dann automatisch eine davon auswählen.
Informationen mit regionalem Bezug sind heute textuell im regulären Web veröffentlicht. Ein Beispiel sind die Standorte und Art von Altglascontainern im Bezirk Charlottenburg Wilmersdorf. Um die Informationen allerdings wirklich nutzbar zu machen (”wo ist der nächste Container und wie komme ich dorthin?”), wäre eine Einbindung in ein webbasiertes Geoinformationssystem wie Google Maps sinnvoller.
In der Arbeit soll ein Rahmenwerk und ein Tool zur Übernahme existierender Adresstabellen aus dem Web nach Google-Maps entworfen und die realisiert werden. Dazu muss eine Extraktions-Komponente Adresstabellen aus Web-Seiten ermitteln. Diese müssen in eine Austauschsprache zur eventuellen manuellen Nachbereitung oder automatischen Anreicherung konvertiert werden. Daraus sollen entsprechende Einträge in einer Google-Maps Karte erstellt und publiziert werden.
Zwischen Web-Seiten können Ähnlichkeiten durch eine Analyse ihres Inhalts (z.B. in einem Volltextindex) oder ihrer Position im Netzwerk (HITS, Pagerank) ermittelt werden. Es wäre attraktiv, Ähnlichkeitsmaße aus URLs alleine zu ermitteln, da Rechenaufwand und Netzwerkverkehr entfällt. In einigen Anwendungen (z.B. Clustering das nur im Hintergrund genutzt wird) wäre auch lediglich eine solche URL-Ähnlichkeitsfunktion nötig.
So könnte man vermuten, dass beispielsweise alle Dokumente deren URL mit http://www.inf.fu-berlin.de/ beginnen ähnlich sind, da sie wahrscheinlich größtenteils mit Informatik zu tun haben. Diese Vermutung ist zu testen bevor eine entsprechende URL-Ähnlichkeitsfunktion verwendet werden kann.
In der Arbeit soll ermittelt werden, welche Ähnlichkeitsmaße dies leisten können. Dazu sollen mehrere existierende oder selber erstelle URL-Ähnlichkeitsfunktionen (z.B. unter Verwendung der SimMetrics Bibliothek) betrachtet werden. Mithilfe des Google API soll getestet werden, welche Ähnlichkeit bei Betrachtung des Inhalts und der Struktur errechnet wird. Es soll dann ermittelt werden, inwiefern die ermittelte URL-Ähnlichkeit mit der ermittelten Google-Ähnlichkeit korreliert und somit die leistungsfähigste URL-Ähnlichkeitsfunktion errechnet werden.
Art der Arbeit
Studien- oder Bachelorarbeit
Voraussetzungen
Kenntnisse in Web-Technologie, Netzbasierte Informationssystem, Netzprogrammierung