ICWE2012


Adresse und Kontakt

AG Netzbasierte Informationssysteme
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

Analyse von synchronen Kommunikationsstrukturen in der Open Source Software Entwicklung

Bei der Entwicklung von Open Source Software ist der Chat ein wichtiges Instrument der synchronen Kommunikation. Es werden aktuelle Änderungen am Source Code dokumentiert, Probleme bei der Softwareentwicklung diskutiert, Nutzerfragen beantwortet oder aber auch Diskussionen zu den unterschiedlichsten Themen geführt.

Die Frage ist, was für Personen beteiligen sich an den Gesprächen? Wie viele sind aktiv oder hören einfach nur zu? Wie lang “hören” nicht aktive Nutzer zu, bevor sie aktiv werden? Ist es möglich, bei den aktiven Nutzern bestimmte Kommunikationsrollen zu identifizieren? Welche Formen der Partizipation existieren innerhalb des Chats? An welchen Themen beteiligen sich die Nutzer an der Diskussion? Beteiligen sich Nutzer in Abhängigkeit von der Art des Thema an der Diskussion?

Um diese Frage beantworten zu können, ist es notwendig, bestehende Kommunikationsstrukturen im Zeitverlauf zu untersuchen und die Beteiligung der einzelnen Nutzer zu analysieren.

Im Rahmen dieser Arbeit sollen bestehende Kommunikationsstrukturen im open source software Projekt MediaWiki untersucht werden. Bestehende IRC (Internet Relay Protocol) Logdaten (Übersicht über Channels) sollen programmatisch in eine Netzwerkbeschreibung überführt, beteiligte Personen und ihre Interaktionen beschrieben und analysiert werden. Eine Analyse der Netzwerke kann mit Hilfe bestehender Werkzeuge/Bibliotheken wie beispielsweise visone, gephi oder igraph erfolgen. Ebenfalls werden Werkzeuge, wie beispielsweise PieSpy [...Weiterlesen/more...]

Referenznetzwerke in juristischen Textbeständen

Rechtstexte wie Gesetze, Verordnungen und Urteile werden verstärkt online publik gemacht. Die Datenbestände sind ein interessanter Korpus für Analysen von Referenzen innerhalb und zwischen diesen Texten. Innerhalb von Gesetzen wird direkt per Verweis auf andere Gesetze verwiesen. Diese Referenzen lassen sich hinreichend gut extrahieren, analysieren und visualisieren. Aber Gesetze stehen nicht nur explizit mit anderen Gesetzen in Verbindung, sondern viel häufiger auch durch die “Rechtsfolgenorm”, als die Regelung die an anderer Stelle die Folgen eines bestimmten Tatbestands festlegt.

Genau diese zu beherrschen und anzuwenden ist Teil der juristischen Ausbildung und die eigentliche Herausforderung dabei. Nachvollziehbar wird die Rechtsfolgenorm in der Praxis durch Urteile, die auf die in der Urteilsfindung angewandten Gesetze verweisen. Führt man diese Verweise mit den expliziten Verweisen in Gesetzestexten zusammen, erhält man ein riesiges Netzwerk aus Gesetzen und ihren Verweisen, das ohne sinnvolle Unterstützung kaum überschaubar ist, inhaltlich aber einen hohen Wert hat.

Die Analyse von Netzwerken ist ein verbreitetes Instrument um den Aufbau, bestehende Abhängigkeiten und Entwicklungen in Informationsstrukturen offenzulegen. Bekannte Studien basieren auf Beziehungen zwischen Webseiten im World Wide Web, auf Referenzen zwischen akademischen Artikeln aber auch auf juristischen Referenzen bei Urteilen.

In der Arbeit soll ein Rahmen konzipiert und implementiert werden mit dem sich … [...Weiterlesen/more...]

DigiPolis: Selbst-Organisierender Semantischer Speicherdienst (S4)

Im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts “DigiPolis” entwickelt die AG NBI einen verteilten selbst-organisierenden semantischen Speicherdienst (S4) auf der Basis von naturinspirierten Algorithmen und Schwarmintelligenz. Im Zuge dieser Entwicklung sind verschiedene, für Abschlussarbeiten passende Themen zu bearbeiten:

  • Erstellung einer vergleichenden Studie zwischen unterschiedlichen Organisationsprinzipien (Hash Tables, Lookup Trees,..) für verteilte Systeme mit dem Ziel, für S4 passende Einsatzszenarien zu identifizieren und zu beschreiben.
  • Entwurf, Implementierung und Analyse eines integrierten Evaluationswerkzeuges, mit dem S4 für verschiedene Konfigurationen und Datensets getestet werden kann. Wichtiger Punkt ist die Aufzeichnung von Testresultaten für nachgelagerte Untersuchungen.
  • Untersuchung und Umsetzung eines Verfahrens zur Vermeidung von Überlast auf den Netzwerkverbindungen zwischen den verschiedenen Knoten (“Overpathing”) für S4.
  • Untersuchung, Erstellung und Implementierung von Heuristiken für die Einstellungen verschiedene Parameter des selbstorganisierenden Systems.
  • Untersuchung und Umsetzung eines Verfahrens zur Behandlung von Ausfällen und Wiedereingliederung einzelner Knoten des verteilten Systems.

Sollten Sie an einem dieser Themen Interesse haben, wenden Sie sich bitte an einen der unten genannten Betreuuer.

Art
Bachelorarbeit
Wichtig: Wegen der begrenzten Projektlaufzeit können leider keine weiteren Master- oder Diplomarbeiten zu diesen Themen vergeben werden. Bacheloararbeiten müssen spätestens Ende August angemeldet werden.

Voraussetzungen
Kenntnisse in Programmierung mit Java, Vorkenntnisse in Verteilten … [...Weiterlesen/more...]

Visualisierung der Autorenbeiträge/der Artikelqualität in Wikipedia zur Beeinflussung des Nutzerverhaltens

Mittlerweile existieren eine Vielzahl von unterschiedlichen Ansätzen, in denen die Qualität von Autorenbeiträgen oder die Qualität von  Artikeln untersucht wird. Innerhalb dieser Studien werden zumeist bestimmte Aspekte untersucht und visualisiert, wie beispielsweise die Editieraktivität von Autoren in der Wikipedia mit sogenannten Chromograms [1], Änderungen auf Diskussionsseiten mit History Flow Diagrams [2] oder aber auch die Ko-Autorenschaft zwischen Artikeln basierend auf Netzwerken [3]. Ebenfalls werden Nutzeränderungen direkt im Wiki angezeigt wie bei Wiki–Dashboard [4]. Daneben existieren aber auch Visualisierungen, in denen der rein visuelle Aspekt im Mittelpunkt steht, wie beispielsweise in [5].

Die Frage der in dieser Diplomarbeit nachgegangen werden soll ist aber, wie durch Visualisierungen zur Artikelqualität bzw. zum Editierverhalten die dem Nutzer direkt zur Verfügung gestellt werden, das Nutzerverhalten indirekt beeinflusst wird oder indirekt beeinflusst werden kann. Dazu soll zunächst ein Überblick über bestehende Ansätze zur Nutzeraktivität und Artikelqualität erfolgen. Diese Ansätze sollen auf ihre Nutzbarkeit bzw. Erweiterbarkeit hinsichtlich der Verwendung in dieser Forschung untersucht werden. Dabei geht es vor allem darum, Kriterien zu ermitteln, die eine solche vergleichende Bewertung erlauben. Dazu sollte auf bestehende Literatur aus den Bereichen der Informationsvisualisierung (z.B. [6], [7]) und Visual Analytics [8] zurückgegriffen werden. Die Ergebnisse sollen genutzt werden, um eine eigene Visualisierung … [...Weiterlesen/more...]

Entwicklung der Community-Struktur in Abhängigkeit von der Artikelqualität in Wikipedia

Der Erfolg der Wikipedia als Community-organisiertes Projekt ist mittlerweile unbestritten und es wurde bereits viele Forschungsarbeiten erstellt, die unter anderem erklärenden Charakter haben oder sich aus aggregierten Analysen zusammensetzen. Zu der ersten Gruppe an Studien gehört beispielsweise [1]; hier wird die Bedeutung sogenannter „privileged users“ für die Inhalteerstellung gerade nach der Gründung der Wikipedia herausgestellt, wobei sich diese Bedeutung hin zu „ordinary authors“ verschiebt. In [2] wird das Editierverhalten unterschiedlicher Systemrollen in den unterschiedlichen Sprachversionen der Wikipedia verglichen (z.B. Admin, Sysop). In [3] wiederum wird der Einfluss des Editierverhaltens der Autoren auf die Artikelqualität untersucht. In der zweiten Gruppe von Studien wird Wikipedia als Netzwerk interpretiert und beispielsweise die zeitliche Entwicklung [4], preferential attachment [5] und ausgewählte Eigenschaften komplexer System [6] untersucht. Außerdem wurde unter Zuhilfenahme von sogenannten revert graphs verborgene soziale Muster identifiziert [7].

In dieser Bachelorarbeit soll die Entwicklung der Community-Struktur in Abhängigkeit von der Artikelqualität untersucht werden. Es soll dazu ein temporales Kollaborationsnetzwerk aufgebaut werden. Die Struktur dieses Netzwerkes soll in Abhängigkeit von jeweiligen Artikelstatus analysiert werden. Bei der Bewertung der Artikelqualität, kann auf das Wikipedia interne Bewertungsschema zurückgegriffen werden.

Zur Analyse der Netzwerke können bestehende Werkzeuge wie beispielsweise visone [8] oder gephi [9] eingesetzt werden. Selbstverständlich … [...Weiterlesen/more...]

Visualisierung von G-Sequenz-Patterns in Ontologienutzungsdaten

Der im öffentlichen Web erfolgreichste Einsatzbereich von Ontologien ist im Moment das Web of Linked Data. Spätestens seit auch der öffentliche Sektor damit begonnen hat RDF Informationen zu veröffentlichen (z.B. data.gov.uk und data.gov) ist dieser Trend auch außerhalb der wissenschaftlichen Community bestätigt.

Damit beginnt auch die Nutzung dieser Daten für produktive Zwecke und es entstehen neue Forschungsfragen für den Bereich des Web Usage Mining. Im Rahmen unserer Forschung zu Ontologiewartung haben wir Nutzungsdaten von SPARQL-Schnittstellen und Linked Data Endpoints gesammelt. Ziel dieser Arbeit ist es die bekannte Methode der Sequenzanalyse auf diesen Daten auszuführen und damit Assoziatonspatterns in der Datennutzung zu erkennen. Es soll ein Algorithmus zur Berechnung von G-Sequenz-Patterns auf die Daten angewandt und das Ergebnis geeignet visualisiert werden (z.B. mit Hilfe von R).

Art der Arbeit: Bachelor- oder Studienarbeit

Voraussetzungen: Kenntnisse in Data Mining, RDF, SPARQL

Betreuer: Markus Luczak-Rösch

Weitere Informationen: Sprechstundentermin bei Markus Luczak-Rösch nehmen… [...Weiterlesen/more...]

Semantische Annotation von Bildern und Videos

loomp ist ein benutzerfreundliches System zu semantischen Annotation von Internetinhalten. Derzeit können Textfragmente mit RDFa annotiert werden, das System speichert dann Text und RDF-Graphen separat und veröffentlicht einerseits den Text als klassischen Internetinhalt inklusive RDFa und den RDF-Graphen als Linked Data. Die Annotation orientiert sich dabei an Nutzungsparadigmen, die aus der klassischen Textverarbeitung bekannt sind.

Ziel dieser Arbeit ist es nun zusätzlich zum Annotieren von Texten auch das Annotieren von Bildern und Videos zu implementieren. Dafür müssen räumliche und bei Videos zusätzlich auch zeitliche Regionen markiert und diesen eine URI zugewiesen werden. Im Anschluss muss es einfach möglich sein über diese Definierte und per URI referenzierte Region RDF-Aussagen anlegen zu können (z.B. <uri_zum_bildausschnitt> ex:zeigt <uri_zur_person>).

Art der Arbeit: Studien- oder Bachelorarbeit

Voraussetzungen: Kenntnisse im Bereich RDF, Linked Data, Semantic Web

Betreuer: Markus Luczak-Rösch

Weitere Informationen: Bitte E-Mail an Markus Luczak-Rösch zwecks Vereinbarung eines Sprechstundentermins.… [...Weiterlesen/more...]

Wer schreibt die Wikipedia?

Die Wikipedia ist nun mittlerweile 10 Jahre alt und noch immer helfen viele Freiwillige bei deren weiteren Auf- und Ausbau. Ein häufig genannte These ist, dass Wikipedia nicht die Arbeit Vieler ist, sondern vor allem von einer Kerngruppe geschrieben wurde. Dazu bestehen bereits vielfältige Untersuchungen, mit teilweise recht unterschiedlichen Ergebnissen. Wie dem auch sei, die Frage ist, ob die Art der Beiträge sich nicht von der bestehenden Qualität der Beiträge unterscheidet und das ganz bestimmte Personen zu ganz bestimmten Zeitpunkten an der Erstellung der Artikel beteiligen. Ein erster Ansatzpunkt der Qualitätsbeurteilung der Beiträge ist das vorhandene Kategorisierungssystem in der Wikipedia. Hier werden Beiträge nach vordefinierten Kriterien bestimmten Qualitätsstufen zugeordnet. Diese Arbeit kann helfen, ein verbessertes Verständnis für vorhandene Artikelerstellungsprozesse in der Wikipedia zu erlangen.

Zugrunde liegender Datensatz: Wikipedia

Literatur:

  • A. Kittur, E. H. Chi, B. A. Pendleton, B. Suh, and T. Mytkowicz. Power of the few vs. wisdom of the crowd: Wikipedia and the rise of the bourgeoisie. In 25th Annual ACM Conference on Human Factors in Computing Systems (CHI 2007), San Jose, CA., 2007.
  • K. Stein and C. Hess. Does it matter who contributes: a study on featured articles in the german wikipedia. In HT ’07: Proceedings of the
  • [...Weiterlesen/more...]

Unternehmensbeteiligung in open-source Projekten: Wie ehrenamtlich ist die Entwicklung von open source Software am Beispiel von Apache?

Die Bedeutung von open-source Softwareprojekten ist mittlerweile unbestritten. Es existieren eine Reihe sehr erfolgreicher und bekannter Projekte, wie beispielsweise Linux. In einer aktuellen Studie der Linux Foundation wurde zwischen Dezember 2008 und Januar 2010 der zum Linux-Kernel zugefügte Quellcode untersucht. Ergebnis dieser Analyse war, dass 75% des Quellcodes von Personen beigetragen wurde, die in Unternehmen angestellt sind, während nur 18% der Beiträge auf Personen zurückgeführt werden konnten, die sich ehrenamtlich beteiligt haben [1].

In dieser Arbeit soll der Frage nachgegangen werden, wo und wie sich Unternehmen bei der Entwicklung von open-source Software beteiligen. Ersteres soll mit Hilfe der Analyse vorhandener Kommunikationsdaten der Mailinglists, aus Commit-Daten aus Source-Code-Management-Systemen und Fehlermeldungen aus der genutzten Bug Tracking Software  erfolgen. Die unterschiedlichen Repositories sollen in einer Datenbank zusammengeführt werden, was neben anderen bestehenden Herausforderungen eine Entity Resolution [2] erfordert, da Nutzer sich oft mit unterschiedlichen E-Mail-Adressen und abweichenden Namen in den verschiedenen Systemen angemeldet haben.

Um die Frage nach dem „wie“ zu beantworten, sollen die gewonnenen Erkenntnisse aus dem ersten Teil der Arbeit genutzt werden und mit vorhandenen Ansätzen aus der Literatur verglichen werden. Beispielsweise werden unterschiedliche Modell der Unternehmensbeteilung unterschieden, wie das Coding Model, das Support Model und das Management Model [3]. Innerhalb … [...Weiterlesen/more...]

Temporale Analyse von Informationsnetzwerken in Tagging-Systemen

Online Production Systems wie beispielsweise die Flickr, del.ious.us und BibSonomy bieten Nutzern die Möglichkeit Ressourcen wie beispielsweise Webseiten, Bilder oder Artikel in persönlichen Informationssammlungen zu verwalten und gleichzeitig auch für jeden zugänglich sowie teilweise auch wieder verwendbar anzubieten. Um die Auffindbarkeit der Ressourcen sicherzustellen, werden diese Ressourcen annotiert, d.h. mit Tags versehen. Die dadurch entstehenden Inhaltsstrukturen können unter anderem mit Hilfe von Informationsnetzwerken beschrieben werden. Die Frage die in dieser Arbeit verfolgt werden soll, lautet inwieweit die Qualität der Annotationen bereits aufgrund bestimmter Strukturgrößen der Netzwerken beschrieben werden kann. Dazu ist es notwendig, sich einerseits mit Qualitätskriterien in Tagging-Systemen auseinanderzusetzen und andererseits, die bestehenden Strukturen, beispielsweise Modularität, von Informationsnetzwerken in Abhängigkeit von der Zeit offenzulegen.

Literaturreferenzen:

  • Christo Dichev and Jinsheng Xu and Darina Dicheva and Jinghua Zhang. A Study on Community Formation in Collaborative Tagging Systems. IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008. 13-16.
  • Halpin, Harry and Robu, Valentin and Shepherd, Hana. The complex dynamics of collaborative tagging. WWW ’07: Proceedings of the 16th international conference on World Wide Web. 2007. 211-220.

Zugrunde liegender Datensatz: Bibsonomy

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse im Bereich Netzwerkanalyse, Statistik, Programmierung (bevorzugt Java), GNU R

Betreuer: Dr. Claudia Müller-Birn [...Weiterlesen/more...]

AG Netzbasierte Informationssysteme, http://www.ag-nbi.de
Königin-Luise-Straße 24-26, 14195 Berlin, Tel.: +49-30-838-75221, Fax: +49-30-838-75220