Thesis/Abschlussarbeiten « AG Netzbasierte Informationssysteme

Die zunehmende Automatisierung von Aufgaben in gemeinschaftlich erstellten Online-Enzyklopädie

Peer Production hat als offene, kollektive Form der Zusammenarbeit mittlerweile zu umfassenden Informationssammlungen von nutzergenierten Inhalten geführt. Ein bekanntes Beispiel ist die Wikipedia, eine gemeinschaftlich erstellte Online Enzyklopädie. Geographisch verteilte Personen koordinieren ihre Aktivitäten bei der Erstellung der Artikel transparent und nachvollziehbar sind. Zunehmend finden bei dem Prozess der Artikelerstellung, der Artikelpflege, aber auch der Artikeladministration Bots Verwendung. Es handelt sich dabei um Software, welche algorithmisch definierte Aufgaben übernehmen. Die Zahl der aktiven Bots in der Wikipedia liegt mittlerweile bei über 200 und über 15 Prozent aller Edits ist bereits auf sie zurückzuführen (Geiger and Ribes, 2010).

Die Aufgabe in dieser Bachelorarbeit ist es, die Arbeit von Bots in der Wikipedia zu untersuchen. Zunächst muss dazu ermittelt werden, nach welchen Regeln Bots in der Wikipedia eingesetzt werden dürfen und Dabei soll untersucht werden, welche Aufgaben, in welchen Namensräumen Bots in der Wikipedia erfüllen. Können die unterschiedlichen Aufgaben in Aufgabenbereiche zusammengefasst werden? Welche Personen haben diese Programme erstellt und wie regelmäßig werden sie eingesetzt? In welchen Programmiersprachen wurden zur Entwicklung genutzt? Wie komplex sind diese Programme? Haben sich die Aufgaben dieser Programme im Zeitverlauf geändert? Ale gesammelten Daten sollen in einer Datenbank ablegt werden. Nach einer allgemeinen Analyse sollen vor allem … [...Weiterlesen/more...]

Abschlussarbeiten im Bereich Query Log Analysis, Visual Data Mining, Entity Recognition

Wir möchten neue Themen für Abschlussarbeiten anbieten. Bei Interesse an einem der Themen aus

Implementierung eines Werkzeugs zur graphischen Analyse von SPARQL Anfragen (BA)

kontaktieren Sie bitte luczak@inf.fu-berlin.de.… [...Weiterlesen/more...]

Analyse von Ereignisdaten zur Bewertung von Nutzerbeiträgen und deren Einfluss auf die Qualität des gemeinschaftlich erstellten, digitalen Produkts

Peer Production, als offene und kollektive Form der Zusammenarbeit, hat im letzten Jahrzehnt an Bedeutung gewonnen. Beispiele dafür sind unter anderem Wikipedia, als gemeinschaftlich erstellte Online Enzyklopädie, sowie YouTube.com oder Del.icio.us als umfassende Informationssammlungen mit nutzergenerierten Inhalten. Dabei koordinieren geographisch verteilte Personen ihre Aktivitäten durch den Einsatz von Informations- und Kommunikationssystemen. Diese digitalen Archive ermöglichen wiederum, dass die dabei entstehenden Ereignisdaten transparent und nachvollziehbar sind. Das teilweise nur implizite Ziel dieser Zusammenarbeit ist die Erstellung eines digitalen Produkts.

Die Aufgabe in dieser Master- bzw. Diplomarbeit ist es zu untersuchen, wie die offene Gemeinschaft sich bezüglich der unterschiedlich anfallenden Aufgaben zur Produkterstellung koordiniert. Als Anwendungsfall soll dabei die Wikipedia dienen. Nach einem umfassenden Literaturstudium, sollen in der Arbeit vorhandene Aktivitäten, die während des Lebenszyklus eines Artikels erfolgen, identifiziert werden. Als Entwicklungszyklus wird der Entwicklungsstand eines Artikels in Bezug auf das Qualitätsbewertungssystem der Wikipedia-Community definiert. Das Ziel ist es zu untersuchen, ob Unterschiede bei den Aktivitätstypen und dem Aktivitätsumfang in Abhängigkeit von der qualitativen Bewertung des Artikels bestehen. Aufbauend auf den Ergebnissen soll ein Empfehlungssystem entworfen werden, das diese Daten nutzt, um einerseits Nutzer die in der Vergangenheit bestimmte Aktivitäten ausgeführt haben, Artikel zu empfehlen, bei denen diese Aktivitäten noch nicht … [...Weiterlesen/more...]

Analyse von synchronen Kommunikationsstrukturen in der Open Source Software Entwicklung

Bei der Entwicklung von Open Source Software ist der Chat ein wichtiges Instrument der synchronen Kommunikation. Es werden aktuelle Änderungen am Source Code dokumentiert, Probleme bei der Softwareentwicklung diskutiert, Nutzerfragen beantwortet oder aber auch Diskussionen zu den unterschiedlichsten Themen geführt.

Die Frage ist, was für Personen beteiligen sich an den Gesprächen? Wie viele sind aktiv oder hören einfach nur zu? Wie lang „hören“ nicht aktive Nutzer zu, bevor sie aktiv werden? Ist es möglich, bei den aktiven Nutzern bestimmte Kommunikationsrollen zu identifizieren? Welche Formen der Partizipation existieren innerhalb des Chats? An welchen Themen beteiligen sich die Nutzer an der Diskussion? Beteiligen sich Nutzer in Abhängigkeit von der Art des Thema an der Diskussion?

Um diese Frage beantworten zu können, ist es notwendig, bestehende Kommunikationsstrukturen im Zeitverlauf zu untersuchen und die Beteiligung der einzelnen Nutzer zu analysieren.

Im Rahmen dieser Arbeit sollen bestehende Kommunikationsstrukturen im open source software Projekt MediaWiki untersucht werden. Bestehende IRC (Internet Relay Protocol) Logdaten (Übersicht über Channels) sollen programmatisch in eine Netzwerkbeschreibung überführt, beteiligte Personen und ihre Interaktionen beschrieben und analysiert werden. Eine Analyse der Netzwerke kann mit Hilfe bestehender Werkzeuge/Bibliotheken wie beispielsweise visone, gephi oder igraph erfolgen. Ebenfalls werden Werkzeuge, wie beispielsweise PieSpy … [...Weiterlesen/more...]

Referenznetzwerke in juristischen Textbeständen

Rechtstexte wie Gesetze, Verordnungen und Urteile werden verstärkt online publik gemacht. Die Datenbestände sind ein interessanter Korpus für Analysen von Referenzen innerhalb und zwischen diesen Texten. Innerhalb von Gesetzen wird direkt per Verweis auf andere Gesetze verwiesen. Diese Referenzen lassen sich hinreichend gut extrahieren, analysieren und visualisieren. Aber Gesetze stehen nicht nur explizit mit anderen Gesetzen in Verbindung, sondern viel häufiger auch durch die „Rechtsfolgenorm“, als die Regelung die an anderer Stelle die Folgen eines bestimmten Tatbestands festlegt.

Genau diese zu beherrschen und anzuwenden ist Teil der juristischen Ausbildung und die eigentliche Herausforderung dabei. Nachvollziehbar wird die Rechtsfolgenorm in der Praxis durch Urteile, die auf die in der Urteilsfindung angewandten Gesetze verweisen. Führt man diese Verweise mit den expliziten Verweisen in Gesetzestexten zusammen, erhält man ein riesiges Netzwerk aus Gesetzen und ihren Verweisen, das ohne sinnvolle Unterstützung kaum überschaubar ist, inhaltlich aber einen hohen Wert hat.

Die Analyse von Netzwerken ist ein verbreitetes Instrument um den Aufbau, bestehende Abhängigkeiten und Entwicklungen in Informationsstrukturen offenzulegen. Bekannte Studien basieren auf Beziehungen zwischen Webseiten im World Wide Web, auf Referenzen zwischen akademischen Artikeln aber auch auf juristischen Referenzen bei Urteilen.

In der Arbeit soll ein Rahmen konzipiert und implementiert werden mit dem sich … [...Weiterlesen/more...]

DigiPolis: Selbst-Organisierender Semantischer Speicherdienst (S4)

Im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts „DigiPolis“ entwickelt die AG NBI einen verteilten selbst-organisierenden semantischen Speicherdienst (S4) auf der Basis von naturinspirierten Algorithmen und Schwarmintelligenz. Im Zuge dieser Entwicklung sind verschiedene, für Abschlussarbeiten passende Themen zu bearbeiten:

Erstellung einer vergleichenden Studie zwischen unterschiedlichen Organisationsprinzipien (Hash Tables, Lookup Trees,..) für verteilte Systeme mit dem Ziel, für S4 passende Einsatzszenarien zu identifizieren und zu beschreiben.
Entwurf, Implementierung und Analyse eines integrierten Evaluationswerkzeuges, mit dem S4 für verschiedene Konfigurationen und Datensets getestet werden kann. Wichtiger Punkt ist die Aufzeichnung von Testresultaten für nachgelagerte Untersuchungen.
~~Untersuchung und Umsetzung eines Verfahrens zur Vermeidung von Überlast auf den Netzwerkverbindungen zwischen den verschiedenen Knoten („Overpathing“) für S4.~~
~~Untersuchung, Erstellung und Implementierung von Heuristiken für die Einstellungen verschiedene Parameter des selbstorganisierenden Systems.~~
~~Untersuchung und Umsetzung eines Verfahrens zur Behandlung von Ausfällen und Wiedereingliederung einzelner Knoten des verteilten Systems.~~

Sollten Sie an einem dieser Themen Interesse haben, wenden Sie sich bitte an einen der unten genannten Betreuuer.

Art
Bachelorarbeit
Wichtig: Wegen der begrenzten Projektlaufzeit können leider keine weiteren Master- oder Diplomarbeiten zu diesen Themen vergeben werden. Bacheloararbeiten müssen spätestens Ende August angemeldet werden.

Voraussetzungen
Kenntnisse in Programmierung mit Java, Vorkenntnisse in Verteilten … [...Weiterlesen/more...]

Visualisierung der Autorenbeiträge/der Artikelqualität in Wikipedia zur Beeinflussung des Nutzerverhaltens

Mittlerweile existieren eine Vielzahl von unterschiedlichen Ansätzen, in denen die Qualität von Autorenbeiträgen oder die Qualität von Artikeln untersucht wird. Innerhalb dieser Studien werden zumeist bestimmte Aspekte untersucht und visualisiert, wie beispielsweise die Editieraktivität von Autoren in der Wikipedia mit sogenannten Chromograms [1], Änderungen auf Diskussionsseiten mit History Flow Diagrams [2] oder aber auch die Ko-Autorenschaft zwischen Artikeln basierend auf Netzwerken [3]. Ebenfalls werden Nutzeränderungen direkt im Wiki angezeigt wie bei Wiki–Dashboard [4]. Daneben existieren aber auch Visualisierungen, in denen der rein visuelle Aspekt im Mittelpunkt steht, wie beispielsweise in [5].

Die Frage der in dieser Diplomarbeit nachgegangen werden soll ist aber, wie durch Visualisierungen zur Artikelqualität bzw. zum Editierverhalten die dem Nutzer direkt zur Verfügung gestellt werden, das Nutzerverhalten indirekt beeinflusst wird oder indirekt beeinflusst werden kann. Dazu soll zunächst ein Überblick über bestehende Ansätze zur Nutzeraktivität und Artikelqualität erfolgen. Diese Ansätze sollen auf ihre Nutzbarkeit bzw. Erweiterbarkeit hinsichtlich der Verwendung in dieser Forschung untersucht werden. Dabei geht es vor allem darum, Kriterien zu ermitteln, die eine solche vergleichende Bewertung erlauben. Dazu sollte auf bestehende Literatur aus den Bereichen der Informationsvisualisierung (z.B. [6], [7]) und Visual Analytics [8] zurückgegriffen werden. Die Ergebnisse sollen genutzt werden, um eine eigene Visualisierung … [...Weiterlesen/more...]

Wer schreibt die Wikipedia?

Die Wikipedia ist nun mittlerweile 10 Jahre alt und noch immer helfen viele Freiwillige bei deren weiteren Auf- und Ausbau. Ein häufig genannte These ist, dass Wikipedia nicht die Arbeit Vieler ist, sondern vor allem von einer Kerngruppe geschrieben wurde. Dazu bestehen bereits vielfältige Untersuchungen, mit teilweise recht unterschiedlichen Ergebnissen. Wie dem auch sei, die Frage ist, ob die Art der Beiträge sich nicht von der bestehenden Qualität der Beiträge unterscheidet und das ganz bestimmte Personen zu ganz bestimmten Zeitpunkten an der Erstellung der Artikel beteiligen. Ein erster Ansatzpunkt der Qualitätsbeurteilung der Beiträge ist das vorhandene Kategorisierungssystem in der Wikipedia. Hier werden Beiträge nach vordefinierten Kriterien bestimmten Qualitätsstufen zugeordnet. Diese Arbeit kann helfen, ein verbessertes Verständnis für vorhandene Artikelerstellungsprozesse in der Wikipedia zu erlangen.

Zugrunde liegender Datensatz: Wikipedia

Literatur:

A. Kittur, E. H. Chi, B. A. Pendleton, B. Suh, and T. Mytkowicz. Power of the few vs. wisdom of the crowd: Wikipedia and the rise of the bourgeoisie. In 25th Annual ACM Conference on Human Factors in Computing Systems (CHI 2007), San Jose, CA., 2007.
K. Stein and C. Hess. Does it matter who contributes: a study on featured articles in the german wikipedia. In HT ’07: Proceedings of the

… [...Weiterlesen/more...]

Unternehmensbeteiligung in open-source Projekten: Wie ehrenamtlich ist die Entwicklung von open source Software am Beispiel von Apache?

Die Bedeutung von open-source Softwareprojekten ist mittlerweile unbestritten. Es existieren eine Reihe sehr erfolgreicher und bekannter Projekte, wie beispielsweise Linux. In einer aktuellen Studie der Linux Foundation wurde zwischen Dezember 2008 und Januar 2010 der zum Linux-Kernel zugefügte Quellcode untersucht. Ergebnis dieser Analyse war, dass 75% des Quellcodes von Personen beigetragen wurde, die in Unternehmen angestellt sind, während nur 18% der Beiträge auf Personen zurückgeführt werden konnten, die sich ehrenamtlich beteiligt haben [1].

In dieser Arbeit soll der Frage nachgegangen werden, wo und wie sich Unternehmen bei der Entwicklung von open-source Software beteiligen. Ersteres soll mit Hilfe der Analyse vorhandener Kommunikationsdaten der Mailinglists, aus Commit-Daten aus Source-Code-Management-Systemen und Fehlermeldungen aus der genutzten Bug Tracking Software erfolgen. Die unterschiedlichen Repositories sollen in einer Datenbank zusammengeführt werden, was neben anderen bestehenden Herausforderungen eine Entity Resolution [2] erfordert, da Nutzer sich oft mit unterschiedlichen E-Mail-Adressen und abweichenden Namen in den verschiedenen Systemen angemeldet haben.

Um die Frage nach dem „wie“ zu beantworten, sollen die gewonnenen Erkenntnisse aus dem ersten Teil der Arbeit genutzt werden und mit vorhandenen Ansätzen aus der Literatur verglichen werden. Beispielsweise werden unterschiedliche Modell der Unternehmensbeteilung unterschieden, wie das Coding Model, das Support Model und das Management Model [3]. Innerhalb … [...Weiterlesen/more...]

Normennetzwerke: Werkzeug zur Generischen Analyse von Standards

Normen und Standards sind Voraussetzung für erfolgreiche vernetzte Systeme aller Art. Dies reicht von naheliegenden offenen Systemen wie dem Web bis zu Alltäglichkeiten wie einer europaweit einheitlichen Stromsteckdosenform. Die Standards und Normen selber sind zumeist sehr strukturierte Dokumente, da oft über ihre Form eine Norm oder ein Standard existiert.

Elektronische Dokumentensammlungen wie die W3C Standards, die Standards der ECMA oder die wenigen frei zugänglichen ISO Standards stellen Normen und Standards kostenlos bereit. Interessant ist jeweils die Analyse der Verweisstruktur beispielsweise auf den Ebenen der Referenzierung oder der Erweiterung oder Neuformulierung von Standards und Normen. Die Bachelorarbeit Normennetzwerke: RFCs
an der FU Berlin hat dies exemplarisch für die RFC-Standards gezeigt.

In der ausgeschriebenen Arbeit soll dieser Vorgehensweise verallgemeinert und ein Analysewerkzeug für Normennetzwerke erstellt werden. Algorithmen und Werkzeuge sollen konfigurierbar sein in Bezug auf:

Startpunkt der Analyse im Web und deren Struktur zum Auffinden einzelner Standards
Dokumentenstruktur und Extraktionskonfiguration
Charakteristische Referenzierungsweise anderer Normen
Charakteristische Markierung von Überarbeitungen
Ermittlung von Netzwerkmetriken

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in Textextraktion, Crawling, Netzwerkanalyse, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

AG Netzbasierte Informationssysteme

Adresse und Kontakt