Adresse und Kontakt

AG Netzbasierte Informationssysteme
FU Berlin
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

This site is no longer maintained. You see a static copy as of April 1 2016.

Ermittlung von örtlichen Assoziationen zu Personen und Organisationen aus Web-Quellen

Für Geotagging und Geokodierung stehen für einige Medien (z.B. Bilder) und Informationsarten (z.B. Anschriften) vielfältige Verfahren und Dienste zur Verfügung. Die Zuordnung von Orten zu Personen und Organisationen gestaltet sich aus verschiedensten Gründen (Zeitbezug, Mobilität, mehrfache Verortung) schwierig. In der Arbeit soll ein pragmatischer Weg gefunden werden um Personen und Institutionen einen räumlichen Bezug zu geben, der nicht immer feingranular sein muss und eine Qualitätsabstufung tragen kann.

Die konkrete Anwendung sind Arbeiten an der Web-Site Lombardi Networks mit der Zeichnungen erschlossen werden sollen die Personen und Organisationen in losen Bezügen im Rahmen von Finanzskandalen oder verdecktem Waffenhandel zeigen. Für eine erweiterte Visualisierung sollen die Akteure regional zugeordnet werden, mithin das Layout der vorhandenen Netzwerke an Geokoordinaten in einer Karte ausgerichtet werden. Die Akteure sind durch Namen identifiziert, so existiert eine Liste von Namen die in verschiedenen Arbeiten auftreten oder in Literatur zum Künstler.

In der Arbeit sollen verschiedene Dienste – z.B. dbpedia, Open Calais oder der Analyse von themenspezifischen Textbeständen – geeignet verwendet werden um zu einem Namen eine räumliche Zuordnung geeigneter Granularität (Land, Stadt etc.) zu finden. Dazu ist eine entsprechende Heuristik zu entwickeln, ihre Ergebnisse zu evaluieren um gegebenenfalls die Heuristik zu verfeinern. Die erstellte Software … [...Weiterlesen/more...]

Bau eines interaktiven Informationssystems am Beispiel Deutscher Lobbyverbände

Netzbasierte Informationssysteme fügen herkömmlichen Datenbanken Visualisierung, Dynamik und Interaktion hinzu. In der Arbeit soll exemplarisch ein vorhandener Datenbestand durch Informationsextraktion verarbeitbar gemacht werden, in einem Web-System möglich vielfältig visualisiert. Implizite Informationen sollen ermittelt werden sowie externe Vernetzungen zu anderen Informationsbeständen genutzt werden. Bei einer Ausrichtung als Masterarbeit wird erhöhtes Augenmerk auf die Ermittlung impliziter und zusätzliche Informationen gelegt.

Das zu erstellende Informationssystem soll sich mit den beim Deutschen Bundestag registrierten Verbände und deren Vertreter – kurz auch „Lobbyverbände“ – beschäftigen. Die dort in einem strukturierten PDF angebotenen Informationen sind entsprechend zu extrahieren und zu verarbeiten. Möglichkeiten zur Anreicherung dieser Informationen sind zu konzipieren und umzusetzen. Es gibt schon einfache Visualisierungen einzelner Facetten davon, diese sind aber nicht interaktiv. In der Arbeit soll mit Hilfe eines geeigneten Web-Frameworks zur Visualisierung gearbeitet werden um eine facettierte Exploration der Informationen zu ermöglichen. Wo möglich sollen externe Bezüge zu anderen Informationsbeständen eingebettet werden.

Art der Arbeit: Bachelorarbeit, oder mit anspruchsvollerer Informationareicherung Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in Informationsextraktion, Visualisierung, Webtechnologien

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Evaluation of Hadoop and S4 distributed memory management and computing

Im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts “DigiPolis” entwickelt die AG NBI einen verteilten selbst-organisierenden semantischen Speicherdienst (S4) auf der Basis vonnaturinspirierten Algorithmen und Schwarmintelligenz. Ziel dieser Bachelorarbeit soll es sein, den Speicherdienst S4 mit dem Speicherdienst von Apache™ Hadoop™ gegenüberzustellen. Im Zuge der Arbeit sollen entsprechende Vergleichstests geschrieben und ausgewertet werden.
Hierbei sollen folgende Aspekte in Betracht gezogen werden.

  1. Wie verhält sich die Skalierbarkeit der Speicherdienste bezogen auf die Anzahl der zum Einsatz kommenden Clientrechner?
  2. Wie robust sind die Speicherdienste in Hinblick auf Ausfallsicherheit?
  3. Wie verhält sich die Performance in Hinblick auf die Zugriffszeiten bei großen Datenmengen?

Betreuer: Prof. Robert Tolksdorf [...Weiterlesen/more...]

Referenznetzwerke in juristischen Textbeständen

Rechtstexte wie Gesetze, Verordnungen und Urteile werden verstärkt online publik gemacht. Die Datenbestände sind ein interessanter Korpus für Analysen von Referenzen innerhalb und zwischen diesen Texten. Innerhalb von Gesetzen wird direkt per Verweis auf andere Gesetze verwiesen. Diese Referenzen lassen sich hinreichend gut extrahieren, analysieren und visualisieren. Aber Gesetze stehen nicht nur explizit mit anderen Gesetzen in Verbindung, sondern viel häufiger auch durch die „Rechtsfolgenorm“, als die Regelung die an anderer Stelle die Folgen eines bestimmten Tatbestands festlegt.

Genau diese zu beherrschen und anzuwenden ist Teil der juristischen Ausbildung und die eigentliche Herausforderung dabei. Nachvollziehbar wird die Rechtsfolgenorm in der Praxis durch Urteile, die auf die in der Urteilsfindung angewandten Gesetze verweisen. Führt man diese Verweise mit den expliziten Verweisen in Gesetzestexten zusammen, erhält man ein riesiges Netzwerk aus Gesetzen und ihren Verweisen, das ohne sinnvolle Unterstützung kaum überschaubar ist, inhaltlich aber einen hohen Wert hat.

Die Analyse von Netzwerken ist ein verbreitetes Instrument um den Aufbau, bestehende Abhängigkeiten und Entwicklungen in Informationsstrukturen offenzulegen. Bekannte Studien basieren auf Beziehungen zwischen Webseiten im World Wide Web, auf Referenzen zwischen akademischen Artikeln aber auch auf juristischen Referenzen bei Urteilen.

In der Arbeit soll ein Rahmen konzipiert und implementiert werden mit dem sich … [...Weiterlesen/more...]

Unternehmensbeteiligung in open-source Projekten: Wie ehrenamtlich ist die Entwicklung von open source Software am Beispiel von Apache?

Die Bedeutung von open-source Softwareprojekten ist mittlerweile unbestritten. Es existieren eine Reihe sehr erfolgreicher und bekannter Projekte, wie beispielsweise Linux. In einer aktuellen Studie der Linux Foundation wurde zwischen Dezember 2008 und Januar 2010 der zum Linux-Kernel zugefügte Quellcode untersucht. Ergebnis dieser Analyse war, dass 75% des Quellcodes von Personen beigetragen wurde, die in Unternehmen angestellt sind, während nur 18% der Beiträge auf Personen zurückgeführt werden konnten, die sich ehrenamtlich beteiligt haben [1].

In dieser Arbeit soll der Frage nachgegangen werden, wo und wie sich Unternehmen bei der Entwicklung von open-source Software beteiligen. Ersteres soll mit Hilfe der Analyse vorhandener Kommunikationsdaten der Mailinglists, aus Commit-Daten aus Source-Code-Management-Systemen und Fehlermeldungen aus der genutzten Bug Tracking Software  erfolgen. Die unterschiedlichen Repositories sollen in einer Datenbank zusammengeführt werden, was neben anderen bestehenden Herausforderungen eine Entity Resolution [2] erfordert, da Nutzer sich oft mit unterschiedlichen E-Mail-Adressen und abweichenden Namen in den verschiedenen Systemen angemeldet haben.

Um die Frage nach dem „wie“ zu beantworten, sollen die gewonnenen Erkenntnisse aus dem ersten Teil der Arbeit genutzt werden und mit vorhandenen Ansätzen aus der Literatur verglichen werden. Beispielsweise werden unterschiedliche Modell der Unternehmensbeteilung unterschieden, wie das Coding Model, das Support Model und das Management Model [3]. Innerhalb … [...Weiterlesen/more...]

Blog Klassifikation durch Tag Analyse

Blogs sind zumeist themenspezifisch. Das technorati.com Blog Directory listet mehr als 1,2 Millionen Blogs in einer Themenhierarchie. Dabei wird die jeweilige Klassifikation vom Blogautoren bei der Anmeldung bei technorati vorgenommen. Könnte man diese Klassifikation automatisieren? In der Arbeit soll die Hypothese untersucht werden, dass die jeweiligen Tags eines Blog eine solche Klassifikation ermöglichen.

Über eine Blog Verzeichnis soll eine hinreichende Menge von Blogs herausgegriffen werden. Für jedes dieser Blog sollen die verwendeten Tags extrahiert und ein Tag-Vektor erzeugt werden. Damit soll nun überprüft werden ob es für eine Kategorie des Blog Verzeichnis einen charakteristischen Vektor gibt. Für eine Untermenge von Kategorien soll überprüft werden ob mit Hilfe dieses Vektors ein zufällig ausgewähltes Blog zutreffend kategorisiert werden kann. Weiterhin ist eine Recherche über eventuell schon vorhandene Arbeiten zu der Thematik zu erstellen (bislang sind nur unbeantwortete Nachfragen bekannt).

Art der Arbeit: Bachelor- oder Studienarbeit

Voraussetzungen: Kenntnisse in Web Technologien,  Information Retrieval

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Firmennetzwerke: Startups und Finanzierungen

Websites wie deutsche-startups.de oder gruenderszene.de listen regelmäßige Neuigkeiten zu Finanzierungen, Beteiligungen, Übernahmen und auch Insolvenzen zu deutschen Startups. Weiterhin sind Verzeichnisse von Startups und Investoren vorhanden. Unternehmen und Investoren bilden durch die Verbindung über Investments in einem Netzwerk. Im Rahmen dieser Arbeit soll dieses Netzwerk ermittelt und analysiert werden.

Dazu müssen die verteilt vorliegenden Online-Informationen geeignet analysiert werden. In der Arbeit sind die Informationen von den genannten Sites zu extrahieren (z.B. durch einen Crawler, einen Screen Scraper wie scrapy oder geeignete eigene Scripte). Nach der Extraktion des genannten Netzwerks mit mehreren Kanten- und Knotentypen ist eine Analyse der sich ergebenden Netzwerkstruktur und dessen temporale Entwicklung mit Hilfe eines geeigneten Werkzeugs durchzuführen. Insgesamt sollen Aussagen über die Struktur des deutschen Beteiligungsmarktes für IT-Startups gemacht werden.

Art der Arbeit: Studien- oder Bachelorarbeit

Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Kunstnetzwerke: Künstler und öffentliche Nennungen

Im Kunstmarkt existiert eine fachspezifische Öffentlichkeit die einerseits inhaltliche Diskussionen führt, andererseits auch den Marktwert von Kunst durch die Häufigkeit und Qualität der Nennung von Künstlern beeinflusst. Zum Portfolio eines Künstlers gehört zunehmend auch eine Sammlung öffentlicher Nennungen, das Archiv des Fotographiekünstlers Michael Najjar ist ein Beispiel für die Vielfalt solcher Nennungen.

In der Arbeit soll ein System erstellt werden, das regelmäßig Medien die sich mit Kunst beschäftigen (Zeitschriften, Web-Sites – Liste1 oder Liste2 aber auch Kunstsendungen im TV) durchsucht und Nennungen ermittelt. Dazu ist jeweils eine Art Inhaltsverzeichnis zu klassifizieren und darin Namen zu ermitteln. Diese Namen sollen dann als Netzwerk in Verbindung mit dem sie nennenden Medium gesetzt werden. Auf diesem Netzwerk ist eine Analyse über übliche Netzwerkmetriken durchzuführen die auch temporale Aspekte berücksichtigt („Künstler X wird in letzter Zeit auffällig häufig genannt“). Sämtliche Software ist unter die BSD oder Apache Lizenz zu stellen.

Art der Arbeit: Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in grundlegenden Web-Technologien und Netzwerken

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Speisekartencrawler

Douglas Adams, Per Anhalter durch die Galaxis: Roman (Werbung), um S.186:  „Die Geschichte jeder bedeutenderen galaktischen Zivilisation macht drei klar und deutlich voneinander getrennte Phasen durch – das bare Überleben, die Wissensgier und die letzte Verfeinerung, allgemein auch als Wie-, Warum- und Wo-Phasen bekannt.
Die erste Phase zum Beispiel ist durch die Frage gekennzeichnet: Wie kriegen wir was zu essen?, die zweite durch die Frage: Warum essen wir?, und die dritte durch die Frage: Wo kriegen wir die besten Wiener Schnitzel?“

Heute sind Restaurants online, teilweise sind Speisekarten verfügbar. Es gibt einige Web-Dienste, die diese sammeln (http://www.gourmetclassic.de/sitemap/speisekarten.html, http://www.speisekarte.de oder http://www.mister-wong.de/tags/speisekarte ). Die Eintragung von Seiten durch Nutzer oder Betreiber füllt diese Datenbanken. In der Abschlussarbeit soll themenspezifisch versucht werden, automatisiert ein suchbares Verzeichnis möglichst vieler Speisekarten deutscher Restaurants zu erstellen.

Es soll also ein Crawler entstehen, der durch Heuristik Restaurant Homepages ermittelt, die Geoinformationen des Restaurants herausfindet, auf der Site Speisekarten auswählt und deren Inhalt extrahiert. Die Ergebnisse sollen in eine Datenbank eingestellt und über einen Suchdienst anfragbar gemacht werden. Schließlich muss ein Wartungsprozess definiert und möglichst weit implementiert werden. Rahmenwerke wie beispielsweise SMILA oder Nutch und Screen Scraper wie scrapy sollen benutzt werden. Sämtliche Software ist unter … [...Weiterlesen/more...]

Normennetzwerke: RFCs

Die Requests for Comments, RFCs definieren die Standards des Internet. Der Korpus dieser Dokumente liegt in verarbeitbarer und weit regulierter Form vor.Dokumente sind in verschiedene Kategorien eingeordnet.

Aufgabe dieser Arbeit ist die Erfassung und Analyse des kompletten RFC Korpus als Netzwerk. Beziehungen darin umfassen die definierten und in Metadaten erfassten „Obsoletes xxx“, „Obsoleted by xxx“, „Updates xxx“, „Updated by xxx“ aber auch das durch Referenzen sich ergebende Zitationsnetzwerk zu weitern RFCs einerseits und zu externen Quellen andererseits.

In der Arbeit soll eine Erfassung der vorliegenden RFC Dokumente erfolgen, eine Extraktion der Beziehungen zu anderen Dokumenten und Standards sowie eine Analyse der sich ergebenden Netzwerkstruktur mit Hilfe eines Werkzeugs wie SONIVIS erfolgen.

Die Arbeit wurde von Maciej Wienszczak bearbeitet und liegt als PDF vor: „Analyse des Normennetzwerks der Internet Requests for Comments„.… [...Weiterlesen/more...]

AG Netzbasierte Informationssysteme, http://www.ag-nbi.de
Königin-Luise-Straße 24-26, 14195 Berlin, Tel.: +49-30-838-75221, Fax: +49-30-838-75220