Ressourcen & Werkzeuge

Im Rahmen des Projekts wurden verschiedene Ressourcen und Werkzeuge entwickelt, die wir auf dieser Seite zur freien Weiterverwendung bereitstellen.


Werkzeuge  -   Evaluation  -   Wortnetz-Ressourcen  -   Korpora  -   Demonstrations-Prototyp

Werkzeuge

GLexi

GLexi ist ein Tool zur Berechnung und Visualisierung lexikalischer Ketten in (Fach-)Texten, das GermaNet als lexikalisch-semantische Ressource nutzt. Um das Programm laufen zu lassen, werden Java 1.6, GermaNet 5.1 und die GermaNet API 0.2 benötigt. Informationen zur Benutzung von GLexi sind in einer Readme-Datei im Download der Datei GLexi_beta_2010-01.zip (3,9 MB) enthalten. Falls zusätzlich die drei Google-basierten semantischen Nähemaße verwendet werden sollen, wird außerdem ein valider Google-Key benötigt.

Über Rückmeldungen zu Ihren Erfahrungen und evtl. Schwierigkeiten mit dieser GLexi-Version freuen wir uns.

GermaNet-Explorer

Der GermaNet Explorer stellt eine Visualisierungssoftware für GermaNet dar. Er ermöglicht die Abfrage von WordSense und Synset eines Wortes; zudem bietet er eine strukturierte Darstellung aller semantischen Beziehungen sowie eine visuelle Graphen-basierte Navigation durch GermaNet. Die Anwendung wurde programmiert von Marc Finthammer.

Die Datei germanet_explorer.zip (3,4 MB) enthält eine Vollversion des Programms für die GermaNet-API 0.2 inklusive einer Dokumentation sowie Installations-/Betriebshinweisen. Die Dokumentation kann auch separat als PDF-Dokument heruntergeladen werden. Eine an die GermaNet-API 2.0 angepasste Version des GermaNet-Explorers finden Sie außerdem beim Seminar für Sprachwissenschaft der Universität Tübingen.

GermaNet-Pathfinder

Der GermaNet-Pathfinder berechnet die semantische Nähe zwischen zwei Wörtern bzw. Synsets und bietet zudem eine Visualisierungskomponente für die entsprechenden Pfade in GermaNet an. Zur Integration in eigene Software-Projekte stellt er zudem ein Java-Interface zur Verfügung. Die Anwendung wurde programmiert von Marc Finthammer.

Die Datei germanet_pathfinder.zip (4,4 MB) enthält eine Vollversion des Programms für die GermaNet-API 0.2 inklusive einer Dokumentation sowie Installations-/Betriebshinweisen. Die Dokumentation kann auch separat als PDF-Dokument heruntergeladen werden.

Eine detaillierte Beschreibung der drei Tools ist in den folgenden Veröffentlichungen zu finden:

  • Finthammer, M. / Cramer, I. (2008): Exploring and Navigating: Tools for GermaNet. In: Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2008). Marrakech, Marokko Mai 2008. Paris: ELRA. Download: PDF (extern)
  • Cramer, I. / Finthammer, M. (2008): Tools for Exploring GermaNet in the Context of CL-Teaching. In: Storrer, A. / Geyken, A. / Siebert, A. / Würzner, K.-M. (Eds.): Text Resources and Lexical Knowledge. Selected Papers from the 9th Conference on Natural Language Processing (KONVENS 2008). Berlin/New York: Mouton de Gruyter, 195-208. Download: PDF


Evaluation

Themenkarten

Zur Unterstützung der selektiven Fachlektüre werden automatisch Linkstrukturen generiert, durch die Dokumente und Dokumentpassagen nach dem Prinzip der "thematischen Nähe" verlinkt werden. Die erzeugten Linkstrukturen werden als klickbare, standortsensitive Themenkaren visualisiert und erlauben den Nutzern neue Optionen der themengeleiteten Navigation und Hyptertextexploration.

Die manuelle Auszeichnung des HyTex-Kernkorpus wurde von 3 studentischen Hilfskräften im Zeitraum von Januar 2008 bis Februar 2009 durchgeführt.

Annotationsrichtlinien: PDF
Annotierte Daten: zip-Archiv

Details zu den Experimenten zur Berechnung von Themenkarten ist der folgenden Veröffentlichung zu entnehmen:

  • Cramer, I. / Finthammer, M. / Kurek, A. / Sowa, L. / Wachtling, M. / Claas, T. (2008): Experiments on Lexical Chaining for German Corpora: Annotation, Extraction, and Application. In: Lüngen, H. / Mehler, A. / Storrer, A. (Eds.): Lexical-Semantic Resources in Automated Discourse Analysis. Journal for Language Technology and Computational Linguistics 23 (2), 34-48. Download: PDF

und wurden zudem auf der Tagung Processing Text-Technological Resources, am Zentrum für Interdisziplinäre Forschung, Bielefeld, im März 2008 in einem Vortrag Generating Topic Chains and Topic Views: Experiments Using GermaNet von Irene Cramer, Marc Finthammer und Angelika Storrer vorgestellt.

Semantische Nähe

Im Rahmen des Arbeitsbereichs 1 "Hypertextualisierung nach thematischen Gesichtspunkten" der HyTex-Projekt-Phase II wurden für die Berechnung semantischer Nähe (SR) Evaluationsdaten zusammengestellt.

Bewertung zur semantischen Nähe (Ergebnisse aller Versuchspersonen): zip-Archiv

Eine detaillierte Beschreibung der Durchführung der Experimente sowie der Kriterien für die Zusammenstellung der Wortpaare sind den folgenden beiden Veröffentlichungen zu entnehmen:

  • Cramer, I. (2008b): How Well Do Semantic Relatedness Measures Perform? A Meta-Study. In: Bos, J. / Delmonte, R. (Hrsg.): Semantics in Text Processing: STEP 2008 Conference Proceedings (Research in Computational Semantics). London: College Publications. 59-70. Download: PDF (extern)
  • Cramer, I. / Finthammer, M. (2008): An Evaluation Procedure for Word Net Based Lexical Chaining: Methods and Issues. In: Proceedings of the 4th Global WordNet Conference. 22.-25. Januar 2008, Szeged, Ungarn. 120-146. Download: PDF

Die Wortpaarlisten wurden zudem für den Vergleich von Wortnetz- und Wikipedia-basierten sowie distributionellen SR-Maßen verwendet. Die Ergebnisse dieser Studien sind in diesen Veröffentlichungen zu finden:

  • Cramer, I. / Wandmacher, T. / Waltinger, U. (im Erscheinen): Exploring Resources for Lexical Chaining: A Comparison of Automated Semantic Relatedness Measures and Human Judgements. In: Mehler, A. / Kühnberger, K.-U. / Lobin, H. / Lüngen, H. / Storrer, A. / Witt, A. (Hrsg.): Modeling, Learning and Processing of Text Technological Data Structures. Dordrecht: Springer. Download: PDF
  • Waltinger, U. / Cramer, I. / Wandmacher, T. (2009): From Social Networks to Distributional Properties: A Comparative Study on Computing Semantic Relatedness. In: Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci 2009). Amsterdam, Niederlande, Juli 2009.


Wortnetze in OWL

Im Rahmen einer Kooperation mit dem SemDok-Projekt sowie mit der GermaNet-Gruppe an der Universität Tübingen haben wir verschiedene Repräsentationen von Wortnetzen (GermaNet, TermNet) in der Web Ontology Language OWL entwickelt und dabei mit verschiedenen Modellierungsoptionen experimentiert. Dabei wurde u.a. auch ein Ansatz zur OWL-basierten Verknüpfung von allgemeinsprachlichen und terminologischen Wortnetzen entwickelt.

Im Einzelnen wurden die folgenden Wortnetzrepräsentationen und OWL-Modelle entwickelt:

  • 3 OWL-Modelle für TermNet (OWL DL-Klassenmodell, OWL DL-Instanzenmodell und OWL Full-Modell).
  • 3 OWL-Modelle für einen GermaNet-Ausschnitt (OWL DL-Klassenmodell, OWL DL-Instanzenmodell und OWL Full-Modell).
  • 4 OWL-Modelle für GermaTermNet, eine Ressource, die durch Verknüpfung von TermNet mit einem Ausschnitt aus GermaNet realisiert wurde:
    • das GermaTermNet-Klassenmodell, das TermNet und GermaNet in ihren jeweiligen OWL DL-Klassenmodellierungen verknüpft;
    • das GermaTermNet-Instanzenmodell, das TermNet und GermaNet in ihren jeweiligen OWL DL-Instanzenmodellierungen verknüpft;
    • ein GermaTermNet-"Hybridmodell", das das OWL DL-Klassenmodell von TermNet mit dem OWL DL-Instanzenmodell von GermaNet verknüpft;
    • das GermaTermNet-OWL Full-Modell, das die OWL Full-Modellierungen von TermNet und GermaNet verknüpft.

Sämtliche OWL-Modelle stellen wir unter http://www.wordnets-in-owl.de zum Download zur Verfügung. Das Konzept unseres terminologischen Wortnetzes Termnet sowie die Modellierung von TermNet sowie der integrierten Wortnetzressource GermaTermNet (als Verknüpfung von TermNet mit einem Ausschnitt aus dem gemeinsprachlichen Wortnetz GermaNet) sind in den folgenden Arbeitsberichten dokumentiert: Selzam (2009), Beißwenger (2008).

Die Arbeiten und Ergebnisse des Kooperationsprojekts sind darüber hinaus in einer Reihe von Publikationen dokumentiert: Lüngen et al. (im Erscheinen), Lüngen et al. 2008, Kunze et al. (2007), Kunze et al. (2006), Lüngen/Storrer (2007).


Korpora

Das dem Projekt zugrunde gelegte Fachtextkorpus steht in Form dreier Archive von TXT-Dateien zum Download bereit. Die drei Archive entsprechen den drei Teilkorpora des Gesamtkorpus:

Die Zusammensetzung des Korpus ist im Arbeitsbericht Beißwenger/Wellinghoff (2003/2006) (PDF) dokumentiert.

Zusätzlich besteht die Möglichkeit, verschiedene Ausschnitte aus dem Fachtextkorpus in annotierten Versionen herunterzuladen, die verschiedene im Projekt relevante Beschreibungs- bzw. Annotationsebenen sowie die dafür entwickelten XML-Sprachen dokumentieren: