Ressourcen & Werkzeuge
Im Rahmen des Projekts wurden verschiedene
Ressourcen und Werkzeuge entwickelt, die wir auf dieser Seite zur
freien Weiterverwendung bereitstellen.
Werkzeuge -
Evaluation -
Wortnetz-Ressourcen -
Korpora -
Demonstrations-Prototyp
GLexi ist ein Tool zur Berechnung und Visualisierung
lexikalischer Ketten in (Fach-)Texten, das GermaNet als lexikalisch-semantische Ressource nutzt. Um das Programm laufen zu lassen, werden Java 1.6, GermaNet 5.1 und die GermaNet API 0.2 benötigt. Informationen zur Benutzung von GLexi sind in einer Readme-Datei im Download der Datei GLexi_beta_2010-01.zip (3,9 MB) enthalten. Falls zusätzlich die drei Google-basierten
semantischen Nähemaße verwendet werden sollen, wird außerdem ein valider
Google-Key benötigt.
Über Rückmeldungen zu Ihren Erfahrungen
und evtl. Schwierigkeiten mit dieser GLexi-Version freuen wir uns.
GermaNet-Explorer
Der GermaNet Explorer stellt eine Visualisierungssoftware für GermaNet
dar. Er ermöglicht die Abfrage von WordSense und Synset eines Wortes;
zudem bietet er eine strukturierte Darstellung aller semantischen
Beziehungen sowie eine visuelle Graphen-basierte Navigation durch
GermaNet. Die Anwendung wurde programmiert von Marc Finthammer.
Die Datei germanet_explorer.zip
(3,4 MB) enthält eine Vollversion des Programms für die GermaNet-API 0.2 inklusive einer
Dokumentation sowie Installations-/Betriebshinweisen. Die Dokumentation
kann auch separat als PDF-Dokument heruntergeladen werden. Eine an die GermaNet-API 2.0 angepasste Version des GermaNet-Explorers finden Sie außerdem beim Seminar für Sprachwissenschaft der Universität Tübingen.
GermaNet-Pathfinder
Der GermaNet-Pathfinder
berechnet die semantische Nähe zwischen zwei Wörtern bzw. Synsets und
bietet zudem eine Visualisierungskomponente für die entsprechenden
Pfade in GermaNet an. Zur Integration in eigene Software-Projekte
stellt er zudem ein Java-Interface zur Verfügung. Die Anwendung wurde
programmiert von Marc Finthammer.
Die Datei germanet_pathfinder.zip
(4,4 MB) enthält eine Vollversion des Programms für die GermaNet-API 0.2 inklusive einer
Dokumentation sowie Installations-/Betriebshinweisen. Die Dokumentation
kann auch separat als PDF-Dokument heruntergeladen werden.
Eine detaillierte Beschreibung der drei Tools ist in den folgenden Veröffentlichungen zu finden:
- Finthammer, M. / Cramer, I. (2008): Exploring and Navigating: Tools for GermaNet.
In: Proceedings of the 6th International Conference on Language
Resources and Evaluation (LREC 2008). Marrakech, Marokko Mai 2008.
Paris: ELRA. Download: PDF (extern)
- Cramer, I. / Finthammer, M. (2008): Tools for Exploring GermaNet in the Context of CL-Teaching.
In: Storrer, A. / Geyken, A. / Siebert, A. / Würzner, K.-M. (Eds.):
Text Resources and Lexical Knowledge. Selected Papers from the 9th
Conference on Natural Language Processing (KONVENS 2008). Berlin/New
York: Mouton de Gruyter, 195-208. Download: PDF
Themenkarten
Zur Unterstützung der selektiven Fachlektüre werden automatisch
Linkstrukturen generiert, durch die Dokumente und Dokumentpassagen nach
dem Prinzip der "thematischen Nähe" verlinkt werden. Die erzeugten
Linkstrukturen werden als klickbare, standortsensitive Themenkaren
visualisiert und erlauben den Nutzern neue Optionen der
themengeleiteten Navigation und Hyptertextexploration.
Die manuelle Auszeichnung des HyTex-Kernkorpus wurde von 3 studentischen Hilfskräften im Zeitraum von Januar 2008 bis Februar 2009 durchgeführt.
Annotationsrichtlinien: PDF
Annotierte Daten: zip-Archiv
Details zu den Experimenten zur Berechnung von Themenkarten ist der folgenden Veröffentlichung zu entnehmen:
- Cramer, I. / Finthammer, M. / Kurek, A. / Sowa, L. / Wachtling, M. / Claas, T. (2008): Experiments on Lexical Chaining for German Corpora: Annotation, Extraction, and Application.
In: Lüngen, H. / Mehler, A. / Storrer, A. (Eds.): Lexical-Semantic
Resources in Automated Discourse Analysis. Journal for Language
Technology and Computational Linguistics 23 (2), 34-48. Download: PDF
und wurden zudem auf der Tagung Processing Text-Technological
Resources, am Zentrum für Interdisziplinäre Forschung, Bielefeld, im
März 2008 in einem Vortrag Generating Topic Chains and Topic Views: Experiments Using GermaNet von Irene Cramer, Marc Finthammer und Angelika Storrer vorgestellt.
Semantische Nähe
Im Rahmen des Arbeitsbereichs 1 "Hypertextualisierung nach
thematischen Gesichtspunkten" der HyTex-Projekt-Phase II wurden für die
Berechnung semantischer Nähe (SR) Evaluationsdaten zusammengestellt.
Bewertung zur semantischen Nähe (Ergebnisse aller Versuchspersonen): zip-Archiv
Eine detaillierte Beschreibung der Durchführung der Experimente
sowie der Kriterien für die Zusammenstellung der Wortpaare sind den
folgenden beiden Veröffentlichungen zu entnehmen:
- Cramer, I. (2008b): How Well Do Semantic Relatedness Measures Perform? A Meta-Study.
In: Bos, J. / Delmonte, R. (Hrsg.): Semantics in Text Processing: STEP
2008 Conference Proceedings (Research in Computational Semantics).
London: College Publications. 59-70. Download: PDF (extern)
- Cramer, I. / Finthammer, M. (2008): An Evaluation Procedure for Word Net Based Lexical Chaining: Methods and Issues. In: Proceedings of the 4th Global WordNet Conference. 22.-25. Januar 2008, Szeged, Ungarn. 120-146. Download: PDF
Die Wortpaarlisten wurden zudem für den Vergleich von Wortnetz- und
Wikipedia-basierten sowie distributionellen SR-Maßen verwendet. Die
Ergebnisse dieser Studien sind in diesen Veröffentlichungen zu finden:
- Cramer, I. / Wandmacher, T. / Waltinger, U. (im Erscheinen): Exploring Resources for Lexical Chaining: A Comparison of Automated Semantic Relatedness Measures and Human Judgements.
In: Mehler, A. / Kühnberger, K.-U. / Lobin, H. / Lüngen, H. / Storrer,
A. / Witt, A. (Hrsg.): Modeling, Learning and Processing of Text
Technological Data Structures. Dordrecht: Springer. Download: PDF
- Waltinger, U. / Cramer, I. / Wandmacher, T. (2009): From Social Networks to Distributional Properties: A Comparative Study on Computing Semantic Relatedness. In: Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci 2009). Amsterdam, Niederlande, Juli 2009.
Im Rahmen einer Kooperation mit dem SemDok-Projekt sowie mit der
GermaNet-Gruppe an der Universität Tübingen haben wir verschiedene Repräsentationen von Wortnetzen (GermaNet, TermNet) in der Web
Ontology Language OWL
entwickelt und dabei mit verschiedenen Modellierungsoptionen
experimentiert. Dabei wurde u.a. auch ein Ansatz zur OWL-basierten
Verknüpfung von allgemeinsprachlichen und terminologischen Wortnetzen
entwickelt.
Im Einzelnen wurden die folgenden Wortnetzrepräsentationen und OWL-Modelle entwickelt:
- 3 OWL-Modelle für TermNet (OWL DL-Klassenmodell, OWL DL-Instanzenmodell und OWL Full-Modell).
- 3 OWL-Modelle für einen GermaNet-Ausschnitt (OWL DL-Klassenmodell, OWL DL-Instanzenmodell und OWL Full-Modell).
- 4 OWL-Modelle für GermaTermNet, eine Ressource, die durch Verknüpfung von TermNet mit einem Ausschnitt aus GermaNet realisiert wurde:
- das GermaTermNet-Klassenmodell, das TermNet und GermaNet in ihren jeweiligen OWL DL-Klassenmodellierungen verknüpft;
- das GermaTermNet-Instanzenmodell, das TermNet und GermaNet in ihren jeweiligen OWL DL-Instanzenmodellierungen verknüpft;
- ein GermaTermNet-"Hybridmodell", das das OWL DL-Klassenmodell von TermNet mit dem OWL DL-Instanzenmodell von GermaNet verknüpft;
- das GermaTermNet-OWL Full-Modell, das die OWL Full-Modellierungen von TermNet und GermaNet verknüpft.
Sämtliche OWL-Modelle stellen wir unter http://www.wordnets-in-owl.de zum Download zur Verfügung. Das Konzept unseres terminologischen Wortnetzes Termnet sowie die Modellierung von TermNet sowie der integrierten Wortnetzressource GermaTermNet (als Verknüpfung von TermNet mit einem Ausschnitt aus dem gemeinsprachlichen Wortnetz GermaNet) sind in den folgenden Arbeitsberichten dokumentiert: Selzam (2009), Beißwenger (2008).
Die Arbeiten und Ergebnisse des Kooperationsprojekts sind darüber hinaus in einer Reihe von Publikationen
dokumentiert: Lüngen et al. (im Erscheinen), Lüngen et al. 2008,
Kunze et al. (2007), Kunze et al. (2006), Lüngen/Storrer (2007).
Das dem Projekt zugrunde gelegte
Fachtextkorpus steht in Form dreier Archive von TXT-Dateien zum
Download bereit. Die drei Archive entsprechen den drei Teilkorpora des
Gesamtkorpus:
Die Zusammensetzung des Korpus ist im Arbeitsbericht Beißwenger/Wellinghoff (2003/2006) (PDF) dokumentiert.
Zusätzlich besteht die Möglichkeit, verschiedene Ausschnitte aus dem Fachtextkorpus in annotierten Versionen
herunterzuladen, die verschiedene im Projekt relevante Beschreibungs-
bzw. Annotationsebenen sowie die dafür entwickelten XML-Sprachen
dokumentieren:
|