La Rivista per l'insegnamento e l'apprendimento delle lingue

Projekt Deutscher Wortschatz

Uwe Quasthoff
Matthias Richter
Leipzig

Ce projet ambitieux du lexique allemand a pour but d’établir une vaste récolte de données linguistiques - telles qu’elles sont contenues dans des textes allemands de tout genre -, de les soumettre à une analyse statistique pour saisir l’utilisation du lexique tant en mots séparés qu’en groupes et de rendre les résultats accessibles au public. Chacun peut s’en servir comme simple dictionnaire d’orthographe ou de synonymes, mais également comme source d’inspiration pour lettres et autres textes à rédiger, grâce aux multiples phrases d’exemples. Finalement, enseignants et étudiants de langue à tous niveaux peuvent y trouver un outil précieux, puisque tous les mots sont présentés dans leur contexte ce qui facilite évidemment la compréhension et l’assimilation du vocabulaire et des formulations typiques d’une langue. Les méthodes d’analyse développées par la Section de Traitement automatique de langue à l’Institut d’Informatique de l’Université de Leipzig s’appliquent à toute langue et ont déjà généré un corpus pour des langues aussi différentes que l’anglais, le français, le hollandais, l’islandais ou le sorabe (idiome slave de l’Allemagne orientale). (réd.)

Das Projekt Deutscher Wortschatz baut zu einzelnen Sprachen umfangreiche Textkorpora auf, wertet diese statistisch aus und stellt die Ergebnisse unter der Web-Adresse http://wortschatz.uni-leipzig.de/ mit Hilfe eines Vollformenwörterbuchs durchsuchbar zur Verfügung. Für das Deutsche sind zusätzlich syntaktische und semantische Angaben wie Grundform zur Vollform, Grammatikangaben zur Grundform, Sachgebiet und Synonyme erschlossen. Im Vordergrund bei der Entwicklung stehen jedoch automatische Verfahren zur Verarbeitung von Text, welche unabhängig von der untersuchten Sprache funktionieren. Dabei werden zum Einen die Vorkommen einzelner Wörter und Wortgruppen gezählt. Zum Anderen werden statistisch signifikant miteinander auftretende Wörter und Gruppen ermittelt, sowohl als direkte Nachbarn, wie auch innerhalb eines Satzes. Die Ergebnisse dieser Analyse werden zusätzlich ähnlich einem Assoziationsnetz visualisiert. Gegenwärtig werden im Internet an Wochentagen mehr als 40.000 Einträge täglich nachgeschlagen. Die Interessen dieser Nutzer sind sehr breit gefächert und reichen von der Verwendung als Rechtschreibwörterbuch bis hin zur allgemeinen Informationsbeschaffung über die Beispielsätze. Von besonderer Bedeutung ist die Anwendung als ein erweitertes Synonymwörterbuch: Mittels Kookkurrenzen und Beispielsätzen werden umfangreiche Formulierungshilfen angeboten.

1. Geschichte und Einordnung
Seit Anfang der 90er Jahre werden an der Abteilung Automatische Sprachverarbeitung am Institut für Informatik der Universität Leipzig Ressourcen im Bereich der geschriebenen Sprache aufgebaut. Zu Beginn der Sammlung stand das Ziel, frei verfügbare Daten zur deutschen Sprache zu sammeln und im Lauf der Zeit für die weitere Nutzung zu erschliessen. Schnell wichen Sammeln einzelner Wörter und Speicherung von Beispielsätzen dem Aufbau einer umfassenden Textdatenbank. Zu deren Erschliessung wurde schliesslich Software entwickelt, mit deren Hilfe beliebige Sprachdaten in grossem Massstab statistisch untersucht und präsentiert werden können. [...]

Ti interessa il testo completo dell’articolo? / Le texte complet de l’article vous intéresse? / Sind Sie am vollständigen Artikeltext interessiert? / If you are interested in the entire article