Wo ist die Pampelmuse geblieben?

30.000 Wörter katalogisieren und sprachlich beschreiben – das ist das ehrgeizige Ziel des „Zentrums für digitale Lexikographie“. Wie die Begriffe ausgewählt werden und was das mit Pampelmusen zu tun hat, erläutert Computerlinguist Alexander Geyken.

Lexikographie_Buch
So sieht es aus, wenn ein Computer die häufigsten sprachlichen Verbindungen eines Wortes untersucht. © BBAW/ZDL

Herr Geyken, Sie wollen mit der Förderung durch das BMBF die Veränderungen der deutschen Sprache auf einer digitalen Plattform darstellen. Gibt es so etwas nicht schon längst?

Alexander Geyken: In der Tat sind die bislang erarbeiteten Wörterbücher der deutschen Sprache sehr verdienstvoll. Sie weisen aber auch einige Lücken auf. Das wohl größte Wörterbuch der deutschen Sprache, das Grimmsche Wörterbuch, ist zwischen 1852 und 1961 entstanden. Es erfasst somit nicht den aktuellen Wortschatz, und viele der Artikel sind auf dem Stand des späten 19. Jahrhunderts. Der Duden wiederum konzentriert sich auf den Wortschatz deutscher Gegenwartssprache, den er nicht nur bezüglich der Rechtschreibung umfassend und aktuell darstellt. Mit den Bedeutungsbeschreibungen richtet er sich an eine möglichst breite Zielgruppe.

...und was wollen Sie anders machen?

Demgegenüber will das von den Wissenschaftsakademien neu gegründete Zentrum für digitale Lexikographie den gesamten Wortschatz des Deutschen, von dessen Anfängen um 800 bis in die Gegenwart, umfassend und wissenschaftlich verlässlich beschreiben. Der Schwerpunkt liegt dabei auf dem Neuhochdeutschen, also ab etwa 1600. Dies wird beispielsweise dadurch ermöglicht, dass historische Referenzkorpora in das System eingebunden sind und somit Verwendungen auch in deren zeitlichen Verläufen recherchiert werden können. Damit einhergehend sind auch die Bedeutungsbeschreibungen komplexer. In dieser Breite und in diesem Umfang ist dieses Vorgehen für die deutsche Sprache einmalig.

Wo fangen Sie dabei an?

Zum Glück nicht bei Null. Wir stützen uns auf schon bekannte Werke und überarbeiten diese. Uns stehen jetzt schon etwa 170.000 Wörter der deutschen Gegenwartssprache aus verschiedenen Quellen zur Verfügung. 30.000 Wörter wollen wir in den nächsten Jahren neu beschreiben, sodass der Gesamtbestand auf 200.000 steigt. Darüber hinaus wollen wir mit Methoden der Computerlinguistik einen Bestand von über einer Million Wörter lexikographisch erschließen. Wir haben also noch einiges zu tun.

Geyken_Poträt
Alexander Geyken ist Arbeitsstellenleiter des Berliner Teilprojekts. © BBAW/ZDL

Wie wählen Sie die Wörter aus, mit denen Sie sich befassen?

Computer durchforsten für uns große Mengen an Text und bewerten unter anderem, wie oft ein Wort vorkommt und in welchem Kontext. Wir prüfen dann in jedem Fall einzeln, ob ein Vorschlag des Computers wirklich würdig für eine Aufnahme in das Wörterbuch ist, oder wie wir in der Werkstattsprache sagen: gebucht werden kann. Über die reine Worthäufigkeit hinaus spielen dabei für uns die semantische Relevanz für den Wortschatz, also der Gebrauchswert, sowie auch eine ausreichende zeitliche und textsortenübergreifende Verteilung die entscheidende Rolle.

Was passiert mit einem Wort, das es in das Wörterbuch „schafft“?

Es gibt verschiedene Möglichkeiten. Häufig stellen wir einfach nur fest, dass es dieses Wort gibt. Wir versehen es mit grammatischen Angaben, wie man zum Beispiel den Plural und den Genitiv bildet; der Benutzer kann sich aber selber in den Korpora Beispiele dafür anschauen, wie dieses Wort verwendet wird. Damit ist die erste Etappe abgeschlossen. Die zweite besteht darin, die Bedeutung des Wortes zu ermitteln. Dafür schauen wir uns wieder die maschinelle Auswertung der Texte an. Wir betrachten dabei die direkte Umgebung des Wortes und schließen aus den jeweiligen Satzkontexten auf die Bedeutung. In einem letzten Schritt stellen wir sprachliche Verbindungen dar, die das Wort oft eingeht. Für das Wort „Interview“ wäre eine solche typische Verbindung zum Beispiel „ein Interview führen“. Oder auch „beenden“ (lacht).

Bitte noch nicht! Welchen Nutzen hat der normale Bürger von Ihrem Projekt?

Jeder kann bereits jetzt über das in das ZDL integrierte „Digitale Wörterbuch“ online nach Schreibweisen, Bedeutungen oder Herkunft von Wörtern suchen – kostenfrei und ohne Anmeldung. Er kann aber auch selber mithilfe einiger „Tools“ in unseren riesigen Korpora recherchieren und so gleichsam selber zum Lexikographen werden. Wir wollen, dass die Nutzerinnen und Nutzer ausgehend von der Gegenwartssprache einen Ausflug in die Vergangenheit unternehmen können. Damit leisten wir auch einen Beitrag zum Erhalt unserer Kultur.

Warum verändert sich Sprache überhaupt?

Das lässt sich am besten erklären, wenn man sich an die Zeit von vor 30, 40 Jahre zurückversetzt. Seitdem gab es viele technologische Veränderungen, für die auch neue Begriffe benötigt wurde. Das beste Beispiel dafür ist vielleicht das "Handy", das in den letzten Jahren immer stärker durch das „Smartphone“ ersetzt wurde. Auf der anderen Seite gibt es gesellschaftspolitische Debatten, die neue Begriffe begründen, denken Sie an beispielsweise an die Wörter des Jahres 2018 und 2019, „Heißzeit“ und „Respektrente“. Drittens gibt es einen starken Einfluss der Globalisierung auf das Deutsche, meistens durch englische Begriffe. Wer kennt schon heute noch die „Pampelmuse“? Fast alle sprechen von „Grapefruit“.

Ein anderes prominentes Beispiel ist das Wort „geil“, das noch vor drei Jahrzehnten als extrem vulgär galt. Heute ist es Teil der jungen Sprache. Wie kommt das?

Diese Frage habe ich mir noch nicht gestellt, aber ich kann Ihnen sagen, wie ich sie untersuchen würde: indem ich mir den Kontext ansehe, in dem das Wort früher und heute gebraucht wird. Das heißt, ich schaue mir Romane an, Ratgeber, Jugendmagazine und Ähnliches. Wenn man das über einige Jahre hinweg untersucht, kann man erkennen, wie oft das Wort verwendet wird, in welchem Zusammenhang, und kann daraus auf die stilistische Veränderung des Wortes schließen.

Herr Geyken, wir danken Ihnen für das Gespräch.

Zur Person

Alexander Geyken ist Arbeitsstellenleiter des Zentrums für digitale Lexikographie (ZDL) und des Digitalen Wörterbuchs der deutschen Sprache (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften. Er studierte Mathematik und Linguistik in München, Freiburg und Paris. 1998 promovierte er im Fach Computerlinguistik an der Universität München, 2017 habilitierte er an der Universität Potsdam zum Thema "Die Zukunft allgemeinsprachlicher Wörterbücher in Zeiten des Internets".