Newsgroups: comp.archives
Path: utzoo!utgpu!news-server.csri.toronto.edu!ox.com!msen.com!emv
From: icking@gmdzi.gmd.de (Werner Icking)
Subject: [dnet.and.sub.general] Re: Liste deutscher Worte / Spellchecker
Message-ID: <1991May17.045518.17045@ox.com>
Followup-To: dnet.and.sub.general
Keywords: ispel worte spellcheck tex
Sender: emv@msen.com (Edward Vielmetti, MSEN)
Reply-To: icking@gmdzi.gmd.de (Werner Icking)
Organization: GMD, St. Augustin, F.R. Germany
References: <bruells.674135129@faramir> 
Date: Fri, 17 May 1991 04:55:18 GMT
Approved: emv@msen.com (Edward Vielmetti, MSEN)
X-Original-Newsgroups: dnet.and.sub.general

Archive-name: text/dictionary/german-wordlist/1991-05-15
Archive: faui43.informatik.uni-erlangen.de:/portal/doc/dict/german-wordlist.Z [131.188.1.43]
Original-posting-by: icking@gmdzi.gmd.de (Werner Icking)
Original-subject: Re: Liste deutscher Worte / Spellchecker
Reposted-by: emv@msen.com (Edward Vielmetti, MSEN)


Peter.Bruells@arbi.informatik.uni-oldenburg.de (Peter Bruells) writes:

>Ausserdem braeuchte ich eine ascii-liste deutscher Woerter, um ggf. einen
>Spellchecker zu trainieren oder umzutrainieren. 

Darauf kamen zwei Antworten (u.a. eine von mir) mit Hinweisen auf vorhandene
Woerterlisten:

sk@krabat.marco.de (Stefan Kutsch) writes:

>die ascii-liste gibt's auf

>ftp.informatik.tu-muenchen.de 131.159.0.110

>/public/doc/dict/germanl.Z

icking@gmdzi.gmd.de (Werner Icking) writes:

>Im Rahmen einer aehnlichen Diskussion in ...  bekam ich von
> From: squirrel@bart.cs.mcgill.ca (Alexander OKAPUU-VON VEH)
> Subject: Re:  German Spell-Checker
>einen Hinweis auf eine Woerterliste, die leider Umlaute nur als Uemlaeutoe
>enthaelt:

>   Du kannst Dir die Liste holen:

>   Sie ist bei faui43.informatik.uni-erlangen.de unter 
>   /portal/doc/dict   und heisst  german-wordlist.Z

>   Ungefaehr 760 K komprimiert, 2.1 MB sonst.  

Da die  Nachfrage so grosz ist, habe ich auf beide Listen mal meinen
NI-Spellchecker angesetzt (der KI-Spellchecker ist ja noch in Arbeit).
Eine allererste Sichtung brachte bereits folgendes zu Tage:

Die ***Muenchener*** Woerterliste kennt so nuetzliche Woerter wie
    ANBE ANLLO" ARGE PM2 PM3 PME PU

Und auch der "Aasgeier" fehlt nicht (wohl aber dem Aasgeier sein Genitiv).

Auch kennt es Umlaute (U"mla"uto") und Esszet:
 
 AdresSbit AdresSbusses AdresSgenerierung
 Adressberechnungen Adressbus Adresserweiterung Adressgenerator Adressoffsets
 Adressraum Adressraumerweiterung
 Anschlu"sS AnschlusS
 Anschlu"ss Anschluss       wobei es aber an der Rechtschreibung hapert.

Die teutschen Woerter "Padrta Paella Paintadditiv" finden sich direkt in Reihe.

Und auch so beliebte Woerter wie "zusammenaddiert" oder "aufaddiert" fehlen nicht.

Wenn es um Genauigkeit geht, findet man u.a.
 Genau Genaue Genauere Genauikeit


Die **Erlangener** Woerterliste kennt  AT ATP und viele weitere nuetzliche
Buchstabenkombinationen.

Bei "Aasgeiern Aasgeiers" fehlt der Nominativ ebenso wie den
"Abenddaemmerungen" der Singular. Aehnliches gilt fuer
"Bliebe Blinddaerme Blinddaermen Blinddarms Blinde" oder
"Daemmerstunde Daemmerungen".

So etwas braucht man zum "Buechermachen"

Auch hier half die Suche nach Genauigkeit: "Genannten Genaratoren Genau"

Und wenn man mal wirklich ganz genaue hinschaut, findet man
  genaueste genauesten genausowenig genaustem genausten genauster

Dem laeszt sich fast nichts mehr "zuaddieren"!

 Genau Genaue Genauere Genauikeit

So etwas ist als *Eingabe* fuer einen Spellchecker gut brauchbar.
-- 
Werner Icking          icking@gmdzi.gmd.de          (+49 2241) 14-2443
Gesellschaft fuer Mathematik und Datenverarbeitung mbH (GMD)
Schloss Birlinghoven, P.O.Box 1240, D-5205 Sankt Augustin 1, FRGermany
                                  "Der Dativ ist dem Genitiv sein Tod."

-- comp.archives file verification
faui43.informatik.uni-erlangen.de
-rw-r--r--  1 Wizard   Source     761528 Jan 31 10:12 /portal/doc/dict/german-wordlist.Z
found german-wordlist ok
faui43.informatik.uni-erlangen.de:/portal/doc/dict/german-wordlist.Z
