ispell-fi: Suomen kielen oikaisulukusanasto ispellille

Versio 0.7 (3. syyskuuta 2000)

Martin Vermeer (martin.vermeer at hut.fi) ja
Pauli Virtanen <pauli.virtanen@hut.fi>

Englanninkieliset sivut / English pages.


Tämä projekti pyrkii saamaan aikaan sanasto- ja affiksitiedostot, jotka mahdollistavat suomenkielisten asiakirjojen oikaisuluvun ispellillä.

Sekä sanasto- että affiksitiedostot levitetään Free Software Foundationin GNU General Public Licensen version 2 ehtojen alaisina. (Ks. tiedosto COPYING).


Nykyinen tila

Tämän ispellin oikaisulukusanaston pitäisi kattaa kohtuullinen osa yleisistä suomen kielen sanoista.

Sanasto on käyttökelpoinen, mutta ei sovi vakavaan käyttöön. (Ks. Puutteet.)


Sanaston kolme eri kokoa

Sanastosta on kolme erikokoista versiota: pieni, keskisuuri ja suuri. Nämä eroavat toisistaan vain muodostettujen sanojen taivutusmuotojen määrän osalta. (Katso tilastotietoja tiedostosta CHANGELOG.)

Pieni versio tunnistaa 756588 sanaa, ja vaatii levytilaa 2,7 megatavua. Muistia ispell kuluttaa sen kanssa noin 5 megatavua, joten sen pitäisi toimia myös pienitehoisilla koneilla.

Keskisuuri versio tunnistaa 889302 sanaa, ja vaatii levytilaa 5,3 megatavua. Muistia ispell kuluttaa sen kanssa noin 10 megatavua. Tätä sanastoa suositellaan käytettäväksi.

Suuri versio tunnistaa 6678677 sanaa, ja vaatii levytilaa 9,0 megatavua. Muistia ispell kuluttaa sen kanssa huimat 19 megatavua, joten tämän sanaston käyttäminen saattaa olla hieman kyseenalaista.


Asennusohjeet

Voit hakea nämä tiedostot osoitteesta http://ispell-fi.sourceforge.net/. Esim. ASENNA.

  1. Hae tiedosto finnish.dict.bz2
  2. Lisäksi hae jokin seuraavista affiksitiedostoista

Seuraavaksi joko

  1. Hae tiedosto build.sh
  2. Aja komento "sh build.sh <koko>" hakemistossa, jossa tiedostot ovat. (Koko on joko small, medium tai large.)
  3. Kopioi luotu finnish.hash-tiedosto hakemistoon /usr/lib/ispell/ (Tai sinne, missä ispellin <kieli>.hash -tiedostot ovat.)

tai

  1. Pura hakemasi tiedostot bzip2-ohjelmalla.
  2. Aja "buildhash finnish.dict <affiksitiedosto> finnish.hash", jossa <affiksitiedosto> on purkamasi affiksitiedoston nimi. Älä välitä mahdollisista ilmestyvistä varoituksista. Kaiken pitäisi toimia kunnolla niistä huolimatta.
  3. Kopioi luotu finnish.hash-tiedosto hakemistoon /usr/lib/ispell/ (Tai sinne, missä ispellin <kieli>.hash -tiedostot ovat.)

Ispellin pitäisi nyt pystyä oikolukemaan suomenkielistä tekstiä.


Puutteet

Useista sanoista kaikkia muotoja ei ole sanastossa.

Ispellin yhdyssanatuki on vaatimaton. Esimerkiksi väärin kirjoitetulle yhdyssanalle ei välttämättä ole korjausehdotuksia.

Osa maiden (ja paikkojen) nimistä on edelleen sanastossa pienellä alkukirjaimella. Lisäksi paikkojen, maiden ja kielten nimien osuus ei ole vielä kovin kattava.

Sanasto sisältää luullakseni melko paljon harvinaisia sanoja, sekä joidenkin erikoisalojen (lingvistiikka, atk) termejä. Ne saattavat hidastaa ispellin toimintaa, viedä turhaa levytilaa ja muistia. En kuitenkaan tiedä, kuinka kannattavaa niiden poistaminen sanastosta on. (Työlästä se varmastikin on.)

Sanastossa on myös jonkin verran lyhenteitä, jotka saattavat aiheuttaa virheellisten sanojen hyväksymisen.


Auttaminen

Lisäsanalistat ovat tervetulleita, varsinkin jos ne ovat sekä laajoja että virheettömiä (ja vapaasti lisättävissä tähän GNU GPL-lisenssin mukaisesti levitettävään pakettiin).

On myös avuksi, jos ilmoitat tämän sanaston tekijöille, kun ispell hyväksyy selkeästi väärin kirjoitetun sanan. Muista kuitenkin tarkistaa ensin, että ongelma on tosiaankin tässä sanastossa eikä henkilökohtaisessa sanastossasi (joka on yleensä tiedostossa ~/.ispell_finnish).


Sanaston lähteet


Affiksitiedostojen lähteet

Nämä affiksitiedostot perustuvat Martin Vermeerin kirjoittamaan affiksitiedostoon (joka oli versiossa 0.1, ja aikaisemmin). Lisäksi suureksi avuksi on ollut kirja Finnish grammar. Fred Karlsson (1983), Werner Söderström Oy, Juva. sekä myös sen suomenkielinen versio Suomen Peruskielioppi.

Tällä hetkellä affiksitiedostot ovat osittain automaattisesti generoituja genfisuffix-ohjelmalla. Jos olet utelias, niin voit hakea lähdekoodin osoitteesta genfisuffix/genfisuffix-0.7.tar.bz2.


Sivutilan tarjoaa

SourceForge Logo

Viimeksi päivitetty 2638420024 mvermeer