Språkstatistik

	Språkstatistik

Språkstatistik är statistik inriktad på språkliga data som används vid språkpsykologiska undersökningar. Syftet med språkstatistik är att undersöka sådant som ordlängd, meningslängd, antalet ord av viss typ o.s.v. George Zipf var en föregångare till språkstatistiken och han har formulerat en egen språklag: Zipfs lag. Arbete med språk kallas för lingvistik.

Källa

Läs mer om: Lingvistik ,

Språkstatistik / Zipfs lag

Zipfs lag är en empiriskt visad statistisk lag. Vid stora mängder data är rankingfrekvensen (förekomsten av det vanligaste värdet, näst vanligaste värdet, osv) approximativt Zipffördelade. Lagen är bland annat giltig på frekvensen av ord i ett språk eller en längre text. Lagen återspeglar att det finns några få mycket vanliga ord och många ovanliga. Enligt Zipfs lag gäller att vid en viss korpus (stor och strukturerad samling av uttryck inom ett naturligt språk), så är frekvensen av ett visst ord omvänt proportionell mot ordets frekvensranking. Det mest frekventa ordet inträffar således ungefär dubbelt så ofta som det näst vanligaste ordet, tre gånger så ofta som det tredje vanligaste ordet, etc. Till exempel är i modern engelska (enligt Browns korpus) "the" det mest frekventa ordet, med en förekomst på 6,9%, medan det näst vanligaste ordet, "of", står för drygt 3,6% av ord (överensstämmer approximativt med 6,9%/2=3,4% enligt Zipfs lag), följt av "and" med 2,8% av förekomsterna (borde vara 6,9%/3=2,3% enligt Zipfs lag).

Källa

Läs mer om: De 300 vanligaste orden i svenska språket

Språkstatistik / Kellyprojektet

Projektet (2009-2011, http://su.avedas.com/converis/contract/321 ) syftar till att utveckla språkinlärning. Man plockar ut de mest frekventa ord som motsvarar den gemensamma europeiska referensramen ( CEFR ).

Om du känner de vanligaste 1.500 ord i ett språk förstår du 75 procent av en vanlig text .

Den svenska Kelly-listan är en fritt tillgänglig frekvensbaserade vokabulärlista. Listan har genererats från en stor webbförvärvade korpus (SweWAC) av 114 miljoner ord (2010). Den är anpassad till behoven hos språkstuderande och innehåller 8 425 mest frekventa hjälpsatser som täcker 80% av SweWAC.

Svenska Kelly-listan kan användas vid utvärdering av texter, utöka ordförråd, skapa övningar och tester, sammanställa ordböcker, och för en rad andra ändamål språkinlärning och NLP applikationer. Kelly-listan kan också användas för att skapa en dynamisk lexikalisk databas.

Kellylistan (Excel-format)

Länkar:

Human-friendly excel-file with the Swedish Kelly-list can be downloaded here.
The machine-friendly version can be downloaded here.
Kelly Database where a word in any of the partner languages can be entered and its translation into the other partner languages is presented, if the item is present in the database: http://kelly.sketchengine.co.uk/
lists of universal vocabulary for 9, 8, 7 etc. languages, i.e. items that can be used multidirectionally as translation lexica (can be downloaded here soon)
list of unique Swedish items, i.e. items never used by translators from other languages into Swedish (can be downloaded here soon)
lists of shared words between different language pairs (can be downloaded here soon)
Publikationer:
Johansson Kokkinakis, S. and Volodina, E. (2011). Corpus-based approaches for the creation of a frequency based vocabulary list in the EU project KELLY – issues on reliability, validity and coverage. eLex 2011, Slovenia. [pdf]
Kilgarriff A., Charalabopoulou F., Gavrilidou M., Bondi Johannessen J., Khalil S., Johansson Kokkinakis S., Lew R., Sharoff S., Vadlapudi R, Volodina E. (submitted, LREJ 2012). Corpus-Based Vocabulary lists for Language Learners for Nine Languages. LREJ special issue.
Volodina, E. & Johansson Kokkinakis, S. (2012). Introducing Swedish Kelly-list, a new lexical e-resource for Swedish. LREC 2012, Turkey. [pdf]
Volodina, E. & Johansson Kokkinakis, S. (2012). Swedish Kelly: Technical Report. GU-ISS-2012-01. The Swedish Language Bank, Gothenburg University. [pdf]
Frieda Charalabopoulou, Maria Gavrilidou, Sofie Johansson Kokkinakis, Elena Volodina 2012. Building corpus-informed word lists for L2 vocabulary learning in nine languages. EuroCALL 2012 Proceedings, Gothenburg. [pdf]

Språkstatistik / Meningslängd

Tecken per ord/Ord per mening

Inrikes nyheter 5,3/18

Ledare 6,1/14

Kultur 5,9/26

Ekonomi 5,9/24

Sport 4,9/7

Kolumn 4,8/14

Språkstatistik / Läsbarhetsindex

Läsbarhetsindex (LIX).

Swegram

Språkstatistik / Språkverktyg online

Resoomer: sammanfattning online

Text- och språkverktyg online

Ordklasstagga

Språkstatistik / Engelska språkverktyg

Här finns en engelsk sida som ger dig "hårdfakta" om din text.

CLEAR är ett webbverktyg som mäter av nivå på texten genom att ge varje ord och mening en gradering mellan 1 0ch 20. Graderingen är i relation till språklig nivå.

De 5000 vanligaste engelska orden

Ordfrekvens inom språkinlärning

Språkstatistik / Mer om Språk

Språk .

Språkstatistik / Mer om Lingvistik

Vetenskapen om mänskligt språk: Lingvistik .

Språkstatistik / Mer om Semantik

Studiet av språklig betydelse eller studiet av teckensystems innebörd och tolkning: Semantik .

Språkstatistik / Mer om Semiotik

Ett samlingsnamn för teorier om och studiet av tecken: Semiotik .

Språkstatistik / Innehållsförteckning

Joni Stam (2013)