View
214
Download
0
Category
Tags:
Preview:
Citation preview
Number Words’ Frequency in Modern Lithuanian
Adriano CerriUniversity of Pisa, Department of
Linguisticsadriano.cerri@for.unipi.it
Introduction
Methodology
Data & RemarksConclusions
Future directions of study
Numerals
History
Anthropology
Psychology
Linguistic
typology
Etymology
Quantitative
studies
Numerals in many of the world’s languages
(cf. Stampe 1976, Greenberg 1978):
- they are part of a system- they play different roles (simple units, main bases, secondary bases, upper units, etc.)
Number words’ frequency
?
Basic questions
- Are numerals used with random frequency?
- If a pattern of use emerge, how can this pattern be understood within the structure of the system?
Introduction
Methodology
Data & RemarksConclusions
Future directions of study
Target language: Modern Lithuanian
Useful tools:
- - L. GrumadiL. Grumadienė & enė & V. V. ŽilinskienėŽilinskienė (1997-1998), (1997-1998), Dažninis dabartinės rašomosios lietuvių kalbos Dažninis dabartinės rašomosios lietuvių kalbos žodynasžodynas [ [Frequency Dictionary of Modern Frequency Dictionary of Modern Written LithuanianWritten Lithuanian]]- A. Utka (2009), A. Utka (2009), Dažninis rašytinės lietuvių Dažninis rašytinės lietuvių kalbos žodynaskalbos žodynas [ [Frequency Dictionary of Frequency Dictionary of Written LithuanianWritten Lithuanian] ] - DabartinDabartinės lietuvių kalbos tekstynas ės lietuvių kalbos tekstynas [[Corpus Corpus of Contemporary Lithuanian Languageof Contemporary Lithuanian Language (CCLL) (CCLL)] ] donelaitis.vdu.ltdonelaitis.vdu.lt- LietuviLietuviųų mokslo kalbos tekstynas mokslo kalbos tekstynas [ [Corpus Corpus Academicum Lithuanicum (CorALit)Academicum Lithuanicum (CorALit)]] coralit.ltcoralit.lt
The Dictionaries: Advantages
M. F.NOM. penkipenkiosGEN. penkiųDAT. penkiems penkiomsACC. penkis penkiasINS. penkiais penkiomisLOC. penkiuose penkiose
NOM.M penkitot. occ.: 187
The Dictionaries: Limits
Complex numerals (two or more number words, e.g. du šimtai septyniasdešimt trys «273») are not registered as a single numeral, but their components are counted separately (e.g. 2 – 100 – 70 – 3)
Original database on number words’ frequency using the CCLL
Consequence:
complex numerals are not represented, their single components are over represented
Number Word Occurr.
NOM.M keturi 6399NOM.F keturios 2809GEN.M & F keturių 6421DAT.M keturiems 596DAT.F keturioms 283ACC.M keturis 5982ACC.M keturias 3145INS.M keturiais 929INS.F keturiomis 374LOC.M keturiuose 312LOC.F keturiose 480
Search: Simple numerals (e.g. keturi «4»)
Total: 27.730
Search: Complex numerals (e.g. dvidešimt penki «25»)
s studentų grupę iš visos Europos. Dvidešimt penki instrumentalistai dirba dra
iai daugiau nei kitam mirtingajam ( dvidešimt penki lavonai vardan grožio!). Pe
d, jo nuomone, Lietuvoje yra kokie dvidešimt penki verti dėmesio skulptoriai i
3, penkiolika futbolininkų - po 2, dvidešimt penki - po 1. Šį savaitgalį ir
tau, kad meluoji! Buvo mažiausiai dvidešimt penki gorčiai, tik išmatavome neg
dalyvavo trisdešimt trys teatrai. Dvidešimt penki iš jų vaidino lietuvių, o a
iu tuos tris šimtus metrų, turėsiu dvidešimt progų tuo įsitikinti: penki jūsų s
imk savo pelną. O tas pelnas buvo dvidešimt penki kartai, kuriuos jis visados
iesiausias kelias į Daugpilį - vos dvidešimt penki kilometrai. Tačiau ten Riman
i tai, kas priklauso. Priklausė dvidešimt penki kirčiai, kuriuos jis labai s
kiekvienais metais ne mažiau kaip dvidešimt penki milijardai dolerių pervedami
į kompaktinių diskų dežėles (telpa dvidešimt penki sargiai). Dar roskildiečiai
jį automobilio modelį - "Carisma". Dvidešimt penki šalies gyventojai, savo lan
iaus ir D.Girėno skrydžiu, kai "... dvidešimt penki tūkstančiai lietuvių nesulau
nkauskui. "Senukų" asortimentas - dvidešimt penki tūkstančiai prekių: vakariet
ltūros skyriaus ataskaitoje... Dvidešimt penki žymiausi įvairių kartų Balta
jo pulko karininkų buvo areštuoti dvidešimt septyni, taip pat penki puskarinin
Search: Complex numerals (e.g. dvidešimt penki «25»)
First word Contextual word
dvidešimt penki
dvidešimt penkios
dvidešimt penkių
dvidešimt penkiems
dvidešimt penkioms
dvidešimt penkis
dvidešimt penkias
dvidešimt penkiais
dvidešimt penkiomis
dvidešimt penkiuose
dvidešimt penkiose
Search: Complex numerals (e.g. dvidešimt penki «25»)
Introduction
Methodology
Data & RemarksConclusions
Future directions of study
Table 1. Counting of number words’ occurrences in the Corpus of Contemporary Lithuanian Language
(CCLL)
Chart 1. Number words’ occurrences in the Corpus of Contemporary Lithuanian Language (CCLL)
1
2
3
4 5 6 7 8 9101112 13 1415 16 171819 202122 23 304050 607080 90100
1000
1062529 109
0
50000
100000
150000
200000
250000
300000
350000
numerical value
num
ber o
f occ
urre
nces
Chart 2. Numerals 1-9
Trend: Frequency lowers as numerical value increases
1
2
3
4 5 8769
0
50000
100000
150000
200000
250000
300000
350000
numerical value
num
ber o
f occ
uren
ces
(Cf. Hurford (1987: 91) for Modern English)
Chart 3. The tens
10
20
3040 50
60 70 80 90
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
numerical value
num
ber
of o
ccur
renc
es
Chart 4. The series of round numerals 1
10
100
10001.000.000
1.000.000.000
0
5000
10000
15000
20000
25000
30000
numerical value
nu
mb
er
of
occu
rren
ces
Chart 5. Numerals 11-19
19
1817
16
15
1413
12
11
0
500
1000
1500
2000
2500
3000
3500
4000
numerical value
nu
mb
er o
f o
ccu
ren
ces
Chart 6. Numerals 21-29
2122
23
25
29
0
50
100
150
200
250
300
350
numerical value
num
ber o
f occ
urre
nces
Chart 7. The ‘peaks’ of frequency
1000100
90
30
2921
20
1916
1512
11
10
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
numerical value
num
ber o
f occ
urre
nces
Correspondence between the structural role of a numeral, its cognitive salience
and its frequency of use
1
2
3
4 5 8769
0
50000
100000
150000
200000
250000
300000
350000
numerical value
num
ber o
f occ
uren
ces
10
20
3040 50
60 70 80 90
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
numerical value
nu
mb
er o
f o
ccu
rren
ces
The base (10) of the system is a upper-level unit
Charts 2 and 3.
Introduction
Methodology
Data & RemarksConclusions
Future directions of study
Main results:
• Lithuanian number words are not used with random frequency
• Trend: within each cycle, the lower the numeral is, the higher its frequency
• Frequency can be subject to comparative predictions (e.g. frequency 4 > 9)
• The cycle 1-9 serves as a basic model ruled by the above-mentioned trend
• The whole system proceeds by reproducing the basic model
• Vienas «1» is the most frequently used numeral
• It serves as a model for those numerals sharing the semantic trait of «unity» (10, 100, 1000 etc.)
• A correspondence is shown between the structural role of a numeral, its cognitive salience and its frequency of use
• ‘Round’ numerals attract a higher number of occurrences
Main results:
Round numerals
fulfil the universal need of ‘milestones’ along the endless path of numbers
• more salient
• more frequent
• more suitable for approximate uses (to ‘round off’ a quantity)
Introduction
Methodology
Data & RemarksConclusions
Future directions of study
Other languages, especially non-decimal ones
Cross-linguistic perspective: a ‘frequency typology’ of numerals?
What is culturally determined? What is universal?
Th
an
k
Yo
u
ReferencesBybee & Hopper (eds., 2001) – Frequency and Emergence of Linguistic Structure. Amsterdam: John Benjamins.Bybee (2007) – Frequency of Use and the Organization of Language. Oxford: Oxford University Press.CCLL – Corpus of Contemporary Lithuanian Language / Dabartinės lietuvių kalbos tekstynas, http://donelaitis.vdu.lt. CorALit – Corpus Academicum Lithuanicum / Lietuvių mokslo kalbos tekstynas, http://coralit.lt. Greenberg (1978) – Generalizations about numeral systems. J.H. Greenberg, C.A. Ferguson, E.A. Moravcsick (eds.). Universals of human language 3: Word structure. Standford: Standford University Press, 249-295.Grumadienė & Žilinskienė (1997) – Dažninis dabartinės rašomosios lietuvių kalbos žodynas (mažėjančio dažnio tvarka). Vilnius: Lietuvių kalbos institutas, Matematikos ir informatikos institutas.Grumadienė & Žilinskienė (1998) – Dažninis dabartinės rašomosios lietuvių kalbos žodynas (abėcėlės tvarka). Vilnius: Lietuvių kalbos institutas, Matematikos ir informatikos institutas.Hurford (1987) – Language and Number: The Emergence of a Cognitive System. Oxford: Basil Blackwell.Kaufman, Lord, Reese & Volkmann (1949) – The Discrimination of Visual Number. American Journal of Psychology, 62 (4), 498-525.Mandler & Shebo (1982) – Subitizing: an Analysis of its Component Processes. Journal of Experimental Psychology: General, 111, 1-22.Rūķe-Draviņa (1979) – On numerals in Baltic and Slavic languages. Acta Baltico-Slavica, 12, 53-66.Stampe 1976 – Cardinal Number Systems. S.S. Mufwene, C.A. Walker, S.B. Steever (eds.). Papers from the Twelfth Regional Meeting of the Chicago Linguistic Society. Chicago: Chicago Linguistic Society, 594-609.Thorndike & Lorge (1944) – The Teacher’s Word Book of 30.000 Words. New York: Columbia University Teachers’ College.Trick & Pylyshyn (1994) – Why are small and large numbers enumerated differently? A limited-capacity preattentive stage in vision. Psychological Review, 101 (1), 80-102.Utka (2009) – Dažninis rašytinės lietuvių kalbos žodynas. Kaunas: VDU leidykla.
Recommended