Mi preparis iom da statistiko.
Tio estas bazita sur tekstoj el Tekstaro. Ĉiuj fremdaj vortoj forigitaj. Entute restis 6_050_218 vortoj kaj el inter ili 49_463 diversaj vortoj.
Suma nombro de literoj: 28_844_862. Mi provis fari dividon je silaboj, rezultis distinktaj silaboj: 1_859
Do:
- Meza vortolongo (en silaboj): 2.072
- Meza vortolongo (en literoj): 4.768
- Meza silablongo (en literoj): 2.301
En la dosiero ankaŭ troviĝas:
- Distribuo de vortoj laŭ longo (en literoj)
- Distribuo de literoj
- Distribuo de vortoj laŭ nombro de silaboj
- Komencoj de unusilaboj vortoj
- Komencoj de unuaj silaboj (ĉiuj vortoj)
- Lastaj finaĵoj de multsilabaj vortoj
- 5-literaj silaboj
Ekzemple
Distribuo de vortoj laŭ nombro de silaboj
| Nombro de silaboj | Frekvenco | Procento |
|---|---|---|
| 1 | 2,395,024 | 39.585% |
| 2 | 1,730,547 | 28.603% |
| 3 | 1,213,326 | 20.054% |
| 4 | 539,230 | 8.912% |
| 5 | 150,109 | 2.481% |
| 6 | 19,845 | 0.328% |
| 7 | 2,095 | 0.035% |
| 8 | 101 | 0.002% |
Mi esperas, ke tio povas helpi al tiuj, kiuj okupiĝas pri kreado de skribsistemoj aŭ pri analizado de Esperanta skribo.
Rezulto - ĉe github: https://github.com/zmila/eo_vortilo/blob/main/rezultoj.md
(La kodo en Jupyter libro literumado_laŭ_kevako.ipynb)
Comments (2)
Записная книжка звучит просто как "книга" ?
это я торопился и не поискал точного перевода.
написал так, наобум, приблизительно.
надо будет потом подумать.
спасибо за code review 🙂