wsh.net.pl

Wyższa Szkoła Handlowa – studiuj razem z nami

Ile jest słów w języku polskim – szacunki i ciekawostki

Najpierw pada proste pytanie: ile jest słów w języku polskim. Potem okazuje się, że samo słowo „słowo” trzeba doprecyzować. Na końcu wychodzi na jaw, że dla osób uczących się polskiego ważniejsze od globalnych liczb są: słownictwo aktywne, pasywne i realne potrzeby komunikacyjne. Ten tekst przechodzi dokładnie tę drogę: od ciekawostek liczbowych, przez źródła i metodologię, aż po praktyczne wnioski dla osób zanurzonych w polszczyźnie. Bez mitów, ale też bez przesadnego akademickiego tonu.

Co to właściwie znaczy „ile jest słów” w języku polskim

Pytanie „ile jest słów w języku polskim” jest pozornie proste, ale wymaga doprecyzowania trzech rzeczy: co liczyć, jak liczyć i skąd brać dane.

Po pierwsze, trzeba ustalić, czy mowa o:

  • formach fleksyjnych (np. „dom, domu, domem, domy” – wszystko osobno),
  • hasłach słownikowych (lema: „dom”),
  • jednostkach leksykalnych – w tym związkach typu „biały kruk”, „dać radę”.

Po drugie, trzeba zdecydować, co w ogóle uważać za „słowo polskie”:

  • czy wliczać archaizmy, których nikt nie używa,
  • co z regionalizmami i gwarą,
  • jak traktować terminologię specjalistyczną (medycyna, prawo, informatyka),
  • czy doliczać nazwy własne (imiona, nazwiska, nazwy firm i produktów).

Po trzecie, problemem nie jest tylko to, co „istnieje”, ale co da się udokumentować. Polszczyzna nie ma jednego centralnego rejestru słów. Są słowniki, korpusy, zbiory terminologii branżowej, ale nie tworzą kompletnej całości.

Im precyzyjniej zdefiniuje się, co liczymy jako „słowo”, tym mniejsza będzie liczba. Im szerzej – tym szybciej robi się z tego kilka milionów jednostek.

Oficjalne źródła: słowniki i korpusy

Przy szacowaniu liczby słów w języku polskim korzysta się głównie z dwóch rodzajów źródeł: słowników i korpusów tekstowych. Każde z nich „widzi” polszczyznę inaczej.

Słowniki ogólne języka polskiego

Tradycyjne słowniki ogólne są najczęściej cytowanym punktem odniesienia. Mowa o publikacjach typu:

  • „Wielki słownik języka polskiego PAN” (WSJP),
  • „Uniwersalny słownik języka polskiego PWN”,
  • starsze słowniki ogólne (np. Doroszewski).

Liczby są przybliżone, ale dają pewien obraz:

– większe współczesne słowniki ogólne notują rzędu 100–150 tys. haseł,
– uwzględniają głównie ogólne słownictwo i część terminologii specjalistycznej,
– pomijają ogromną liczbę rzadkich specjalistycznych terminów, marek, nazw lokalnych.

Słownik ogólny jest więc dobrym punktem startu, ale na pewno nie obejmuje całej polszczyzny. To raczej „język wspólny”, potrzebny do komunikacji większości użytkowników, niż pełne archiwum wszystkich słów.

Korpusy językowe: rzeczywiste użycie języka

Korpusy to duże zbiory tekstów (prasowych, literackich, internetowych, mówionych), na których bada się realne użycie słów. Dla polszczyzny kluczowe są m.in.:

  • NKJP – Narodowy Korpus Języka Polskiego,
  • korpusy PWN, IPI PAN i inne zasoby akademickie.

W takich zbiorach liczy się formy i lematy. W praktyce:

  • liczba różnych form (wszystkie odmiany) idzie w miliony,
  • liczba lematów (haseł w słowniku) jest rzędu kilkuset tysięcy.

Różnica między słownikiem a korpusem jest taka, że:

  • słownik stara się być normatywny – mówi, jak „powinno być”,
  • korpus jest deskryptywny – pokazuje, jak ludzie realnie mówią i piszą.

Dla liczenia słów istotne jest jedno: korpusy wychwytują także słownictwo potoczne, slang, błędne formy, lokalne nazwy – wszystko, co ma szansę pojawić się w tekstach. To rozszerza obraz języka daleko poza to, co można znaleźć w drukowanym słowniku.

Szacunki: od kilkuset tysięcy do kilku milionów

Po połączeniu danych słownikowych i korpusowych dostaje się rozpiętość, która na pierwszy rzut oka wygląda absurdalnie szeroko. Niestety – jest uczciwa.

Liczby, które da się w miarę sensownie podać

Najczęściej przytaczane są następujące szacunki (mowa o współczesnej polszczyźnie, bez głębokich archaizmów):

  • ok. 100–150 tys. haseł w dużych słownikach ogólnych,
  • 200–300 tys. lematów uwzględniających słownictwo rzadziej używane i część terminologii,
  • powyżej 500 tys. jednostek leksykalnych, jeśli doliczyć terminy specjalistyczne, nazwy własne i stabilne związki frazeologiczne,
  • kilka milionów różnych form (z odmianą) w dużych korpusach tekstowych.

W bardziej odważnych opracowaniach pojawiają się liczby typu 1–2 miliony „słów”. Zwykle chodzi wtedy o bardzo szerokie rozumienie jednostki: wszystkie złożenia, skróty, produktowe nazwy własne, lokalizmy, formy potencjalne (te, które można utworzyć zgodnie z zasadami słowotwórstwa, nawet jeśli są rzadko używane).

Realistyczny porządek wielkości: polszczyzna ma ok. 200–300 tys. współcześnie istniejących haseł leksykalnych, a przy szerokim liczeniu (terminologia, nazwy, frazeologizmy) przekracza 500 tys.

Nawet te liczby wymagają ostrożności. Granica między „słowem” a „związkiem wyrazowym” bywa płynna. „Czerwone wino” to zlepek dwóch słów, ale „biały kruk” funkcjonuje już jako samodzielna jednostka znaczeniowa. Tysiące takich połączeń działa w języku na podobnych zasadach.

Ile słów zna przeciętny użytkownik polszczyzny

Gdy mowa o nauce języka, ważniejsze od tego, ile słów „ma” polszczyzna, jest to, ile słów rzeczywiście zna i używa przeciętny użytkownik.

Dane z badań (dla różnych języków indoeuropejskich, wyniki dla polskiego są zbliżone) wskazują mniej więcej na:

  • aktywne słownictwo dorosłego – ok. 10–20 tys. słów,
  • pasywne słownictwo (rozumiane, ale rzadko używane) – ok. 30–40 tys. słów,
  • u osób intensywnie czytających i pracujących ze słowem – nawet powyżej 50 tys. słów pasywnych.

Przy czym mowa tu o lematach, a nie o wszystkich formach fleksyjnych. „Czytam, czytałem, czytać, będę czytał” to jedno słowo w takim liczeniu.

Dla osób uczących się polskiego taka perspektywa jest kluczowa. Globalna liczba słów w języku robi wrażenie, ale w praktyce:

  • ok. 1000–2000 najczęstszych słów pozwala na całkiem sprawną komunikację w codziennych sytuacjach,
  • ok. 5000–7000 słów daje komfort korzystania z większości popularnych tekstów (prasa, internet, proste książki),
  • powyżej 10 tys. słów otwiera drogę do swobodnego czytania większości tekstów bez większych przeszkód.

Warto też pamiętać, że polski jest językiem silnie fleksyjnym i słowotwórczo produktywnym. Z jednego rdzenia można utworzyć rodzinę całych wyrazów („dom, domek, domowy, domostwo, domator, domatorstwo…”). Uczący się języka często „dostaje w pakiecie” kilka słów naraz, jeśli rozumie reguły tworzenia.

Odmiana, gwarą, slang, neologizmy – gdzie postawić granicę

Każdy szacunek liczby słów w polszczyźnie rozbija się o pytanie: gdzie kończy się język standardowy, a zaczyna niepoliczalny chaos wariantów i okazjonalnych tworów?

Na liczby wpływa kilka zjawisk:

  • Fleksja – polski odmienia prawie wszystko: rzeczowniki, przymiotniki, czasowniki, liczebniki. Każdy rzeczownik to potencjalnie kilkanaście form, każdy czasownik – jeszcze więcej.
  • Słowotwórstwo – z każdego przymiotnika można próbować zrobić przysłówek, rzeczownik cechy, czasownik pochodny itd. Część takich tworów nigdy nie trafi do słownika, ale może realnie paść w rozmowie.
  • Dialekty i gwary – lokalne słownictwo (Śląsk, Podhale, Kaszuby) w praktyce dokłada tysiące dodatkowych jednostek, częściowo wzajemnie niezrozumiałych dla osób spoza regionu.
  • Slang i socjolekty – język młodzieży, branży IT, medyków, prawników, graczy. Tu liczby są płynne, bo część form żyje krócej niż sezon.
  • Neologizmy i pożyczki – szczególnie z angielskiego: „scrollować, followować, hejtować, backlog, deployment”. Jedne zostaną na dłużej, inne znikną po kilku latach.

W badaniach zwykle rozwiązuje się to w ten sposób, że:

  • tworzy się jakiś rdzeń standardowej polszczyzny – to jest ten rząd 100–200 tys. haseł,
  • wszystko, co wykracza poza ten rdzeń, traktuje się jako „warstwy dodatkowe”: dialekty, specjalizmy, odmiany środowiskowe.

Nie ma jednej „świętej” liczby słów dla całego języka, bo język jest w ruchu i nieustannie dopisuje sobie nowe elementy.

Co z tego wynika dla osób uczących się języka polskiego

Informacja, że polszczyzna może mieć setki tysięcy słów, brzmi demotywująco tylko na pierwszy rzut oka. Dla praktycznej nauki języka istotne są trzy wnioski.

Po pierwsze, faktyczne minimum komunikacyjne jest stosunkowo małe. Wystarczy skupić się na:

  • 1000–2000 najczęstszych słów,
  • najważniejszych formach gramatycznych (czasy, przypadki, aspekty),
  • typowych schematach zdań.

Po drugie, zamiast obsesyjnego „zbierania słówek”, lepiej zrozumieć mechanizmy słowotwórcze. W polskim działa to całkiem przewidywalnie: kto rozumie, jak od „czytać” przejść do „czytanie, naczytać się, odczyt, przeczytany”, ma przewagę nad kimś, kto zna wszystko z osobnej listy.

Po trzecie, warto rozróżniać słownictwo pasywne i aktywne. To zupełnie normalne, że pasywnie rozumie się dużo więcej słów, niż jest się w stanie użyć. Sam fakt, że polszczyzna ma np. 300 tys. słów, nie oznacza wcale, że trzeba dobić do tej liczby, żeby swobodnie funkcjonować w języku.

Globalna liczba słów w języku polskim jest więc ciekawostką i ważnym tematem dla językoznawców. Dla uczących się ma ona głównie wymiar porządkujący: pokazuje, że język jest ogromny, ale da się po nim poruszać, operując całkiem rozsądnym pakietem tysięcy, a nie setek tysięcy jednostek.

Warto przeczytać