Tokenizace (Tokenization)
Tokenizace je základní krok v NLP, při kterém se text rozděluje na menší jednotky – tzv. tokeny (např. slova, fráze nebo znaky). Například věta „Umělá inteligence mění svět“ se tokenizuje na [„Umělá“, „inteligence“, „mění“, „svět“]. Tokenizace je důležitá pro pochopení struktury textu a následné zpracování modely strojového učení.