Система проглядає всі вказані нею тексти, перетворить кожне російське слово в нормальну форму (для іменників це - називний відмінок однини, для дієслів - невизначена форма і т.д.) і запам’ятовує докладну адресу кожного слова.
Алгоритми морфологічного розбору, якими ми займаємося, дозволяють проаналізувати слово, визначити його характеристики і знайти всі форми, наприклад: йти - йдеш - йшов; дитина - діти; вікно - вікон; відкликати - відкликали.
Яndex забезпечує індексацію одночасно з морфологічним розбором. Це дозволяє створювати компактний індекс - близько 30% початкових текстів, зберігаючи достатньо високу швидкість індексації - 1-2 Мб/мін. Така технологія дає можливість майже повного зняття омонімії на етапі індексації.
Морфологія базується на словнику з 90 тис. слів, до якого додані алгоритми словотворення, а також механізм побудови гіпотез для слів, отсутствующих в словнику. Створений і поповнюється словник імен власних.
Tags: інтернет, документ, можливість, пошук, сервер, система, слово