Пошукові системи Огляд


Система проглядає всі вказані нею тексти, перетворить кожне російське слово в нормальну форму (для іменників це - називний відмінок однини, для дієслів - невизначена форма і т.д.) і запам’ятовує докладну адресу кожного слова.
Алгоритми морфологічного розбору, якими ми займаємося, дозволяють проаналізувати слово, визначити його характеристики і знайти всі форми, наприклад: йти - йдеш - йшов; дитина - діти; вікно - вікон; відкликати - відкликали.

gse520

Яndex забезпечує індексацію одночасно з морфологічним розбором. Це дозволяє створювати компактний індекс - близько 30% початкових текстів, зберігаючи достатньо високу швидкість індексації - 1-2 Мб/мін. Така технологія дає можливість майже повного зняття омонімії на етапі індексації.

Морфологія базується на словнику з 90 тис. слів, до якого додані алгоритми словотворення, а також механізм побудови гіпотез для слів, отсутствующих в словнику. Створений і поповнюється словник імен власних.

Джерело: studentochka.ru


Tags: , , , , , ,

Загальне


Схожі записи

This entry was posted on Friday, March 6th, 2009 at 09:15 and is filed under Загальне. You can follow any responses to this entry through the feed. Both comments and pings are currently closed.