Індекс пошукової системи, пошукові машини

Реалізація пошуку в індексі пошукової машини ...

Недоліки зазначеного способу очевидні при використанні будь-яких мов, в яких, слова мають словоформи, тобто змінюються за числами, родами, відмінками, часів і ін. Користувач, починаючи пошук, змушений або згадувати, як точно виглядала шукана лексична одиниця, або сумлінно схиляти і відмінювати слова, щоб отримати повну парадигму.

Часткове вирішення проблеми - застосування шаблонів, наприклад, символу * (Астеріск) в кінці слова. Такий шаблон непогано підходить для англійської мови, де більшість словоформ утворюється за рахунок додавання закінчень -s, -ed та -ing; втім, але ця хитрість повністю не рятує від «сміття» в результаті пошуку. З українською мовою все йде набагато складніше.

Знайти за допомогою шаблону багато слова неможливо в принципі, а саме:

слова, у яких в різних формах змінюється основа: йти - йшов, погано - гірше, він - його, людина - люди, дитина - діти;

слова з великою кількістю словоформ. Привести список всіх словоформ українського дієслова (з дієприкметниками і дієсловах - до 250 різних форм) людині, у якого немає лінгвістичної освіти, дуже важко. Зрозуміти, чи всі словоформи з цього списку охоплюються шаблоном * - ще важче;

слова з швидкими голосними і чергуваннями (шукати - шукаю, вікно - вікон, рости - ріс);

короткі слова (з трьох-чотирьох букв): будинок, хор і т. п. У всіх мовах, в тому числі і в українському, існує загальна закономірність: чим коротше слово, тим частіше воно використовується. Застосування шаблону * для пошуку такої лексики призводить до великої кількості непотрібних посилань в списку знайдених документів.

Існує два протилежні підходи до реалізації пошуку. Перший - «демократичний», при якому пошук повинен бути настільки простий, щоб будь-який непідготовлений людина могла, не відчуваючи труднощів, сформулювати питання і незабаром отримати на нього прийнятний відповідь. Другий - «елітарний», при якому пошук є тонким інструментом, що вимагає кваліфікованого звернення.

Обидва підходи справедливі, що навіть зумовлено наявність у всіх великих пошукових машин в Інтернеті двох пошукових сторінок - для простого і розширеного пошуку.

Схожі статті