Що таке пошуковий індекс
Вам потрібно знайти в інтернеті інформацію, і ви, природно, звертаєтеся до пошукових систем. Однак вам не зовсім зрозуміло, як вони працюють. Зокрема, вас дивує, чому деякі сайти знаходяться у верхніх рядках, відразу кидаються в очі, а деякі засунуті кудись далеко, доводиться довго перегортати і напружувати зір.
Також у вас може викликати подив той факт, що вищевказані системи пропонують перейти на ресурси, яких давно вже не існує. Був портал півроку тому - і його привид, як і раніше присутня в мережі. Загалом, будемо розбиратися, що до чого.
Пошукові системи бувають двох видів: справжні і не дуже. Ті, які не дуже, самі нічого не роблять, тільки запускають так звані метапоісковая машини і користуються результатами роботи справжніх. Так що краще поговоримо про справжні. Наприклад, про Яндексі. Google, Bing, Yahoo! (Знак оклику є частиною назви).
Припустимо, хтось створив сайт. Наповнив його якимось вмістом і роздав посилання, вказавши їх в різних блогах, на форумах і взагалі де тільки можна. Спеціальна програма, яка називається «павук» або «робот» (скорочено «бот», чи то пак «bot»), щодня запускається пошуковою системою в інтернет, щоб дізнатися все новеньке, що з'явилося завдяки старанням невгамовних людей.
В першу чергу робота (бота) цікавлять оригінальні тексти, які не скопійовані звідки-небудь з інших сайтів. Мовою веб-майстрів вони називаються унікальними. Хоча, звичайно, стовідсоткової оригінальності ніхто не вимагає, можна вставляти цитати, традиційно сформовані словосполучення, приказки, прислів'я і таке інше. Головне, щоб чужого було не дуже багато.
Яка користь від кеша? По-перше, завдяки йому пошуковій системі не доводиться кожен раз обшарювати інтернет, відповідаючи на будь-який запит. Тому все працює майже миттєво.
По-друге, якщо оригінальна сторінка в мережі вже наказала довго жити, є ймовірність того, що відомості все ж будуть зберігатися в кеші ще кілька місяців. Поки господарі системи не вирішать, що пора влаштовувати генеральне прибирання і виганяти з серверів всіх «привидів», марно займають місце.
По-третє, уявіть собі, що оригінальна сторінка заражена який-небудь капость (iframe автоматично завантажує віруси з нехороших сайтів, шкідливий скрипт-експлойт використовує недоліки браузерів для злому оних, Adobe Flash Player атакує допомогою захованого в його об'єктах Action Script).
І Яндекс пише попередження, мовляв, не заходьте туди, якщо не є самогубцем чи мазохістом. (Хоча, звичайно, пише іншими словами, більш дипломатично.) При цьому пропонує подивитися ту ж саму сторінку, збережену в кеші і нічим не заражену. Користь очевидна.
У системи кешування є і недоліки. Ні, не гігантський обсяг даних, це не проблема, сучасні дата-центри здатні зберігати у себе весь інтернет (що фактично і робить Google). Вся справа в приватності.
Припустимо, ви створили блог, написали там щось, а потім схаменулися і видалили. Але якщо текст був проіндексований, то схаменулися надто пізно: при бажанні все можна витягти з кешу пошукових систем. І так триватиме доти, поки кеш не очистите.
Нерідко пошукові роботи влазять туди, куди їх не кликали. Раніше таким любили займатися пошукові програми від Google, поки їм не вправили мізки.
Втім, вправили не остаточна, і по сей день іноді можна наштовхнутися на записи в блогах, створених в приватному режимі, скачати фотографії, що викладаються тільки для друзів, ну і так далі. (Хоча, звичайно, це проблема, скоріше, не роботів, а безглуздих розробників сайтів.)
Тут, звичайно. Яндекс надійшов розумніший за всіх інших: він не змушує переходити на сайт з картинкою (адже ресурс може бути зараженим!). Точно так само діє і система Nigma.ru. Натиснули на «прев'ю» - і отримали тільки зображення, а не всю його сторінку у фреймі, як на Google, Yahoo! і Bing.
Однак повернемося до текстів, в яких міститься основний обсяг корисної інформації. У кожної пошукової системи є команда модераторів. Вони виправляють те, з чим не впоралися роботи.
Тому в справу вступає інша людина, який вручну видаляє погані ресурси з індексу. Випилює повністю, щоб і духу не залишилося. І забороняє програмі індексувати їх повторно.
Відповідно, якщо ви намірилися підзаробити, розміщуючи на своєму сайті або в блозі статті та тикаючи посилання, то такий бізнес приречений на провал.
Звичайно, якщо посилань багато, то це погано: такі ресурси пошуковими роботами зневажають. Але якщо їх не більше чотирьох-п'яти на сторінку, то все в порядку. Адже головне - їх якість. У сенсі, щоб вони вели на пристойні, шановні сайти. В такому випадку ніякого зниження рейтингу не трапиться. Можливо, навіть навпаки.
Є ще один момент. Верхні рядки завжди будуть займати не просто пристойні сайти, але сайти релевантні - найбільш відповідні запитаної користувачем інформації. Тобто, якщо ви шукаєте «браузер Firefox», то на першому місці буде офіційний сайт розробника, організації Mozilla.
До речі, саме на такі ресурси і можна сміливо ставити посилання, не побоюючись негативних наслідків.
Тепер ви розумієте, наскільки все непросто. Та легкість, з якою Яндекс або Google видає інформацію, насправді є результатом досить серйозної і копіткої роботи.
Наостанок згадаємо про те, що можна використовувати «Розширений пошук». Вказати, на якому саме сайті ви хочете виявити бажані відомості. Виставити обмеження, щоб вам не вивалювалося все підряд. Або хоча б укласти фразу в лапки, щоб знайти текст з конкретним поєднанням слів, що йдуть підряд, а не розкиданих по сторінці.
Яким би складним і мудрованим не був механізм пошуку, а освоїти методи роботи дуже легко. Адже все це створюється для простих людей.