Професійний пошук в інтернеті повнота, достовірність, швидкість
Професійний пошук в Інтернеті: повнота, достовірність, швидкість
Цією статтею ми починаємо невелику серію публікацій, пов'язаних з питанням пошуку інформації в Інтернеті. Інтерес до нього не слабшає протягом усього часу існування Мережі. Однак наш кут зору на проблему буде дещо нетрадиційним - мова піде про професійному пошуку. Хотілося б уникнути пафосного звучання слова "професійний". Воно лише підкреслює той факт, що люди, для яких пошук інформації став частиною службових обов'язків, стикаються з проблемами, не властивими епізодичного, "любительського" пошуку. Їх природним бажанням стає подолати ці проблеми і виробити нові результативні підходи до вирішення пошукових задач.
Риси, властиві професійного пошуку
Отже, на відміну від ситуації, коли ви що-небудь шукайте для себе, професійний пошук передбачає виконання деякого замовлення, з витікаючими звідси зобов'язаннями перед замовником. Ці зобов'язання і є джерелом трьох основних вимог: контроль повноти охоплення ресурсів; контроль достовірності інформації, отриманої з Інтернету; висока швидкість проведення пошуку;
Так, якщо ви виступаєте в ролі замовника, то має право вимагати від пошуковика крім власне результатів, ще й деяких гарантій по зазначених вище пунктах. Такі гарантії, безумовно, може дати лише людина, непогано обізнаний про тонкощі розподілу і руху інформаційних потоків в Інтернеті.
Метою цієї та найближчих публікацій стане обговорення тих можливостей, якими володіє пошуковик, щоб досягти оптимальних показників по повноті, достовірності та швидкості виконання пошукових робіт. Спробуємо тепер більш предметно позначити існуючі проблеми
Контроль повноти охоплення ресурсів є закономірним вимогою, якщо ви вирішуєте задачу, протилежну тій, що звучить як "знайти хоч що-небудь".
Повномасштабний збір інформації з Інтернету з будь-якого питання в багатьох випадках виводить пошукача за межі широко освоєного Web-простору, в лоно telnet-доступних баз даних, регіональних телеконференцій і інших сховищ інформації. Знання всіх основних існуючих на сьогоднішній день типів ресурсів Мережі, розуміння технічної та тематичної специфіки їх інформаційного наповнення та особливостей доступу стає необхідною умовою успішного планування і проведення пошукових робіт.
Швидкість проведення пошуку в Мережі. якщо не брати до уваги технічні характеристики підключення користувача, залежить в основному від двох факторів. Це грамотне планування пошукової процедури і навички роботи з ресурсом вибраного типу. Під складанням плану пошукових робіт розуміється вибір пошукових сервісів та інструментів, що відповідають специфіці завдання і, що вкрай важливо, послідовності їх застосування в залежності від очікуваної результативності. Після отримання доступу до відповідного ресурсу на передній край висувається вміння швидко розібратися в його структурі і способах навігації. Моторика виконання дій, вміле поєднання пошукових засобів і можливостей обробки інформації локальної клієнтської програми і сервера для пошукача є необхідними навичками.
Матеріал цієї статті буде присвячений в основному питання повноти проведеного пошуку.
Контроль повноти охоплення ресурсів. Типи ресурсів Інтернет
Так чи інакше, сьогодні інформація в Інтернеті виявляється доступною із джерел різного типу. Планувати пошук без повного уявлення про їх спектрі і особливості функціонування неможливо. Перелік основних типів ресурсів, який можна використовувати як карту при плануванні пошукової процедури, наведено на рис.1. Фактично питання ставиться ширше - про основні способи подання, передачі та обробки інформації в Мережі.
Основні інформаційні та комунікаційні ресурси Інтернету
Рис.1. Основні інформаційні та комунікаційні ресурси Інтернету
Особливості доступу до ресурсів зазначеного типу обговорюються в багатьох посібниках. Корисний матеріал на цей рахунок міститься також у другому номері журналу КомпьютерПресс за цей рік. Обмежимося тут короткою характеристикою кожного типу, акцентуючи увагу на тій навантаженні, яку може нести на собі ресурс при проведенні пошуку в Мережі.
Ще кілька слів про чат-серверах. Як правило, деякий їх перелік вже зашитий в використовувану клієнтську програму, як, наприклад, в програмі Microsoft NetMeeting.
Рис.2. Приклад інтерфейсу, доступною по протоколу telnet бази даних бібліотеки Glasgow University (UK).
Гіпертекстова інформаційна система World Wide Web (WWW) і її технології на сьогоднішній день найбільш значні в Мережі і продовжують свій підйом. За своєю навігаційної картині WWW фактично скопіювала Gopher-ресурси, але слідства однієї дрібної деталі, мало хто міг передбачити. Ця деталь - використання Web-сторінки як легко створюваного складеного об'єкта, в тіло якого монтується простіші об'єкти, призначені для одночасного відображення. Те, що сьогодні в списку останніх присутні текст, гіперпосилання, графіка, мультимедіа, програмний код, діалогові форми і багато іншого в кінцевому підсумку і визначило широке комерційне використання WWW. Павутина змусила пошукові системи Web-простору тонко підлаштуватися під себе і фактично позначила ключову тендецію їх розвитку. Йдеться з одного боку про те, що при індексуванні ресурсів все більш детального опрацювання пошуковими системами піддаються поля Web-сторінок, що формуються контейнерами мови HTML. З іншого боку інтенсивно розвиваються ті елементи інформаційно-пошукових мов, які підтримують пошук усередині цих полів. Сьогодні можна констатувати глибоку інтеграцію пошукових систем і ресурсів WWW на базі єдиної технології. Крім того жахливий обсяг інформаційної бази WWW вперше з особливою гостротою поставив питання про необхідність паралельного існування цілого ряду ідентичних пошукових сервісів, які обслуговують інтереси користувачів.
Пошукові машини, або автоматичні індекси - глобальні, локальні, спеціалізовані (в середовищі WWW) представляють собою потужні інформаційно-пошукові системи, що розміщуються на серверах вільного доступу. Їх спеціальні програми-роботи, або павуки, в автоматичному режимі безперервно сканують інформацію Мережі на основі заданих алгоритмів, проводячи індексацію документів. В подальшому на основі створених індексних баз даних пошукові машини надають користувачеві доступ до розподіленої на вузлах Мережі інформації. Це реалізується через виконання пошукових запитів в рамках відповідного інтерфейсу. Останні дослідження можливостей пошукових машин, навіть найпотужніших з них, таких як AltaVista, або HotBot, показують, що реальна повнота охоплення ресурсів Всесвітньої Павутини окремої такою системою не перевищує 30%. Планування пошукової процедури в просторі WWW є нетривіальним, і його, безумовно, слід розглянути окремо.
Ресурси Інтернету через призму пошукових сервісів
Прагнення розробників осмислити інтереси споживача виглядає більш ніж природно. Однак ефективні підходи до вирішення пошукових задач криються якраз у зворотному проникненні - детальному осмисленні пошукачем інтересів, намірів і технічних рішень, культивованих розробником. У цьому сенсі при розгляді основних типів ресурсів Мережі ми прагнули згадати і ті, які поки привабливі більшою мірою для постачальників інформації. Роль деяких з них для задач пошуку чи не здається, на перший погляд, суттєвою, але такий стан може змінитися.
Історія розвитку Інтернет-технологій показує, що стан пошукових сервісів, які обслуговують інформаційний ресурс певного типу, безпосередньо пов'язане з фазою його життєвого циклу (див. Рис. 3).
Рис.3. Зв'язок життєвого циклу інформаційного ресурсу Мережі з динамікою розвитку супутніх пошукових сервісів.
Коротко пояснимо основні елементи схеми життєвого циклу. Каталогізація як оформлення і укрупнення колекцій посилань на ресурси даного типу слід негайно за становленням ресурсу. Сервіс автоматичного індексування починає зазвичай формуватися лише в разі досягнення інформаційної масою ресурсу деякого критичного обсягу. Після цього тече фаза конкуренції ідентичних пошукових сервісів - каталогів та індексів, які обслуговують ресурс. Канонізація фактично припиняє цей процес, віддаючи пальму першості одному або декількох пошукових системах. Заключна стадія - згасання ресурсу - характеризується активною витоком інформаційної маси в полі функціонування ресурсів іншого типу аж до повного зникнення.