пошук інформації
Пошук інформації - процес виявлення і відбору по заданих змістовним і формальним ознаками документів або даних з інформаційних потоків або масивів.
Проблема пошуку інформації є найбільш пророблений в теорії і практиці інформатики.
У процесі використання інформації для виконання різноманітних завдань члени суспільства (художники, письменники, вчені і т. П.) Виконують інформаційний пошук - дії, методи і процедури, що дозволяють здійснювати відбір певної інформації з масиву даних, задовольняючи тим самим свою інформаційну потребу.
Характеристики предметної області, значення яких необхідно встановити для виконання поставленого завдання в практичній діяльності, називають інформаційною потребою.
Інформаційний пошук забезпечується інформаційно-пошуковою системою (ІПС) - сукупністю засобів і методів, організованої в функціональну систему, що виконує зберігання і пошук інформації. Для ІПС важливим є інформаційний запит, що надходить від споживача, - текстове вираження інформаційної потреби.
Суть інформаційного пошуку полягає у виділенні в деякій множині (інформаційному масиві) підмножини релевантних документів або даних, що відповідають запиту споживача. Інформаційний пошук є реакцією на інформаційну потребу користувача, виражену в інформаційному запиті. Процес інформаційного пошуку на найзагальнішому рівні описується наступним алгоритмом:
1. Формулювання запиту, виділення в його структурі основних пошукових ознак: ключових слів і понять, предметів і аспектів пошуку.
2. Ідентифікація даних: порівняння пошукових ознак з даними в інформаційному (пошуковому) масиві.
3. Відбір: перевірка виявленого подмассіва документів або даних на відповідність заданим критеріям пошуку.
4. Структурування (впорядкування) документів або даних відповідно до логіки запиту.
Інформаційний пошук є складним процесом, що включає безліч процедур семантичної обробки інформації та запитів, від якої залежить його ефективність. Це досягається за допомогою формулювання пошукового розпорядження, т. Е. Тексту, що включає пошуковий образ запиту і вказівки про логічних операції, що підлягають виконанню в процесі інформаційного пошуку.
Інформаційний пошук полягає в порівнянні пошукового образу документа з пошуковим приписом. При досить хорошому їх збігу вважається, що документ, який має даний пошуковий образ, задовольняє даній інформаційним запитом. Для об'єктивної оцінки відповідності пошукового образу пошуковому припису використовуються спеціальні критерії, звані критеріями видачі. Критерій видачі - сукупність ознак, за якими визначається ступінь відповідності пошукового образу документа пошуковому припису і приймається рішення про видачу або невидачу даного документа у відповідь на інформаційний запит.
Відповідність отриманої інформації інформаційним запитом називають релевантність. У тих випадках, коли споживач інформації нечітко висловлює свої інформаційні потреби в інформаційному запиті, релевантна інформація не буде повною мірою відповідати інформаційним потребам. Кажуть, що інформація не має властивість пертінентності. Таким чином, відповідність отриманої інформації інформаційної потреби називається пертінентние.
Мал. 19. Класифікація ІПМ
Процес вираження основного змісту елементів інформації (складання пошукового образу) за допомогою інформаційно-пошукової мови називається індексуванням.
Залежно від використовуваного ІПМ, розрізняють види індексування.
Класифікаційне індексування (систематизація) - привласнення даними або документами класифікаційних індексів відповідно до правил якого-небудь класифікаційної ІПМ.
Предметне індексування - індексування предметного змісту документів.
Вільне індексування - індексування, технологія якого не передбачає заміну ключових слів тексту відповідно до рекомендацій спеціального словника.
Координатне індексування - індексування, що передбачає багатоаспектне вираження основного змісту документа або смислового змісту інформаційного запиту безліччю ключових слів або дескрипторів.
Фактографічне індексування - індексування, що передбачає відображення в пошуковому образі документа конкретних відомостей (фактів).
Автоматизоване індексування - індексування, технологія якого передбачає використання формальних процедур, що здійснюються за допомогою обчислювальної техніки, і включає застосування інтелектуальних процедур при прийнятті основних рішень про склад пошукового образу.
Автоматичне індексування: індексування, технологія якого передбачає використання тільки формальних процедур обробки тексту, здійснюваних за допомогою обчислювальної техніки.
На практиці найбільш часто зустрічаються три типи пошукових запитів.
Тематичний запит - це заявка на підбір документів з певної теми.
При фактографічному запиті потрібні довідки типу консультації, наприклад розшифровка умовних позначень, час життя тієї чи іншої людини, значення фізико-хімічних констант і т. П.
Реальні ІПС зазвичай спеціалізуються на задоволенні одного (іноді кількох) типу запитів різними видами інформаційного пошуку, що відрізняється цілями, засобами і об'єктом пошуку.
Документальний пошук - це інформаційний пошук, при якому об'єктами пошуку є документи. Документальний пошук з використанням ЕОМ називається автоматизованим документальним пошуком.
Фактографический пошук - це інформаційний пошук, який має на меті знаходження фактографічних описів, релевантних отриманим запитом. Фактографический пошук має ряд відмінностей від документального пошуку. Документальна система видає безліч документів, релевантних запиту, надаючи споживачеві вибір фактичних даних з цих документів. Фактографічні ІПС позбавляють споживача від цієї процедури, спрямовуючи йому опис цікавить його факту.
Інформаційний пошук по разовим інформаційними запитами в раніше накопичений інформаційному масиві називають ретроспективним пошуком. Пошук проводиться у всьому масиві елементів інформації з даної тематики.
Інформаційний пошук, при якому інформаційний запит формується за допомогою булевских операторів, називають булевих пошуком.
В сучасних ІПС інформаційний пошук, як правило, реалізується з використанням засобів обчислювальної техніки, такий пошук інформації називається автоматизованим інформаційним пошуком. Дамо визначення основних видів автоматизованого інформаційного пошуку.
Під пошуком природною мовою розуміють автоматизований інформаційний пошук, для якого інформаційний запит формулюється на природній мові.
Автоматизований документальний пошук, при якому в якості пошукового образу документа використовується його повний текст або суттєві частини тексту, є повнотекстових пошуком.
Ефективність інформаційного пошуку в більшій мірі залежить від сформульованого інформаційного запиту, який повинен з максимальною повнотою і точністю відображати інформаційну потребу користувача. Для цього використовують діалоговий режим інформаційного пошуку. Автоматизований інформаційний пошук, при якому користувач автоматизованої системи може формулювати інформаційні запити в діалоговому режимі, коригувати їх у процес пошуку і отримувати проміжні результати називають діалоговим пошуком.
Існує і пакетний режим пошуку, який реалізується за допомогою пакетного пошуку, тобто автоматизованого інформаційного пошуку, при якому інформаційні запити накопичуються в спеціальному масиві для подальшої спільної обробки.
Оцінка якості інформаційного пошуку здійснюється на основі семантичних показників, т. Е. Його здатності знаходити елементи інформації релевантні інформаційним запитом. Результати інформаційного пошуку оцінюються за такими семантичним показниками:
Коефіцієнт повноти - відношення числа знайдених релевантних документів до загальної кількості релевантних документів, наявних в інформаційному масиві.
Коефіцієнт точності - відношення числа знайдених релевантних до загальної кількості документів у видачі.
Коефіцієнт шуму - відношення числа нерелевантних документів у видачі до загальної кількості документів у видачі (зворотний до коефіцієнта точності).
Коефіцієнт помилкової видачі - відношення числа нерелевантних документів у видачі до загальної кількості нерелевантних документів в базі даних.
Коефіцієнт мовчання - відношення числа небачених нерелевантних документів до загальної кількості релевантних документів в базі даних.
Формули для розрахунку цих показників виведені з таблиці, що представляє собою розбиття інформаційного масиву за ознаками релевантності даному інформаційним запитом.
У таблиці використовуються наступні позначення: А - безліч релевантних і виданих документів; В - безліч нерелевантних, але виданих документів; З - безліч релевантних, але не виданих документів; D - безліч нерелевантних і небачених документів.