інформаційний пошук

інформаційний пошук

Матеріал з Вікіпедії - вільної енциклопедії
Інформаційний пошук (англ. Information retrieval) - процес пошуку неструктурованої документальної інформації і наука про це.

Інформаційний пошук як процес

Пошук інформації являє собою процес виявлення в деякій множині документів (текстів) всіх тих, які присвячені зазначеної теми (предмету), задовольняють заздалегідь визначеним умовам пошуку (запиту) або містять необхідні (відповідні інформаційної потреби) факти. відомості, дані.

Процес пошуку включає послідовність операцій, спрямованих на збір, обробку та надання необхідної інформації зацікавленим особам.

У загальному випадку пошук інформації складається з чотирьох етапів:

  • визначення (уточнення) інформаційної потреби і формулювання інформаційного запиту;
  • визначення сукупності можливих власників інформаційних масивів (джерел);
  • вилучення інформації з виявлених інформаційних масивів;
  • ознайомлення з отриманою інформацією і оцінка результатів пошуку.

Повнотекстовий пошук - пошук по всьому вмісту документа. Приклад повнотекстового пошуку - будь-який інтернет-пошуковик, наприклад www.yandex.ru. www.google.com. Як правило, повнотекстовий пошук для прискорення пошуку використовує попередньо побудовані індекси. Найбільш поширеною технологією для індексів повнотекстового пошуку є інвертовані індекси.

Процес пошуку документів за суто формальними ознаками, зазначеним у запиті.
Для здійснення потрібні такі умови:

Процес пошуку документів за їх змістом.
умови:

  • Переклад змісту документів і запитів з природної мови на інформаційно-пошукова мова і складання рейтингів образів документа і запиту.
  • Складання пошукового опису, в якому вказується додаткова умова пошуку.

Процес пошуку в сховище інформаційно-пошукової системи первинних документів або в базі даних вторинних документів, що відповідають запиту користувача.

Два види документального пошуку:

  1. Бібліотечний, спрямований на знаходження первинних документів.
  2. Бібліографічний, спрямований на знаходження відомостей про документи, представлених у вигляді бібліографічних записів.

Процес пошуку фактів, відповідних інформаційним запитом.
До фактографическим даними відносяться відомості, витягнуті з документів, як первинних, так і вторинних і одержувані безпосередньо з джерел їх виникнення.

Розрізняють два види:

  1. Документально-фактографічний, полягає в пошуку в документах фрагментів тексту, що містять факти.
  2. Фактологічний (опис фактів), що передбачає створення нових фактографічних описів в процесі пошуку шляхом логічної переробки знайденої фактографічної інформації.

Інформаційний пошук як наука

Пошук інформації - процес виявлення в масиві інформації записів, які відповідають заздалегідь визначеним умовам пошуку або запиту.

Існує деяка плутанина, пов'язана з поняттями пошуку даних, пошуку документів, інформаційного пошуку і текстового пошуку. Проте, кожне з цих напрямків дослідження має власні методиками, практичними напрацюваннями та літературою.

Запит і об'єкт запиту

Говорячи про системи ІП, вживають терміни запит і об'єкт запиту.

Запит - це формалізований спосіб вираження інформаційних потреб користувачем системи. Для вираження інформаційної потреби використовується мова пошукових запитів. синтаксис варіюється від системи до системи. Крім спеціальної мови запитів. сучасні пошукові системи дозволяють вводити запит на природній мові.

Об'єкт запиту - це інформаційна сутність, яка зберігається в базі автоматизованої системи пошуку. Незважаючи на те, що найбільш поширеним об'єктом запиту є текстовий документ. не існує ніяких принципових обмежень. Зокрема, можливий пошук зображень, музики та іншого мультимедіа інформації. Процес занесення об'єктів пошуку в ІПС називається індексацією. Далеко не завжди ІПС зберігає точну копію об'єкта, нерідко замість неї зберігається сурогат.

Завдання інформаційного пошуку

Центральна завдання ІП - допомогти користувачеві задовольнити його інформаційну потребу. Так як описати інформаційні потреби користувача технічно непросто, вони формулюються як деякий запит, який представляє з себе набір ключових слів, що характеризує те, що шукає користувач.

Класична задача ІП, з якої почався розвиток цієї галузі, - це пошук документів, що задовольняють запиту, в рамках деякої статичної колекції документів. Але список завдань ІП постійно розширюється і тепер включає:

Існує багато способів оцінити наскільки добре документи, знайдені ІПС, відповідають запиту. На жаль, поняття ступеня відповідності запиту, або іншими словами релевантності. є суб'єктивним поняттям, а ступінь відповідності залежить від конкретної людини, який оцінює результати виконання запиту.

Визначається як відношення числа релевантних документів, знайдених ІПС, до загальної кількості знайдених документів:

,

де Drel - це безліч релевантних документів в базі, а Dretr - безліч документів, знайдених системою. За результатами досліджень компанії, яка оцінює релевантність показників основних українських і зарубіжних пошукових систем.

Ставлення числа знайдених релевантних документів, до загальної кількості релевантних документів в базі:

,

де Drel - це безліч релевантних документів в базі, а Dretr - безліч документів, знайдених системою.

Випадання характеризує ймовірність знаходження нерелевантного ресурсу і визначається, як відношення числа знайдених нерелевантних документів до загальної кількості нерелевантних документів в базі:

,

де Dnrel - це множина не релевантних документів в базі, а Dretr - безліч документів, знайдених системою.

F-міра (F-measure, міра Ван Різберг)

Іноді буває корисно об'єднати точність і повноту в одній усередненої величиною. Для цієї мети середнє арифметичне не підходить, так як, наприклад, пошуковій системі досить повернути взагалі всі документи, щоб забезпечити рівну одиниці повноту при близькому до нуля точності, і середнє арифметичне точності і повноти буде не менше 1/2. Середнє гармонійне не володіє цим недоліком, оскільки при великому відміну усереднює значень наближається до мінімального з них.

Тому хорошої заходом для спільної оцінки точності і повноти є F-міра. яка визначається як зважене гармонійне середнє точності P і повноти R:

Зазвичай F -заходи записують у вигляді

При α = 1/2 або β = 1 F -заходи надає однакову вагу точності і повноти і називається збалансованою або F1 -заходи (в нижньому індексі прийнято вказувати величину β), вираз для неї спрощується

Використання збалансованої F -заходи не є обов'язковим: при 0 <β <1 предпочтение отдаётся точности, а при β> 1 більшої ваги набуває повнота.

Схожі статті