И

Информационный поиск

Информационный поиск (ИП) (англ. Information retrieval) — наука о поиске неструктурированной документальной информации. Особенно это относится к поиску информации в документах, поиск самих документов, добывания метаданных из документов, поиска текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет. Информационный поиск — большая междисциплинарная область науки, которая стоит на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, библиотечного дела, и статистики.

Автоматические системы информационного поиска используют для уменьшения так называемого «информационной перегрузки». Многие университеты и публичных библиотек используют системы ИП для облегчения доступа к книгам, журналов и других документов. Самым известным примером систем ИП можно назвать поисковые системы в Интернете.

Объектом информационного поиска является текстовая информация, изображения, аудио, видео информация.

С информационным поиском смыкаются проблемы:

  • рассылки информации (information routing)
  • сортировка информации (information filtering)
  • упорядочения (классификация) информации (information categorization)
  • отбор информации (information extraction).

Для информационного поиска разрабатывают:

  • алгоритмы информационного поиска (retrieval algorithms)
  • подходы информационного поиска (retrieval approaches)
  • стратегии информационного поиска (retrieval strategies).

Для его осуществления создают:

  • методы информационного поиска (retrieval utilities)
  • средства информационного поиска (information retrieval systems)
  • компьютерные поисковые программы (search engines).

К проблемам информационного поиска относятся вопросы:

  • представления данных, информации, знаний (data, information, knowledge)
  • представление информации в современных информационных хранилищах (representation of information)
  • многоязычный информационный поиск (cross-language information retrieval)
  • одновременный информационный поиск (parallel information retrieval)
  • распределенный информационный поиск (distributed information retrieval)
  • общественный информационный поиск (social information retrieval)

Направление информационный поиск относят к проблемам:

  • применимой (прикладной) лингвистики (applied linguistics)
  • обработки естественного языка (natural language processing)

Задачей информационного поиска является нахождение соответствующих (поисковому запросу) информационных объектов, или документов среди возможностью поиска материала. Задача для информационного поиска задается в виде информационного запроса (query), который может содержать слова, фразы или предложения или комбинацию их. Подавляющее большинство поисковых систем ориентирована на работу с поисковыми терминами — словами или словосочетаниями, которые поисковая система распознает как одно целое. Для осуществления информационного поиска нужно иметь сборник информационных объектов (библиотека, компьютерные файлы) и систему (алгоритм или программу), которая осуществляет поиск. Для осуществления информационного поиска пользователь (человек или информационная система) формирует информационный запрос (information query). Результатом поисковой работы есть список документов который заключается согласно определенному принципу. Такой список называют упорядоченным (ranked list, ranked results).

Поисковая система просматривает все доступные информационные единицы (документы) из сборника и отбирает документы соответствующие информационного запроса. Поскольку реальные поисковые системы находят не все соответствующие документы, говорят о точности поисковых систем (system accuracy). Результатом работы поисковой системы есть список отобранных документов (retrieved documents list), среди которых есть соответствующие запросу документы (relevant documents). Для идеальной поисковой системы список отобранных документов и соответствующих документов должны совпадать. В реальных поисковых системах в списках отобранных документов находятся и несоответствующие к запросу документы. Поэтому говорят об эффективности поисковых систем. Эффективность поисковых систем оценивается двумя параметрами: поисковая соответствие (precision) и поисковая качество (recall). Поисковая соответствие определяет долю соответствующих документов среди отобранных на запрос. Поисковая соответствие определяет качество полученного результата информационного поиска. Поисковая качество определяет долю полученных системой соответствующих запросу документов среди общего числа соответствующих запросу документов в сборнике. Общее число соответствующих запросу документов всегда неизвестен и может быть установлено только при полном просмотре сборки человеком. Кроме того работу поисковых систем оценивают быстродействием — время, за которое получают список соответствующих запросу документов.

Информационный поиск — большая междисциплинарная область науки, которая стоит на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, библиотечного дела, и статистики.

Автоматические системы информационного поиска используют для уменьшения так называемого «информационной перегрузки». Многие университеты и публичных библиотек используют системы ИП для облегчения доступа к книгам, журналов и других документов. Самым известным примером систем ИП можно назвать поисковые системы в Интернете.

Стратегии информационного поиска

Стратегии информационного поиска определяют степень сходства документов, рассматриваемых поисковому запросу. Степень сходства определяется согласно рабочей гипотезой: чем чаще поисковый термин встречается в документе, тем «видповиднишим» является этот документ поисковому запросу.

Стратегии информационного поиска разрабатываются не только для определения соответствия, но и для решения проблем, связанных с неоднозначностью языка — один и тот же срок может обозначать различные концепты (ключ в механике означает совсем не то, что в шифровании), один и тот же концепт может сказываться различными терминами (областной центр Львовской области называется Львов и Город Льва).

Стратегия информационного поиска алгоритм, который, просматривая набор документов (Д1, …, Дn), устанавливает их соответствие поискового запроса (ПО). Поскольку поисковый термин встречается в документах разное количество раз, можно говорить о разной степени соответствия поисковому запросу. Этот алгоритм вычисляет коэффициент соответствия (similarity coefficient) (КВ) для каждого документа КВ (ПО, Ди), где 1 ≤ i ≤ n.

Существуют такие стратегии информационного поиска: — с использованием векторно-пространственного представления (vector space model) поиск вероятности появления поискового термина в документе (probabilistic retrieval) — С построением языковой модели для каждого документа (language models) — С построением сети предположений, которая используется для установления соответствия документа поисковому запросу (inference network) — С булевыми индексированием, когда каждому поисковому срока присваивается своя «вес», что потом учитывается при построении упорядоченных списков документов (Boolean indexing) — С использования не проявленного семантического индексирования (latent semantic indexing) — С построением нейросетей (neural networks) — С использованием продуктивных алгоритмов, когда исходный поисковый запрос «эволюционно» видоизменяется (genetic algorithms) — С использованием нечетких множеств, когда документа ставится в соответствие нечеткое множество (fuzzy set retrieval).

Информационный поиск с помощью векторно-пространственного представления

Поисковый запрос и документы представляются в виде пространственных векторов Поисковая система отбирает документы, пространственные векторы которых подобные пространственного вектора поискового запроса. В основе векторно-пространственного представления документа лежит предположение, что содержание документа передается словами, в нем находятся. Пространственно-векторное представление строится для поискового запроса и для каждого документа. Пространственно-векторное представление документа — это вектор в n-мерном пространстве. N-мерное пространство это пространство, каждое измерение которого соответствует поисковому срока. Координаты конца вектора численно определяются тем, сколько раз поисковый термин встречается в документе. То есть каждый компонент вектора соответствует числу появления соответствующего срока в документе. Поисковая система вычисляет коэффициент соответствия (КВ) пространственно векторного представления документа в пространственно-векторного представления поискового запроса. Фактически поисковая система вычисляет угол между этими векторами. Наиболее подходящими являются документы, пространственно-векторное представление которых направлено туда же куда и в представления поискового запроса.

G. Salton, A. Wong, and CS Yang (1975), A vector space model for automatic indexing "Communications of the ACM", vol. 18 nr. 11 pages 613-620. "(The article in which the vector space model was first presented)"

Вероятностный поиск

Коэффициент соответствия документа поисковому запросу определяется на основе вероятности того, что документ соответствующим поисковому запросу. Присутствие или отсутствие поискового термина в документе используется для определения вероятности того, что документ соответствует информационном запросу. Определение вероятности базируется на предыдущих статистических данных о том, насколько вероятно, что документ, который содержит поисковый термин A, отвечать поисковому запросу, содержащему срок A. Предполагая, что условия поиска в поисковом запросе независимые, можно вычислять такую ​​вероятность для каждого поискового срока с поискового запроса. Общая вероятность соответствия документа вычисляется как произведение вероятностей соответствия каждого срока. Независимость поисковых терминов в поисковом запросе редко наблюдается в действительности, поэтому вычисления суммарной соответствии значительно усложняется, что увеличивает время информационного поиска. Кроме того, необходимо иметь предварительные данные о вхождении сроков в соответствующие запросу документы а также и в неподходящие к запросу документы.

Maron, ME, & Kuhns, JL (1960). On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 7 (3), 216-244.

Поиск с использованием языковых моделей

Языковые модели используются для предсказания появления того или иного слова в тексте. В информационном поиске используются статистические языковые модели для предсказания появится нужное слово (поисковый термин) в документе. Для каждого документа из сборника исчисляется вероятность появления в документе поисковых терминов. Согласно этому документу упорядочиваются в поисковом списке. Еще один подход предлагает построение вероятностной модели пошуковго запроса. То есть строится вероятностная модель появления тех или иных поисковых терминов в запросе Далее строится вероятностная модель запроса как совокупности независимых событий, где каждое событие — это появление того или иного срока в поисковом запросе. В этой модели мы можем учесть даже вероятности неявки определенных сроков.

Ponte, Jay M., and Croft, W. Bruce. A language modeling approach to information retrieval. In Proc. SIGIR, 1998.- pp. 275-281. ACM Press.

Алгоритмы принятия решений

Алгоритмы принятия решений используются для определения вероятности того, что документ будет соответствующим поискового запроса. Алгоритмы принятия решений применяются как дополнение к вероятностного поиска, для получения дополнительных доказательств того, что документ может соответствовать поисковому запросу. Метод основан на виокристанни известных зависимостей для построения неизвестных. Это позволяет кардинально снизить объем вычислений, которые необходимы для определения вероятности того или иного события.

Greiff Warren R., Croft B., Turtle H. PIC matrices: a computationally tractable class of probabilistic query operators. ACM Transactions on Information Systems (TOIS) Volume 17 Issue 4 (October 1999) p. 367 — 405

Расширенный Булев поиск

Обычный Булев поиск не имеет ничего общего с степенью соответствия документа поисковому запросу, и, соответственно, с составлением документов согласно этой соответствием. Документы или удовлетворяют информационный запрос, или нет. Те документы, которые удовлетворяют логический запрос попадают в список по очереди. Идея расширенного Булевого поиска заключается в создании возможностей для определения степени соответствия документов поисковому запросу. Это достигается за счет присвоения веса поисковым терминам. Вес сроков учитывается при построении списка соответствия документов к информационному запросу.

Fox Edward A., Salton G., Wu H. Extended Boolean information retrieval. Commun. of the ACM, Volume 26 Issue 11 (November 1983) г. 1 022 — 1036

Поиск по скрытым семантическим индексированием

Появление терминов в документе представляется с помощью матрицы срок-документ. Матрица приводится с помощью расписания по вырожденными матрицами для того, чтобы отделить «шум», так, что два семантически совместные документы расположены рядом в многомерном пространстве.

Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by latent semantic analysis. Journal of the American Society for Information Science (1990)

Поиск с использованием нейро-сетей

Узлы нейронной сети «активируются» поисковым запросом. Сила каждого связи нейронной сети передается документа и используется для вычисления коэффициента соответствия документа к пошуковго запроса. Для этого связям присваивается вес согласно заранее определенной соответствием или несоответствием документов.

Kwok KL A neural network for probabilistic information retrieval. ACM SIGIR Forum, Volume 23 (June 1989)

Поиск с использованием алгоритмов развития

Путем эволюции можно изменить начальный поисковый запрос. Первоначальный запрос используется с равноправными сроками, или со сроками, имеющих разный вес. Сгенерированный поисковый запрос остается, если он охватывает известные видпоивдни к исходному запросу документы, если нет — отвергается.

Hsinchun Chen Machine learning for information retrieval: Neural networks, symbolic learning, and genetic algorithms. Journal of the American Society for Information Science. Volume 46 Issue 3, Pages 194 — 216

Поиск с использованием нечетких множеств

Документ превращается в нечеткое множество (это множество, содержащее не только сам элемент но и число, показывающее степень принадлежности элемента множеству). Далее для каждого документа проведенного предварительно Булевого поиска добавляется информация получена из операций объединения, пересечения, комплементарности нечетких множеств, которая говорит о степени соответствия каждого документа поисковому запросу. Степень соответствия используется как коэффициент соответствия.

Изображения по теме

  • Информационный поиск
  • Информационный поиск
Показать больше

Похожие статьи

Добавить комментарий

Проверьте также
Закрыть
Кнопка «Наверх»
Закрыть
Закрыть