К

Колаборативних фильтрация

Колаборативних фильтрация, совместная фильтрация (англ. Collaborative filtering) (КФ) — метод, используемый некоторыми рекомендательными системами. Совместная фильтрация имеет два значения: узкое и более общее. В целом, общая фильтрация — процесс фильтрации информации или образцов с помощью методов с участием сотрудничества между несколькими агентами, точками зрения, источниками данных и т. Д. Применение совместной фильтрации, как правило, связано с очень большими наборами данных. Совместные методы фильтрации были применены к различным видам данных, включая: зондирование и мониторинг данных, таких как в разведке полезных ископаемых, охраны окружающей зондирования на больших площадях или нескольких датчиков; финансовые данные, такие как институты финансовых услуг, объединяющих много финансовых источников; или в электронной коммерции и веб-приложениях, где акцент делается на пользовательских данных и т. д. В конце этой дискуссии основное внимание на совместной фильтрации сосредоточена на пользователе данных, хотя некоторые из методов и подходов могут применяться к другим основным программ.

В более новом значении колаборативних фильтрация — это один из методов построения прогноза в рекомендательных системах, который использует известные преимущества (оценки) группы пользователей для прогнозирования неизвестных преимуществ другого пользователя. Его основное предположение заключается в следующем: те, кто одинаково оценивали любые предметы в прошлом, склонны давать похожие оценки других предметов и в будущем. Например, с помощью колаборативних фильтрации музыкальный приложение способно прогнозировать, какая музыка понравится пользователю, имея неполный список его преимуществ (симпатий и антипатий). Прогнозы составляются индивидуально для каждого пользователя, хотя используемая информация собрана от многих участников. Тем самым колаборативних фильтрация отличается от более простого подхода, дает усредненную оценку для каждого объекта интереса, например, основанный на количестве поданных за него голосов. Исследования в данной области активно ведутся и в наше время, что также объясняется и наличием нерешенных проблем в колаборативний фильтрации.

Описание

В век информационного взрыва такие методы создания персонализированных рекомендаций, как колаборативних фильтрация, очень полезны, поскольку количество объектов даже в одной категории (такой, как фильмы, музыка, книги, новости, веб-сайты) стала настолько большой, что отдельная человек не способна пересмотреть их все, чтобы выбрать подходящие.

Системы колаборативних фильтрации обычно применяют двухступенчатую схему:

  1. Находят тех, кто разделяет оценочные суждения «активного» (прогнозируемого) пользователя.
  2. Используют оценки похоже мыслящих людей, найденных на первом шаге, для вычисления прогноза.

Алгоритм, описанный выше, построен по пользователей системы.

Существует и альтернативный алгоритм, изобретенный Amazon, построенный по предметам (продуктов) в системе. Этот алгоритм включает в себя следующие шаги:

  1. Строим матрицу, которая определяет отношения между парами предметов, для нахождения похожих предметов.
  2. Используя построенную матрицу и информацию о пользователе, строим прогнозы его оценок.

Для примера можно посмотреть семейство алгоритмов Slope One

Также существует другая форма колаборативних фильтрации, основанной на скрытом наблюдении обычного поведения пользователя (в противоположность явной, которая собирает оценки). В этих системах вы наблюдаете, как поступил данный пользователь, и как другие (какую музыку они слушали, какие видео посмотрели, какие композиции приобрели), и используете полученные данные, чтобы предсказать поведение пользователя в будущем, или предсказать, как пользователь хотел бы поступить при наличии определенной возможности. Эти предсказания должны быть составлены в соответствии бизнес-логике, потому что бесполезно предлагать потребителю купить музыкальный файл, который у него уже есть.

Типы колаборативних фильтрации

Основанные на памяти

Этот подход использует отзывами данных для расчета сходства между пользователями или предметами. Это используется для выработки рекомендаций. Это было начальным подходом, который используется во многих коммерческих системах. Он эффективен и прост в реализации. Типичными примерами такого подхода является CF и пункт на основе топ-N рекомендации. Например, в основе пользовательских подходов, стоимость оценки пользователя u дает пункта «i» рассчитанную как совокупность рейтинга некоторых подобных пользователей пункта:

Колаборативних фильтрация

где «U» обозначает совокупность лучших пользователей N, которые наиболее близки к пользователю u, который по рейтингу пункт «i». Некоторые примеры агрегации:

Колаборативних фильтрация
Колаборативних фильтрация
Колаборативних фильтрация

где k — нормирующий множитель, определяется так же является средняя оценка пользователя ü для всех элементов, оцененных и. Алгоритм основан на окраине вычисляет подобие между двумя пользователями или предметами, производит прогноз для пользователя, принимая взвешенное среднее всех оценок. Вычисления сходства между элементами или пользователями являются важной частью этого подхода. Множественные меры, такие, как корреляции Пирсона и вектор косинус сходства, основанной для этого использования.

Корреляции Пирсона — сходство двух пользователей X, Y определяется как

Колаборативних фильтрация

где Ixy это набор элементов, оцененных пользователем х и в пользователем.

Подход косинус основы определяет косинус-сходство между двумя пользователями х и у, как:

Колаборативних фильтрация

На основе алгоритма топ-Н рекомендации пользователь использует векторную модель сходства на основе определения K — большинству подобных пользователей к активному пользователя. После того, как найдены наиболее похожи пользователи, их соответствующие матрицы агрегируются для определения рекомендуемого набора элементов. Популярный метод, чтобы найти похожих пользователей — Locality-sensitive hashing, который реализует механизм ближайших соседей в линейном времени.

Преимущества этого подхода включают в себя: ожидаемость результатов, является важным аспектом рекомендательных систем; простое создание и использование; простое облегчение новых данных; хорошая масштабируемость с соавторами рейтинговых пунктов.

Есть также несколько недостатков при таком подходе. Его производительность снижается, когда получают разреженные данные, часто встречается с веб-связанными между собой пунктов. Это затрудняет масштабируемость такого подхода и создает проблемы с большими наборами данных. Хотя это может эффективно обрабатывать новых пользователей, так как она опирается на структуры данных, добавляя новые элементы, становится более сложным, что, как правило, опирается представлениям о конкретной составляющей векторного пространства. Добавление новых элементов требует включения нового пункта и повторного включения всех элементов в структуре.

Основанные на модели

Существует 2 основных метода, используемых при создании рекомендательных систем: колаборативних фильтрация и контентно-основаны рекомендации. Также на практике используется гибридный метод построения рекомендаций, включающий с себя смесь вышеперечисленных методов. Колаборативних фильтрация, в свою очередь, также делится на три основных подхода (типы):

Основан на соседстве подход

Этот подход является исторически первым в колаборативнии фильтрации и используется во многих рекомендательных системах. В данном подходе для активного пользователя подбирается подгруппа пользователей сходных с ним. Комбинация весов и оценок подгруппы используется для прогноза оценок активного пользователя. У данного подхода можно выделить следующие основные шаги:

  1. Присвоить вес каждому пользователю с учетом сходства его оценок и активного пользователя.
  2. Выбрать нескольких пользователей, которые имеют максимальный вес, то есть максимально похожи на активного пользователя. Данная группа пользователей и называется соседями.
  3. Вычислить предсказания оценок активного пользователя для неоцененных им предметов с учетом весов и оценок соседей.
Основанный на модели подход

Данный подход дает рекомендации, измеряя параметры статистических моделей для оценок пользователей, построенных с помощью таких методов как, метод баесовских сетей, кластеризации, латентно-семантической модели, такие как сингулярный расписание, вероятностный латентно-семантический анализ, скрытый распределение Дирихле и марковский процесс принятия решений на основе моделей. Модели разрабатываются с использованием интеллектуального анализа данных, алгоритмов машинного обучения, чтобы найти закономерности на основе обучающих данных. Число параметров в модели может быть уменьшена в зависимости от типа с помощью метода главных компонент.

Этот подход является более комплексным и дает более точные прогнозы, поскольку помогает раскрыть латентные факторы, объясняющие наблюдаемые оценки.

Данный подход имеет ряд преимуществ. Он обрабатывает разреженные матрицы лучше, чем подход основан на соседстве, что в свою очередь помогает с масштабностью больших наборов данных.

Недостатки этого подхода заключаются в «дорогом» создании модели. Необходим компромисс между точностью и размером модели, так как можно потерять полезную информацию в связи с сокращением моделей.

Гибридный подход

Данный подход объединяет в себе подход основан на соседстве и основан на модели. Гибридный подход является наиболее распространенным при разработке рекомендательных систем для коммерческих сайтов, так как он помогает преодолеть ограничения начального оригинального подхода (основанного на соседстве) и улучшить качество прогнозов. Этот подход также позволяет преодолеть проблему разреженности данных [⇨] и потери информации. Однако данный подход сложный и дорогой в реализации и применении.

Проблемы

Разреженность данных

Как правило, большинство коммерческих рекомендательных систем основана на большом количестве данных (товаров), в то время как большинство пользователей не ставит оценки товарам. В результате этого матрица «предмет пользователь» получается очень большой и разреженной, что представляет проблемы при исчислении рекомендаций. Эта проблема особенно остра для новых, только что созданных систем. Также разреженность данных усиливает проблему холодного старта.

Масштабируемость

С увеличением количества пользователей в системе, появляется проблема масштабируемости. Например, имея 10000000 покупателей и миллион предметов, алгоритм колаборативних фильтрации со сложностью равной уже слишком сложный для расчетов. Также, многие системы должны моментально реагировать на онлайн запросы всех пользователей, независимо от истории их покупок и оценок, требует еще большей масштабируемости.

Проблема холодного старта

Новые предметы или пользователи представляют большую проблему для рекомендательных систем. Частично проблему помогает решить подход, основанный на анализе содержания, так как он полагается не на оценки, а на атрибуты, помогает включать новые предметы в рекомендации для пользователей. Однако проблему с предоставлением рекомендации для нового пользователя решить сложнее.

Синонимия

Синонимом называется тенденция похожих и одинаковых предметов иметь разные имена. Большинство рекомендательных систем не способны обнаружить эти скрытые связи и поэтому относятся к этим предметам как к различным. Например, «фильмы для детей» и «детский фильм» относятся к одному жанру, но система воспринимает их как разные.

Мошенничество

В рекомендательных системах, где каждый может ставить оценки, люди могут давать положительные оценки своим предметам и плохие своим конкурентам. Также, рекомендательные системы стали сильно влиять на продажи и прибыль, с тех пор как получили широкое применение в коммерческих сайтах. Это приводит к тому, что недобросовестные поставщики пытаются мошенническим образом поднимать рейтинг своих продуктов и снижать рейтинг свои конкурентов.

Разнообразие

Колаборативних фильтрация сначала признана увеличить разнообразие, чтобы позволять открывать пользователям новые продукты из бесчисленного множества. Однако некоторые алгоритмы, в частности основные на продажах и рейтингах, создают очень сложные условия для продвижения новых и малоизвестных продуктов, так как их замещают популярные продукты, которые давно находятся на рынке. Это в свою очередь только увеличивает эффект «богатые становятся еще богаче» и приводит к меньшей разнообразия.

Белые вороны

В «белых ворон» относятся пользователи, чья мысль постоянно не совпадает с большинством других. Из-за уникальности вкуса им невозможно что-то рекомендовать. Однако, такие люди имеют проблемы с получением рекомендаций и в реальной жизни, поэтому поиски решения данной проблемы в настоящее время не ведутся.

Применение в социальных сетях

Колаборативних фильтрация широко используется в коммерческих сервисах и социальных сетях. Первый сценарий использования — это создание рекомендации по интересной и популярной информации на основе учета «голосов» сообщества. Такие сервисы, как Reddit, Digg или DiCASTA — это типичные примеры систем, использующих алгоритмы колаборативних фильтрации.

Другая сфера использования заключается в создании персонализированных рекомендаций для пользователя, на основе его предыдущей активности и данных о преимуществах других, сходных с ним пользователей. Данный способ реализации можно найти на таких сайтах, как YouTube, Last.fm и Amazon, а также в таких геосоциальный сервисах, как Gvidi и Foursquare.

Показать больше

Похожие статьи

Добавить комментарий

Проверьте также
Закрыть
Кнопка «Наверх»
Закрыть
Закрыть