Коэффициент Танимото (англ. Coefficient Tanimoto) — описывает степень сходства двух множеств.

Применение

Коэффициент Танимото применяется для:

  • определение уровня сходства двух множеств объектов;
  • выделение групп (кластеров) объектов с одинаковыми свойствами (например, поиск людей с одинаковыми предпочтениями)
  • определения молекулярной сходства.

Вычисление

Формула для вычисления коэффициента Танимото: [1]:

где Т (A, B) — коэффициент Танимото — коэффициент сходства множеств А и В;
Na — количество элементов в множестве A;
Nb — количество элементов в множестве B;
Nc — количество общих для множеств A и B элементов.

T принимает значения от 0 до 1. Чем ближе значение Т к 1, тем больше похожи множества.

Представление через сечение и объединение множеств

Коэффициент Танимото определяет уровень сходства множеств через отношение приятно к объединению множеств:

Векторное представление

Допустим, у нас есть N объектов. Оценки, выставленные определенным пользователем этим объектам, могут быть представлены как вектор а в N-мерном пространстве объектов. Коэффициент Танимото используется для сравнения вектора а с вектором b:

где Коэффициент Танимото -скалярний произведение векторов a и b; Коэффициент Танимото и Коэффициент Танимото — Длины векторов а и b соответственно.