Прочтите следующие тексты, чтобы избежать недопонимания: Объявление можно закрыть, нажав на крестик справа вверху.

Алгоритм поиска похожих страниц

Аватара пользователя
Rustam
Администратор
Сообщения: 2584
Зарегистрирован: 19 фев 2017, 00:12
Контактная информация:

Алгоритм поиска похожих страниц

Сообщение Rustam » 09 июл 2017, 08:23

TF (term frequency) — частота встречаемости слова в пределах одного документа, то есть локальная оценка важности слова.
IDF (inverse document frequency) - инверсия частоты, с которой некоторое слово встречается в БД.
TF-IDF — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов.

Подробно про параметры [Войдите или зарегистрируйтесь, чтобы увидеть ссылку].

[Войдите или зарегистрируйтесь, чтобы увидеть ссылку] — это мера сходства между двумя векторами предгильбертового пространства, которая используется для измерения косинуса угла между ними. В случае информационного поиска, косинусное сходство двух документов изменяется в диапазоне от 0 до 1, поскольку частота терма (веса tf-idf) не может быть отрицательной. Угол между двумя векторами частоты терма не может быть больше, чем 90°.
  1. Пересчёт IDF для каждого слова по формуле ln(число страниц в БД / встречаемость слова в документах)
  2. Пересчёт TF-IDF для каждого слова по формуле TF * IDF.
  3. ЦИКЛ. Для всех документов из БД (или одного определённого) ищем похожие документы, строя вектора типа (слово, TF-IDF).
    1. Извлекаем из БД все документы, кроме текущей страницы, по которой идёт первый цикл и также строим вектор (слово, TF-IDF).
      1. Находим косинусное сходство между двумя векторами.
      2. Записываем найденное сходство в БД

Ссылка:
BBcode:
HTML:
Скрыть ссылки на пост
Показать ссылки на пост

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 3 гостя