IDF (inverse document frequency) - инверсия частоты, с которой некоторое слово встречается в БД.
TF-IDF — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов.
Подробно про параметры [Войдите или зарегистрируйтесь, чтобы увидеть ссылку].
[Войдите или зарегистрируйтесь, чтобы увидеть ссылку] — это мера сходства между двумя векторами предгильбертового пространства, которая используется для измерения косинуса угла между ними. В случае информационного поиска, косинусное сходство двух документов изменяется в диапазоне от 0 до 1, поскольку частота терма (веса tf-idf) не может быть отрицательной. Угол между двумя векторами частоты терма не может быть больше, чем 90°.
- Пересчёт IDF для каждого слова по формуле ln(число страниц в БД / встречаемость слова в документах)
- Пересчёт TF-IDF для каждого слова по формуле TF * IDF.
- ЦИКЛ. Для всех документов из БД (или одного определённого) ищем похожие документы, строя вектора типа (слово, TF-IDF).
- Извлекаем из БД все документы, кроме текущей страницы, по которой идёт первый цикл и также строим вектор (слово, TF-IDF).
- Находим косинусное сходство между двумя векторами.
- Записываем найденное сходство в БД
- Извлекаем из БД все документы, кроме текущей страницы, по которой идёт первый цикл и также строим вектор (слово, TF-IDF).