Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 19 нояб 2021
Пакет слов (BoW) преобразует текст в вектор признаков, подсчитывая количество слов в документе. Это не учитывая важность слов. Частота терминов - обратная частота документов (TFIDF) основана на модели мешка слов (BoW), которая содержит сведения о менее релевантных и более релевантных словах в документе. Важность слова в тексте имеет большое значение при поиске информации. Пример. Если вы ищете что-то в поисковой системе, с помощью значений TFIDF поисковые системы могут предоставить нам наиболее релевантные документы, связанные с нашим поиском. TFIDF может сказать нам, какое слово важнее? Сначала мы рассмотрим частоту термина (TF) и обратную частоту документа (IDF) по отдельности, а затем объединим их в конце.
Частота терминов (TF)
Это мера частоты употребления слова (w) в документе (d). TF определяется как отношение появления слова в документе к общему количеству слов в документе. Член знаменателя в формуле предназначен для нормализации, поскольку все документы корпуса имеют разную длину.
Первым шагом является составление словаря уникальных слов и вычисление TF для каждого документа. TF будет больше для слов, которые часто встречаются в документе, и меньше для редких слов в документе.
Обратная частота документов (IDF)
Это мера важности слова. Частота терминов (TF) не учитывает важность слов. Некоторые слова, такие как «из», «и» и т. д. Могут присутствовать наиболее часто, но не имеют большого значения. IDF присваивает вес каждому слову в зависимости от его частоты в корпусе D. IDF слова (w) определяется как
Это продукт TF и IDF. TFIDF придает больший вес слову, которое редко встречается в корпусе (всех документах). TFIDF придает большее значение слову, которое чаще встречается в документе.
Почему мы используем Ln в формуле IDF?
TFIDF является продуктом TF с IDF. Поскольку значения TF лежат между 0 и 1, неиспользование ln может привести к высокому IDF для некоторых слов, тем самым доминируя над TFIDF. Мы не хотим этого, и поэтому мы используем ln, чтобы IDF не полностью доминировала над TFIDF.
Недостаток TFIDF
Невозможно уловить семантику. Например, смешной и юмористический - синонимы, но TFIDF не учитывает это. Более того, TFIDF может быть дорогостоящим в вычислительном отношении, если словарь обширен.
Частота термина - обратная частота документа (TFIDF) - это метод векторизации текста, основанный на модели мешка слов (BoW). Он работает лучше, чем модель BoW, поскольку учитывает важность слова в документе. Основное ограничение заключается в том, что он не фиксирует семантическое значение слов. Это ограничение TFIDF можно преодолеть с помощью более продвинутых методов, таких как word2Vec