TF-IDF или (Term Frequency (TF) — Inverse Dense Frequency (IDF)) это метод машинного обучения алгоритма на основании "исскуственого интеллекта". Как работает этот "интеллект", какие показатели считывает и на чем он основан, давайте разбираться.
Ещё совсем недавно алгоритмы поисковых систем для распознания смысловой нагрузки текста использовали метод под названием BoW (Bag of words) или по русски "мешок слов". Целью этого метода было – из общего мешка слов выловить основную смысловую нагрузку и внести текст в смысловой каталог поисковика.
Как это работало. Давайте рассмотрим пример.
Это хороший ресторан.
Мне как человеку из этого текста можно сделать 3 вывода:
речь идёт о ресторане
это рекомендация ресторана
это положительная рекомендация
В этом примере присутствую два указателя:
ресторан – объект. Синонимы существительного – точка питания, общепит;
хороший – описание объекта. Синонимы прилагательного – положительный.
Эти два слова здесь, имеют одинаковую частоту вхождения и не имеют предпочтения отрывающие одно от другого.
Но ведь в общем тексте может встретиться ещё несколько подобных фраз направленных на характеристку уже других подобных объектов или более того, с противоположной смысловой нагрузкой.
И действительно ли смысл общего текста в хорошей характеристике одного или нескольких ресторанов? Для этого, чтобы уточнить, поисковые системы использовали ключевые слова. Этот алгоритм не был идеальным и оптимизаторы пытались направить взгляд робота в нужное направление через ключевые слова. Поэтому на смену пришел новый более совершенный алгоритм распознания смысловой нагрузки текста TF-IDF.
Как устроен алгоритм TF-IDF
Здесь стала учитываться новая концепция называемая "обратная частота документа". Эта концепция основана на оценке определенных слов и словосочетаний используемых в отдельных предложениях и измеряет их использование по сравнению со всеми другими словами во всём тексте. По простому, алгоритм замеряет релевантность отдельных слов по отношению ко всему документу в частности.
Таким образом TF-IDF позволяет понять важность каждого слова в документе, не опираюсь на ключевые слова.
Этот алгоритм позволил поисковым системам исключить из поисковой выдачи "искусственно оптимизированные" тексты недобросовестными seo специалистами и практически полностью убрать из выдачи серые seo тексты.
Совет по проверке текста на релевантность!
При заказе seo текста у копирайтера и размещении его на сайте, обязательно проверьте на показатель TF-IDF, релевантность ключей по которым вы закладываете индексацию в поисковых системах и смысловая нагрузка текста, должна составлять не менее 90%. Только в этом случае, у вас есть шанс, что поисковая система покажет этот текст на первой странице выдачи по требуемому ключу запроса.