L'utilità dell'analisi TF-IDF per determinare l'ottimizzazione SEO del contenuto di una pagina web

L'utilità dell'analisi TF-IDF per determinare l'ottimizzazione SEO del contenuto di una pagina web

TF-IDF è l'acronimo di "Term Frequency"–"Inverse Document Frequency" (Frequenza del Termine - Inverso della Frequenza nei Documenti) ed è una funzione utilizzata nell'analisi del testo per misurare l'importanza di un termine rispetto ad un insieme di documenti. Tale funzione aumenta proporzionalmente al numero di volte che il termine è contenuto nel documento, ma cresce in maniera inversamente proporzionale con la frequenza del termine nella collezione di documenti. Viene spesso utilizzata come fattore di ponderazione nelle ricerche di recupero di informazioni o estrazione di testo.

 

L'idea alla base è quella di dare più importanza ai termini che compaiono nel documento, ma che in generale sono poco frequenti su altri documenti.  La prima forma di ponderazione dei termini (TF) è dovuta a Hans Peter Luhn (1957) e Karen Spärck Jones (1972) concepì un'interpretazione statistica della specificità del termine chiamata frequenza del documento inverso (IDF), che divenne una pietra angolare della ponderazione dei termini.
La funzione TF-IDF può essere vista come il prodotto di due termini:

  • TF, che è il numero dei termini presenti nel documento. Questo numero viene diviso per la lunghezza del documento stesso per evitare che siano privilegiati i documenti più lunghi. Ad esempio, se la parola "ciliegia" viene ripetuta 5 volte in un documento di 100 parole, allora TF = 5 / 100 = 0,05
  • IDF, che è l'importanza generale del termine in tutte le pagine dell'insieme di documenti considerati, sotto forma di logaritmo in base 10. Ad esempio, se la parola "ciliegia" è presente in 10 documenti, dell'insieme considerato di 1000 documenti, allora IDF = LOG (1000/10) = LOG (100) = 2.

Ovvero:

TF-IDF = (frequenza parola nel documento target / n. parole documento target ) * LOG ( n. documenti / n. documenti con parola )

Quindi, per l'esempio considerato TF-IDF = 0,05 * 2 = 0,1. Questo risultato si può confrontare con altri risultati simili trovati ad esempio per "mela", "pera", etc. e stabilire quindi l'importanza di "ciliegia" rispetto a queste. Infatti più satà grande TF-IDF e maggiore sarà il valore di quella parola per il contesto considerato.

caratteri

Il valore TF-IDF aumenta proporzionalmente al numero di volte in cui una parola appare nel documento ed è compensato dal numero di documenti nel corpus che contengono la parola, il che aiuta a correggere il fatto che alcune parole compaiono più frequentemente in generale. Ad esempio poiché il termine "il" è così comune, il termine frequenza tenderà a enfatizzare in modo errato i documenti in cui capita di utilizzare la parola "il" più frequentemente, senza dare sufficiente peso ai termini più significativi. Il termine IDF serve appunto a incorporare un fattore di frequenza del documento inverso che diminuisce il peso dei termini che ricorrono molto frequentemente nel set di documenti e aumenta il peso dei termini che ricorrono raramente.
TF-IDF è oggi uno degli schemi di ponderazione dei termini più popolari. Un sondaggio condotto nel 2015 ha mostrato che l'83% dei sistemi di ricerca basati su testo nelle biblioteche digitali utilizza la funzione TF-IDF.

Esempio:
Abbiamo 3 documenti:

  • 1) "Questo è una prova"
  • 2) "Questo è un esempio"
  • 3) "Questo è una altra prova"

La parola "Questo" avrà TF-IDF nel documento 1 = (1/4) * LOG (3/3) = (1/4) * 0 = 0
La parola "Questo" avrà TF-IDF nel documento 2 = (1/4) * LOG (3/3) = (1/4) * 0 = 0
La parola "Questo" avrà TF-IDF nel documento 3 = (1/5) * LOG (3/3) = (1/4) * 0 = 0
La parola "prova" avrà TF-IDF nel documento 1 = (1/4) * LOG (3/2) = 0,04
La parola "prova" avrà TF-IDF nel documento 2 = (0/4) * LOG (3/2) = 0
La parola "prova" avrà TF-IDF nel documento 3 = (1/5) * LOG (3/2) = 0,03
La parola "esempio" avrà TF-IDF nel documento 1 = (0/4) * LOG (3/1) = 0
La parola "esempio" avrà TF-IDF nel documento 2 = (1/4) * LOG (3/1) = 0,11
La parola "esempio" avrà TF-IDF nel documento 3 = (0/5) * LOG (3/1) = 0
Si ha quindi che la parola con maggiore importanza in questi documenti (tra quelle analizzate) è "Esempio". La parola "Questo" è stata penalizzata dalla eccessiva frequenza.

Numerosi schemi di ponderazione dei termini sono derivati ​​da TF-IDF. Uno di questi è TF – PDF (Frequenza termine * Frequenza documento proporzionale). TF – PDF è stato introdotto nel 2001 nel contesto dell'identificazione di argomenti emergenti nei media. Il componente PDF misura la differenza di quanto spesso un termine ricorre in diversi domini. Un altro derivato è TF-IDuF. In TF – IDuF, idf non è calcolato in base al corpus di documenti che deve essere cercato o raccomandato. Invece, idf viene calcolato sulle raccolte di documenti personali degli utenti. Gli autori riferiscono che TF – IDuF era altrettanto efficace di tf – idf ma potrebbe anche essere applicato in situazioni in cui, ad esempio, un sistema di modellazione utente non ha accesso a un corpus di documenti globale.

termini

 

Come usare una analisi di frequenza TF-IDF ai fini dell'ottimizzazione per i motori di ricerca?

L'analisi TF-IDF può essere usata:
1) come ricerca e scelta delle migliori parole chiave da inserire nel contenuto di una pagina web; rispetto quindi ad una base di siti concorrenti si sceglieranno le parole, attinenti all'argomento, con più alto TF-IDF;
2) come analisi della concorrenza; per capire, ad esempio, uno specifico sito meglio posizionato quali parole usa e con quali livelli di TF-IDF.

Un buon valore di ottimizzazione per una parola chiave dovrebbe essere superiore al valore TF-IDF medio (calcolato in base a tutti i risultati di ricerca che utilizzano quella parola chiave) e inferiore al valore TF-IDF massimo per quella parola chiave. Questo perchè un uso eccessivo di un termine potrebbe essere considerato come spamming, quindi quindi è consigliabile non superare quel valore massimo.
E' consigliabile utilizzare l'analisi solo per parole che rappresentano informazioni o sono particolari, ed inoltre che siano contenute in un documento di discreta lunghezza. E' sconsigliabile, invece, usare questa analisi per termini di ricerca molto generici o di attualità o ad alta concorrenza.

frasi

 

Esistono sul web strumenti, anche gratuiti, che effettuano l'analisi TF-IDF, come ad esempio:
https://en.ryte.com/lp/free-seo-analysis/
http://www.urlsmatch.eu/en-index.aspx

 

 

 

 

 


Stampa   Email