ticonsiglia

Youtube    TikTok    Facebook    Instagram    Twitch  

L'utilità dell'analisi TF-IDF per determinare l'ottimizzazione SEO del contenuto di una pagina web

keywords

TF-IDF è l'acronimo di "Term Frequency"–"Inverse Document Frequency" (Frequenza del Termine - Inverso della Frequenza nei Documenti) ed è una funzione utilizzata nell'analisi del testo per misurare l'importanza di un termine rispetto ad un insieme di documenti.

Tale funzione aumenta proporzionalmente al numero di volte che il termine è contenuto nel documento, ma cresce in maniera inversamente proporzionale con la frequenza del termine nella collezione di documenti. Viene spesso utilizzata come fattore di ponderazione nelle ricerche di recupero di informazioni o estrazione di testo.

L'idea alla base è quella di dare più importanza ai termini che compaiono nel documento, ma che in generale sono poco frequenti su altri documenti.  La prima forma di ponderazione dei termini (TF) è dovuta a Hans Peter Luhn (1957) e Karen Spärck Jones (1972) concepì un'interpretazione statistica della specificità del termine chiamata frequenza del documento inverso (IDF), che divenne una pietra angolare della ponderazione dei termini.
La funzione TF-IDF può essere vista come il prodotto di due termini:

  • TF, che è il numero dei termini presenti nel documento. Questo numero viene diviso per la lunghezza del documento stesso per evitare che siano privilegiati i documenti più lunghi. Ad esempio, se la parola "ciliegia" viene ripetuta 5 volte in un documento di 100 parole, allora TF = 5 / 100 = 0,05
  • IDF, che è l'importanza generale del termine in tutte le pagine dell'insieme di documenti considerati, sotto forma di logaritmo in base 10. Ad esempio, se la parola "ciliegia" è presente in 10 documenti, dell'insieme considerato di 1000 documenti, allora IDF = LOG (1000/10) = LOG (100) = 2.

Ovvero:

TF-IDF = (frequenza parola nel documento target / n. parole documento target ) * LOG ( n. documenti / n. documenti con parola )

Quindi, per l'esempio considerato TF-IDF = 0,05 * 2 = 0,1. Questo risultato si può confrontare con altri risultati simili trovati ad esempio per "mela", "pera", etc. e stabilire quindi l'importanza di "ciliegia" rispetto a queste. Infatti più satà grande TF-IDF e maggiore sarà il valore di quella parola per il contesto considerato.

Il valore TF-IDF aumenta proporzionalmente al numero di volte in cui una parola appare nel documento ed è compensato dal numero di documenti nel corpus che contengono la parola, il che aiuta a correggere il fatto che alcune parole compaiono più frequentemente in generale. Ad esempio poiché il termine "il" è così comune, il termine frequenza tenderà a enfatizzare in modo errato i documenti in cui capita di utilizzare la parola "il" più frequentemente, senza dare sufficiente peso ai termini più significativi. Il termine IDF serve appunto a incorporare un fattore di frequenza del documento inverso che diminuisce il peso dei termini che ricorrono molto frequentemente nel set di documenti e aumenta il peso dei termini che ricorrono raramente.
TF-IDF è oggi uno degli schemi di ponderazione dei termini più popolari. Un sondaggio condotto nel 2015 ha mostrato che l'83% dei sistemi di ricerca basati su testo nelle biblioteche digitali utilizza la funzione TF-IDF.

Esempio:
Abbiamo 3 documenti:

  • 1) "Questo è una prova"
  • 2) "Questo è un esempio"
  • 3) "Questo è una altra prova"

La parola "Questo" avrà TF-IDF nel documento 1 = (1/4) * LOG (3/3) = (1/4) * 0 = 0
La parola "Questo" avrà TF-IDF nel documento 2 = (1/4) * LOG (3/3) = (1/4) * 0 = 0
La parola "Questo" avrà TF-IDF nel documento 3 = (1/5) * LOG (3/3) = (1/4) * 0 = 0
La parola "prova" avrà TF-IDF nel documento 1 = (1/4) * LOG (3/2) = 0,04
La parola "prova" avrà TF-IDF nel documento 2 = (0/4) * LOG (3/2) = 0
La parola "prova" avrà TF-IDF nel documento 3 = (1/5) * LOG (3/2) = 0,03
La parola "esempio" avrà TF-IDF nel documento 1 = (0/4) * LOG (3/1) = 0
La parola "esempio" avrà TF-IDF nel documento 2 = (1/4) * LOG (3/1) = 0,11
La parola "esempio" avrà TF-IDF nel documento 3 = (0/5) * LOG (3/1) = 0
Si ha quindi che la parola con maggiore importanza in questi documenti (tra quelle analizzate) è "Esempio". La parola "Questo" è stata penalizzata dalla eccessiva frequenza.

Numerosi schemi di ponderazione dei termini sono derivati ​​da TF-IDF. Uno di questi è TF – PDF (Frequenza termine * Frequenza documento proporzionale). TF – PDF è stato introdotto nel 2001 nel contesto dell'identificazione di argomenti emergenti nei media. Il componente PDF misura la differenza di quanto spesso un termine ricorre in diversi domini. Un altro derivato è TF-IDuF. In TF – IDuF, idf non è calcolato in base al corpus di documenti che deve essere cercato o raccomandato. Invece, idf viene calcolato sulle raccolte di documenti personali degli utenti. Gli autori riferiscono che TF – IDuF era altrettanto efficace di tf – idf ma potrebbe anche essere applicato in situazioni in cui, ad esempio, un sistema di modellazione utente non ha accesso a un corpus di documenti globale.

 

 

Come usare una analisi di frequenza TF-IDF ai fini dell'ottimizzazione per i motori di ricerca?

L'analisi TF-IDF può essere usata:
1) come ricerca e scelta delle migliori parole chiave da inserire nel contenuto di una pagina web; rispetto quindi ad una base di siti concorrenti si sceglieranno le parole, attinenti all'argomento, con più alto TF-IDF;
2) come analisi della concorrenza; per capire, ad esempio, uno specifico sito meglio posizionato quali parole usa e con quali livelli di TF-IDF.

Un buon valore di ottimizzazione per una parola chiave dovrebbe essere superiore al valore TF-IDF medio (calcolato in base a tutti i risultati di ricerca che utilizzano quella parola chiave) e inferiore al valore TF-IDF massimo per quella parola chiave. Questo perchè un uso eccessivo di un termine potrebbe essere considerato come spamming, quindi quindi è consigliabile non superare quel valore massimo.
E' consigliabile utilizzare l'analisi solo per parole che rappresentano informazioni o sono particolari, ed inoltre che siano contenute in un documento di discreta lunghezza. E' sconsigliabile, invece, usare questa analisi per termini di ricerca molto generici o di attualità o ad alta concorrenza.

 

Esistono sul web strumenti, anche gratuiti, che effettuano l'analisi TF-IDF, come ad esempio:
https://en.ryte.com/lp/free-seo-analysis/
http://www.urlsmatch.eu/en-index.aspx

 


Articoli dal sito a2c.it

  • Presentazione del gruppo

    A2C è un collettivo nato a SALERNO nel 2008, che riunisce professionisti con competenze tecniche eterogenee – ingegneri, biologi e altri tecnici – impegnati nella consulenza tecnica specialistica e nella progettazione di impianti per aziende e privati. Uno degli obiettivi principali è contribuire alla tutela delle persone dalle “minacce invisibili. Parallelamente, dal 2014 è stato avviato un progetto di divulgazione tecnico-scientifica su YouTube, con l’obiettivo di aiutare il pubblico a comprendere in profondità le problematiche tecniche e le soluzioni. Attraverso video informativi e tutorial, rendiamo accessibili temi complessi, formando una comunità attenta e consapevole, capace di contribuire alla risoluzione dei problemi. Crediamo che la conoscenza condivisa sia una leva fondamentale per innovare e migliorare la vita quotidiana.

  • Proteggersi dal 5G, secondo il Sistema Nazionale per la Protezione dell'Ambiente

    L’arrivo del 5G ha trasformato profondamente il modo in cui valutiamo l’esposizione ai campi elettromagnetici nelle abitazioni. Le tecniche di misura utilizzate per le generazioni precedenti – 2G, 3G e 4G – non sono più sufficienti per descrivere con precisione l’intensità e la variabilità dei nuovi segnali, caratterizzati da fasci dinamici, antenne intelligenti e frequenze aggiuntive. Per questo motivo, nel 2024 il Sistema Nazionale per la Protezione dell’Ambiente (SNPA) ha pubblicato Linee Guida specifiche, oggi punto di riferimento essenziale per tutti i professionisti del settore.

  • I Rischi del 5G Confermati dalla Scienza: Analisi delle Linee Guida Mondiali

    Quanto è davvero pericolosa l’esposizione continua ai campi elettromagnetici? Per rispondere non ci basiamo su opinioni, ma sulla scienza. Analizziamo il documento più importante al mondo in materia: le linee guida ICNIRP 2020. Viviamo immersi nei campi elettromagnetici: cellulari, Wi-Fi, Bluetooth e antenne trasmettono onde radio comprese tra 100 kHz e 300 GHz. Ma quali sono i rischi reali?

  • Limiti Aumentati, Potenza Raddoppiata: La tua casa è ancora sicura dal 5G?

    Da Aprile 2024 è entrata in vigore una nuova legge che permette alle antenne di telefonia mobile di emettere un campo elettromagnetico quasi tre volte più intenso rispetto al passato. I gestori stanno già adeguando gli impianti con un’operazione chiamata PowerUp. Ma cosa significa questo per la tua salute, la tua famiglia e la tua abitazione?

  • Vivere accanto al 5G: Rischi Reali o Falsi Allarmi? Misure EMF Professionali

    È fondamentale capire come le onde elettromagnetiche si propagano. Non si comportano come la luce di una lampadina che illumina uniformemente in tutte le direzioni. Le antenne sono progettate per inviare il segnale in una direzione precisa, verso il terreno. Nei nostri sopralluoghi abbiamo riscontrato che l’intensità del campo cala drasticamente intorno ai 100 metri dall’antenna. Oltre tale distanza, i livelli risultano spesso irrilevanti.

  • Seminario: Dal sud al futuro: strumenti e strategie per l'innovazione sostenibile delle comunità locali

    In data 19/05/2025 si è tenuto, nell'ambito del Festival dello Sviluppo Sostenibile, il seminario ONLINE dal titolo:"Dal sud al futuro: strumenti e strategie per l'innovazione sostenibile delle comunità locali" in cui si è parlato di come le nuove tecnologie possono aiutare lo sviluppo del Sud Italia. Il seminario si è tenuto in LIVE sul canale YouTube dell'A2C ed è stato a partecipazione gratuita.

  • Il guadagno di una antenna

    Che cos'è il guadagno di un'antenna e perché è un parametro importante per la scelta di un'antenna? Prima di rispondere a questa domanda è necessario spiegare cosa si intende per antenna. Un'antenna è un dispositivo che converte segnali elettrici in onde elettromagnetiche che vengono irradiate nello spazio circostante, o viceversa, un dispositivo in grado di convertire onde incidenti in segnali elettrici.

  • Antenne vicine alle abitazioni

    Per legge, è possibile che un ripetitore di telefonia mobile si trovi a 20 metri di distanza da un'abitazione? La risposta non è banale. Innanzitutto, oggi i ripetitori per telefonia mobile sono installati un po' dappertutto, quindi è lecito chiedersi se essi siano troppo vicini a case, scuole o ospedali. E ovviamente è lecito chiedersi se ciò comporti rischi per la salute.

     

  • Potenza dei Campi elettromagnetici

    Cos'è la potenza di un campo elettromagnetico? Come diminuisce la potenza con la distanza? Le onde elettromagnetiche emesse da una sorgente qualsiasi trasportano energia nello spazio circostante. La quantità di energia per unità di superficie e di tempo associata alla propagazione di un campo elettromagnetico è detta "densità di potenza" e si misura in W/m².

  • Le 4 equazioni di Maxwell

    Inizialmente, e per lungo tempo, i campi elettrici e magnetici sono stati considerati due fenomeni naturali distinti e separati. Fu solo nel 1873 che il grande fisico scozzese James Clerk Maxwell dimostrò esattamente il contrario, mediante 4 famosissime equazioni della fisica che portano il suo nome: le equazioni di Maxwell.