TFIDF

Souvent utilisée en NLP (Natural Language Processing), que cache cette abréviation?

TFIDF

Cet acronyme signifie Term Frequency, Inverse Document Frequency.

Autrement dit, cela signifie « Occurrence du Terme, Occurrence Inverse des Documents ».

À noter, en anglais, le terme « frequency » fait référence à ce qu’on appelle en français le nombre d’occurrences. Pas d’histoire de fréquence à ce stade donc.

L’appellation TFIDF va prendre tout son sens une fois l’expression mathématique associée donnée.

Pour un terme indexé par l’indice i , le coefficient TFIDF associé dans le document j , et noté ici w_{i,j} est calculé ainsi:

w_{i,j} = tf_{i,j} \times \log\left(\frac{N}{df_{i}}\right)

où:

  • tf_{i,j} est la term frequency du terme i dans le document j , c’est-à-dire son nombre d’occurrences.
  • df_{i} est la document term frequency du terme i , c’est-à-dire le nombre de documents contenant au moins une fois le terme i .
  • N est le nombre de documents dans tout le corpus.

Ainsi, on comprend l’appellation TFIDF, car les deux termes qui contribuent, modulo le logarithme, sont le nombre d’occurrences dans le document ainsi que l’inverse du nombre de documents contenant le terme.

L’idée sous-jacente est qu’un terme est d’autant plus important dans un document qu’il est présent dans le document en question et qu’il est peut présent dans l’ensemble du corpus.

Exemple :

  • « le » est typiquement un mot qui aura une tf très grande, mais une idf proche de 0, donc sa tfidf sera atténuée pour tous les documents, sauf s’il est très présent dans un document en particulier.

Laisser un commentaire