TFIDF

TFIDF (ang. TF – term frequency, IDF – inverse document frequency) – ważenie częstością termów – odwrotna częstość w dokumentach – jedna z metod obliczania wagi słów na podstawie liczby ich wystąpień^[1], należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów^[2].

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwaniu informacji^[3], w szczególności stosowany w wyszukiwarkach internetowych^[4], kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru^[3]^[4]:

\mathrm {(tf{\text{-}}idf)_{i,j}} =\mathrm {tf_{i,j}} \times \mathrm {idf_{i}} ,

gdzie $\mathrm {tf_{i,j}}$ to tzw. „term frequency”, wyrażana wzorem:

\mathrm {tf_{i,j}} ={\frac {n_{i,j}}{\sum _{k}n_{k,j}}},

gdzie $n_{i,j}$ jest liczbą wystąpień termu $(t_{i})$ w dokumencie $d_{j},$ a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie $d_{j}.$ Wielkość $\mathrm {idf_{i}}$ to „inverse document frequency” wyrażana wzorem:

\mathrm {idf_{i}} =\log {\frac {|D|}{|\{d:t_{i}\in d\}|}},

gdzie:

|D|

– liczba dokumentów w korpusie,

|\{d:t_{i}\in d\}|

– liczba dokumentów zawierających przynajmniej jedno wystąpienie danego termu.

Przypisy

↑ AnandA. Rajaraman AnandA., Jeffrey DavidJ.D. Ullman Jeffrey DavidJ.D. (red.), Data Mining, Cambridge: Cambridge University Press, 2011, s. 1–17, DOI: 10.1017/cbo9781139058452.002, ISBN 978-1-107-73741-9 [dostęp 2024-08-29] .
↑ JunzhengJ. Wu JunzhengJ., Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).
↑ ^a ^b Christopher D.Ch.D. Manning Christopher D.Ch.D., PrabhakarP. Raghavan PrabhakarP., HinrichH. Schütze HinrichH., Introduction to Information Retrieval, wyd. 1, Cambridge University Press, 7 lipca 2008, DOI: 10.1017/cbo9780511809071.007., ISBN 978-0-521-86571-5 [dostęp 2024-08-29] .
↑ ^a ^b Implementing the TF-IDF Search Engine

Bibliografia

Waga Termów w Automatycznych Systemach Przetwarzania Tekstu [en]

Zobacz też

PageRank
TF

[1] AnandA. Rajaraman AnandA., Jeffrey DavidJ.D. Ullman Jeffrey DavidJ.D. (red.), Data Mining, Cambridge: Cambridge University Press, 2011, s. 1–17, DOI: 10.1017/cbo9781139058452.002, ISBN 978-1-107-73741-9 [dostęp 2024-08-29] .

[2] JunzhengJ. Wu JunzhengJ., Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).

[:0-3] Christopher D.Ch.D. Manning Christopher D.Ch.D., PrabhakarP. Raghavan PrabhakarP., HinrichH. Schütze HinrichH., Introduction to Information Retrieval, wyd. 1, Cambridge University Press, 7 lipca 2008, DOI: 10.1017/cbo9780511809071.007., ISBN 978-0-521-86571-5 [dostęp 2024-08-29] .

[:1-4] Implementing the TF-IDF Search Engine

[1]

[2]

[3]

[4]