Przejdź do zawartości

TFIDF

Z Wikipedii, wolnej encyklopedii

TFIDF (ang. TF – term frequency, IDF – inverse document frequency) – ważenie częstością termów – odwrotna częstość w dokumentach – jedna z metod obliczania wagi słów na podstawie liczby ich wystąpień[1], należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów[2].

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwaniu informacji[3], w szczególności stosowany w wyszukiwarkach internetowych[4], kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru[3][4]:

gdzie to tzw. „term frequency”, wyrażana wzorem:

gdzie jest liczbą wystąpień termu w dokumencie a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie Wielkość to „inverse document frequency” wyrażana wzorem:

gdzie:

– liczba dokumentów w korpusie,
– liczba dokumentów zawierających przynajmniej jedno wystąpienie danego termu.

Przypisy

[edytuj | edytuj kod]
  1. Anand Rajaraman, Jeffrey David Ullman (red.), Data Mining, Cambridge: Cambridge University Press, 2011, s. 1–17, DOI10.1017/cbo9781139058452.002, ISBN 978-1-107-73741-9 [dostęp 2024-08-29].
  2. Junzheng Wu, Information Retrieval 1: TF-IDF based search engine with python code [online], Medium, 11 sierpnia 2023 [dostęp 2024-08-29] (ang.).
  3. a b Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, wyd. 1, Cambridge University Press, 7 lipca 2008, DOI10.1017/cbo9780511809071.007., ISBN 978-0-521-86571-5 [dostęp 2024-08-29].
  4. a b Implementing the TF-IDF Search Engine

Bibliografia

[edytuj | edytuj kod]

Zobacz też

[edytuj | edytuj kod]