Diskussion:Tf-idf-Maß

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 10 Jahren von Daniel16 08 in Abschnitt Inverse Dokumenthäufigkeit
Zur Navigation springen Zur Suche springen

freq_l,j

[Quelltext bearbeiten]

sollte auch zuvor deklariert werden (nicht signierter Beitrag von 153.96.14.101 (Diskussion) 13:51, 17. Dez. 2010 (CET)) Beantworten

Normalisierung der TF

[Quelltext bearbeiten]

Im Nenner der TF-Berechnung sollte eher die Summe und nicht das Maximum der Termhäufigkeit stehen. (nicht signierter Beitrag von 129.26.72.29 (Diskussion) 10:25, 14. Sep. 2010 (CEST)) Beantworten

Die Normalisierung hat erstmal garnichts mit TF-IDF zu tun. Alternative Funktionen können später eingeführt werden und verwirren erstmal nur. Daher ändere ich die bestehende Formel ab und entferne die vermeintliche Normalisierung -- Philip (nicht signierter Beitrag von 134.100.32.31 (Diskussion) 10:06, 18. Mai 2011 (CEST)) Beantworten

Artikelname

[Quelltext bearbeiten]

Ein besserer Name wäre TF-IDF-Maß statt TF-IDF-Formel. Es gibt mehrere Algorithmen oder Formeln, um TF-IDF zu berechnen und in der Information-Retrieval-Community wird auch nur vom TF-IDF-Maß gesprochen. 139.18.2.46 14:25, 6. Okt. 2010 (CEST)Beantworten

Inverse Dokumenthäufigkeit

[Quelltext bearbeiten]

Es existieren zwei verschiedene Formeln zur Berechnung der inversen Dokumentenhäufigkeit.

1. Die hier stehende

2. Inverse Dokumenthäufigkeit (nicht signierter Beitrag von Daniel16 08 (Diskussion | Beiträge) 14:27, 16. Dez. 2013 (CET))Beantworten

Müsste im folgenden Satz nicht ein anstatt eines stehen? Das ist ja nirgends definiert worden.

Das Gewicht eines Terms im Dokument ist dann nach TF-IDF:

Wird dann zu:

Das Gewicht eines Terms im Dokument ist dann nach TF-IDF: