Markow-Spamfilter

Der Markow-Spamfilter (nach Andrei Andrejewitsch Markow) ist ein Spamfilter basierend auf einem Hidden Markov Model und stellt eine Weiterentwicklung des Bayes-Spamfilters dar. Der Spamfilter errechnet dabei die Wahrscheinlichkeit, mit der die Wortketten des überprüften Textes zu Wortketten typischer Spamtexte passen. Während bei einem Bayes-Spamfilter die Wahrscheinlichkeit einzelner Wörter errechnet wird, zieht der Markow-Spamfilter Wortketten zur Ermittlung der Wahrscheinlichkeit heran und gewichtet die einzelnen Kombinationsmöglichkeiten. Ähneln die Wortketten des überprüften Textes denen typischer Spamtexte, so gilt der überprüfte Text als Spam.

Beispiel für Gewichtung der Kombinationsmöglichkeiten[Bearbeiten | Quelltext bearbeiten]

Am Beispiel des Satzes „Der schnelle braune Fuchs springt …“ kann man die Kombinationsmöglichkeiten und Gewichtungen 2^2N im Markow-Spamfilter veranschaulichen:

Wortkette	Gewichtung	N
Der	1	0
Der schnelle	4	1
Der <...> braune	4	1
Der <...> <...> Fuchs	4	1
Der schnelle braune	16	2
Der <...> braune Fuchs	16	2
Der schnelle <...> Fuchs	16	2
Der schnelle braune Fuchs	64	3

Formale Darstellung der Wahrscheinlichkeitsberechnung[Bearbeiten | Quelltext bearbeiten]

Während die Wahrscheinlichkeit aufgrund des Bayes-Spamfilters durch

P_{\text{lokal}}=0{,}5+{\frac {P_{\text{gut}}-P_{\text{schlecht}}}{P_{\text{gut}}+P_{\text{schlecht}}+1}}\;

angegeben wird, gilt für das Markow-Spamfilter

P_{\text{lokal}}=0{,}5+{\frac {(P_{\text{gut}}-P_{\text{schlecht}})\cdot {\text{Gewichtung}}}{(P_{\text{gut}}+P_{\text{schlecht}}+1)\cdot {\text{Gewichtung}}_{\text{maximal}}}}\;

.

Literatur[Bearbeiten | Quelltext bearbeiten]

Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas. In: Fourth IEEE International Conference on Data Mining (ICDM'04). 2004, S. 347–350, doi:10.1109/ICDM.2004.10031.

Weblinks[Bearbeiten | Quelltext bearbeiten]

CRM114 – the Controllable Regex Mutilator

Markow-Spamfilter

Inhaltsverzeichnis

Beispiel für Gewichtung der Kombinationsmöglichkeiten[Bearbeiten | Quelltext bearbeiten]

Formale Darstellung der Wahrscheinlichkeitsberechnung[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Markow-Spamfilter

Beispiel für Gewichtung der Kombinationsmöglichkeiten[Bearbeiten | Quelltext bearbeiten]

Formale Darstellung der Wahrscheinlichkeitsberechnung[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Suche