"Хи-квадрат" распределение (Chi-Squared Distribution)
Кроме теоремы Байеса при классификации почты используются "хи-квадрат вероятности". Цитировать здесь не буду, формул много Теорию можно найти здесь:Статья "Хи-квадрат распределение" в БСЭ
Статья "Chi-Squared Distribution" на Wolfram Research
Как применяется это в программе SpamBayes
Я не совсем согласен с "теоретическими предпосылками", которые привели авторов SpamBayes к решению сменить режим классификацией по умолчанию с Байесового метода на "хи-квадрат". Причина их неудач с байесовой классификации в том, что они использовали её ограниченно — только по двум категориям — спам/не_спам (как, кстати, и все остальные известные мне байесовы фильтры, кроме PopFile!) При использовании бОльшего числа категорий (классов) при классификации (я, например, использую восемь) проблема "неуверенности" фильтра и, как результат, ложных срабатываний при вынужденном выборе всего из двух категорий почти автоматически отпадает. Если бы они перестроили байесовы графики с учетом нескольких категорий, то убедились бы в этом
Забавно, на следующий день аналогичные мысли высказывают разработчики PopFile:
Original Message
From: SourceForge.net [mailto:noreply@sourceforge.net]
Sent: 21 августа 2003 г. 18:52
To: noreply@sourceforge.net
By: sschinke
http://cvs.sourceforge.net/cgi-bin/viewcvs.cgi/spambayes/spambayes/contrib/nway.py
It looks like a rough kludge to get n-way classification from several 2-way classifiers.
You have to train each of the n ways individually (buckets that are FOR the n'th way are trained as spam, all other buckets trained as non-spam) and then the final message score comes out as whichever of the 2-way classifiers scored as "spam".
I like our system better. *g*
Хотя есть не согласные с этим: http://home.dataparty.no/kristian/reviews/bayesian/