Bir Naive Bayes təsnifatçısı (davamlı dəyişənlərə Gaussian paylanmasını fərz etsək) və Gaussian əməliyyat təsnifatçısı arasındakı fərq nədir?


cavab 1:

Düzəlişdən sonra proqnozlaşdırıcı bir paylama təmin etdikləri ortaqdır.

Naive Bayes təsnifatlayıcıları üçün proqnoz paylanması forması var:

y^=argmaxkp(ck)Πp(xick) \hat{y} = argmax_{k} p(c_k) \Pi p(x_i | c_k)

Bu, Bayesian qaydasından və xüsusiyyətlərin müstəqil olduğu ehtimalından irəli gəlir. Prioritetlər asanlıqla hər sinifdəki məlumatların nisbətini saymaqla müəyyən edilə bilər və p (x_i | c_k) adətən sadə bir şey kimi modelləşdirilir, məsələn, orta hesabla Gaussian paylanması və hər sinif üçün hər bir xarakterikliyin bir dəyişməsi. Hesablama nöqteyi-nəzərindən, bu modeli uyğunlaşdırmaq sadəcə şeyləri saydığınız məlumatlardan tək bir keçidi əhatə edir. Hesablama nöqteyi-nəzərindən, bu model ilə proqnoz bir Gaussian funksiyasının çoxsaylı qiymətləndirilməsini, yəni sinifləriniz sayına vurulan xüsusiyyətlərin sayını, həmçinin bəzi vurmaları və Argmaxı ehtiva edir. Çox sadədir. O qədər sadə ki, əlaqəli xüsusiyyətləri, fərqli mənaları olan məlumat dəstləri üçün kifayət qədər bir model olmaya bilər (çəki xüsusiyyətləri üçün hiperparametrlərin olmamasını qeyd edin) və s.

Gauss prosesinin ikili təsnifatlayıcıları üçün, proqnozlaşdırıcı paylama (Bishopun PRML-də müzakirə olunduğu kimi) formasını alır:

p(tN+1=1tN)=p(tN+1=1aN+1)p(aN+1tN)daN+1p( t_{N+1} = 1 | \mathbb{t}_N) = \int p(t_{N+1} = 1 | a_{N+1}) p(a{N+1} | \mathbb{t}_N) da_{N+1}

harada

p(tN+1=1aN+1)=σ(aN+1)p(t_{N+1} = 1 | a_{N+1}) = \sigma(a_{N+1})

p(aN+1)=N(0,CN+1)p(\mathbb{a}_{N+1}) = \mathcal{N}(0,C_{N+1})

CN+1=k(xn,xm)+νδn,mC_{N+1} = k(x_n,x_m) + \nu \delta_{n,m}

Bu tənlikləri oxuyarkən ortaya çıxa biləcək bəzi suallara cavab vermək ...

K nədir Bu suala cavab verdiyiniz sualın cavabının əksəriyyəti daxildir. k seçdiyiniz bir kernel funksiyasıdır. Modelinizdə, indi məlumat dəstinizdəki hər cüt nümunə üçün işləməlisiniz. Bu daha böyük məlumatların miqyasını artırmaq üçün Naive Bayes ilə müqayisədə daha sürətli hesablama aparır, sadəcə lazımlı statistikanı saydıqdan sonra məlumatlarınızı tarayırsınız. Kernel funksiyaları, ağıllı olaraq seçə və ya optimallaşdıra biləcəyiniz hiper parametrlərə də sahib ola bilər (bəlkə məlumatlarınızın daxil olma ehtimalını artırmaq üçün). Bəs niyə bütün işlər görülür? Kernels "əvvəl gördüyüm məlumatlara bənzərlik" haqqında kifayət qədər əhatəli bir fikir verə bilər. Bu, Naive Bayes-dən çox fərqlidir, bu xüsusiyyətlərin bir-biri ilə əlaqəsi ola biləcəyi və müəyyən bir məlumat nöqtəsinin yalnız onun sinfinin (və ya başqa) parametrinin orta və dəyişkənliyinə təsir edərək paylanmaya təsir göstərə biləcəyi fikrini rədd edirsiniz. bir Gauss modelindən istifadə etmirsinizsə). Kernels, Gaussian proseslərinin necə işlədiyini daha yaxşı öyrənmək üçün oxuya biləcəyiniz daha əhatəli bir mövzudur.

Nədir

aN+1\mathbb{a}_{N+1}

? Bu funksiyanın bir vektorudur

aa

təlim məlumatlarımızın a-vektoruna sonunda proqnozlaşdırılmalı olan məlumat nöqtəsi ilə tətbiq olunur. Bu göstərmədiyimiz bir funksiyadır, ancaq bu barədə Gaussian bir prosesi təqdim edin. Bunun əksinə olaraq bu yağ deyil

aN+1a_{N+1}

Bu, proqnozlaşdırdığımız nümunəyə tətbiqdir.

Niye

p(aN+1)p(\mathbb{a}_{N+1})

sıfır deməkdir? Sözün bir hissəsidir və səbəbini bilmirəm. Təsəvvür etməkdən daha çox Gauss proseslərindən istifadə ilə daha yaxından tanışam (hesab edirəm ki, bu daha təbii bir fikirdir) və belə bir şəraitdə hədəflərinizdən onu sıfıra endirə bilərsiniz.

Bu nədir

δ\delta

? Dirac Delta funksiyası. Bu termini miqyaslı şəxsiyyət matrisi kimi düşünün.

Bu ayrılmaz bir şey başa düşüləndirmi? Həqiqətən deyil və istifadə edilə bilən bir çox yaxınlaşma var. Scikit-Öyrənmə tətbiqi bu məqsəd üçün Laplas yaxınlaşmasından istifadə edir.

Bu ikili təsnifatdır, k siniflərinə sahib olmaq istəsən nə edim? Bəli, Scikit-Öyrənmə tətbiqetmə kimi bir-birinə qarşı istirahət sistemi kimi bir şey istifadə edərdiniz.