Hai bisogno di aiuto per capire l'uscita dalla costruzione di un albero di classificazione

voti
0

Sto praticando fare un albero decisionale utilizzando il pacchetto chiamato 'albero'.

#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree

L'uscita da questo è:

node), split, n, deviance, yval, (yprob)
      * denotes terminal node

1) root 800 1073.00 CH ( 0.60625 0.39375 )  
   2) LoyalCH < 0.508643 353  415.10 MM ( 0.27479 0.72521 )  
     4) LoyalCH < 0.277977 161  112.80 MM ( 0.11180 0.88820 )  
       8) LoyalCH < 0.035047 55    0.00 MM ( 0.00000 1.00000 ) *
       9) LoyalCH > 0.035047 106   96.58 MM ( 0.16981 0.83019 ) *
     5) LoyalCH > 0.277977 192  260.10 MM ( 0.41146 0.58854 )  
      10) PriceDiff < 0.195 84   84.62 MM ( 0.20238 0.79762 )  
        20) SpecialCH < 0.5 67   49.01 MM ( 0.11940 0.88060 ) *
        21) SpecialCH > 0.5 17   23.51 CH ( 0.52941 0.47059 ) *
      11) PriceDiff > 0.195 108  147.30 CH ( 0.57407 0.42593 ) *
   3) LoyalCH > 0.508643 447  348.80 CH ( 0.86801 0.13199 )  
     6) LoyalCH < 0.764572 189  214.20 CH ( 0.74603 0.25397 )  
      12) PriceDiff < -0.165 33   43.26 MM ( 0.36364 0.63636 ) *
      13) PriceDiff > -0.165 156  143.70 CH ( 0.82692 0.17308 )  
        26) PriceDiff < 0.265 86   99.88 CH ( 0.73256 0.26744 ) *
        27) PriceDiff > 0.265 70   30.66 CH ( 0.94286 0.05714 ) *
     7) LoyalCH > 0.764572 258   90.94 CH ( 0.95736 0.04264 ) *

So che le righe con asterischi sull'albero sono nodi terminali. Sto lottando per seguire le altre cose. Utilizzando riga 7 come esempio, so che 'LoyalCH> 0,764,572 mila' è dove le spaccature albero decisione e rami al nodo terminale, e CH è il valore qualitativo del nodo terminale in cui i clienti sono superiori 76,4572% fedele al CH (la i dati è precaricato con il pacchetto ISLR, CH è un marchio di succo di frutta). Sto assumendo 258 si suppone sia il numero di punti di dati che si snodano in quel nodo terminale. So che si suppone 90.94 per descrivere la bontà di adattamento al modello, ma io sono un po 'confuso sul concetto di devianza. È un valore più alto della devianza male? Fa 90.94 indicano che si tratta di una misura più debole? Per quanto riguarda i numeri tra parentesi, sono io a capire che 0,95,736 mila è la probabilità di ciascun punto di dati in questo ramo scelta CH?

È pubblicato 19/03/2020 alle 22:06
fonte dall'utente
In altre lingue...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more