Ben 'ağaç' olarak adlandırılan paket programı kullanılarak karar ağaçları verme pratik yapıyorum.
#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree
Bu çıktısı şu şekildedir:
node), split, n, deviance, yval, (yprob)
* denotes terminal node
1) root 800 1073.00 CH ( 0.60625 0.39375 )
2) LoyalCH < 0.508643 353 415.10 MM ( 0.27479 0.72521 )
4) LoyalCH < 0.277977 161 112.80 MM ( 0.11180 0.88820 )
8) LoyalCH < 0.035047 55 0.00 MM ( 0.00000 1.00000 ) *
9) LoyalCH > 0.035047 106 96.58 MM ( 0.16981 0.83019 ) *
5) LoyalCH > 0.277977 192 260.10 MM ( 0.41146 0.58854 )
10) PriceDiff < 0.195 84 84.62 MM ( 0.20238 0.79762 )
20) SpecialCH < 0.5 67 49.01 MM ( 0.11940 0.88060 ) *
21) SpecialCH > 0.5 17 23.51 CH ( 0.52941 0.47059 ) *
11) PriceDiff > 0.195 108 147.30 CH ( 0.57407 0.42593 ) *
3) LoyalCH > 0.508643 447 348.80 CH ( 0.86801 0.13199 )
6) LoyalCH < 0.764572 189 214.20 CH ( 0.74603 0.25397 )
12) PriceDiff < -0.165 33 43.26 MM ( 0.36364 0.63636 ) *
13) PriceDiff > -0.165 156 143.70 CH ( 0.82692 0.17308 )
26) PriceDiff < 0.265 86 99.88 CH ( 0.73256 0.26744 ) *
27) PriceDiff > 0.265 70 30.66 CH ( 0.94286 0.05714 ) *
7) LoyalCH > 0.764572 258 90.94 CH ( 0.95736 0.04264 ) *
Ben ağaç üzerinde yıldızlarla satırlar terminali düğümleri olduğunu anlıyoruz. Ben başka şeyler takip etmek mücadele ediyorum. Örneğin, satır 7 kullanarak, karar ağacı böler ve dalları uç düğüme, ve CH müşteri CH den daha fazla 76,4572% sadık uç düğümün niteliksel değeri (burada 'LoyalCH> 0,764572' olduğunu biliyoruz veri ISLR paketi ile önceden yüklenir, CH) bir meyve suyu markasıdır. I 258 varsayarak bu terminal düğümünde rüzgar veri noktası sayısı olması gerekiyordu. Ben 90.94 modeline uyum iyiliğini anlatmak gerekiyordu olduğunu biliyorum, ama sapma kavramı hakkında karıştı biraz. sapkınlık bad daha yüksek bir değeri var mı? Mu 90.94 daha zayıf bir uyum olduğunu göstermektedir? Parantez içindeki sayılar gelince, 0,95736 CH seçerek bu dalda her veri noktasının olasılık olduğunu anlıyorum?