Giới thiệu
 Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
 Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
 So sánh 2 lớp phương pháp
              
                                            
                                
            
 
            
                 34 trang
34 trang | 
Chia sẻ: Mr Hưng | Lượt xem: 1760 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang nội dung tài liệu Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phân tích dữ liệu - 
ước lượng mật độ phân 
bố xác suất
Lê Phong
Dàn bài
 Giới thiệu
 Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
 Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
 So sánh 2 lớp phương pháp
Giới thiệu
 Trong thống kê, để khai thác được các tính chất 
của tập quần thể, người ta quan tâm đến phân bố
xác suất ẩn trong quần thể đó.
 Ước lượng hàm mật độ phân bố xác suất từ tập 
mẫu.
 Có 2 phương pháp tiếp cận
◦ Tham số hóa 
◦ Phi tham số hóa
Giới thiệu (tt)
 Mỗi phương pháp đều có ưu nhược điểm và 
được đánh giá trên
◦ Độ chính xác
◦ Bộ nhớ lưu trữ
◦ Tốc độ tính toán
 Để đánh giá độ chính xác, người ta thường dùng 
1 trong 3 độ đo tiêu chuẩn (càng nhỏ càng tốt)
◦ Mean squared error
◦ Mean integrated squared error
◦ Mean integrated absolute error
Giới thiệu (tt)
 Mean squared error tại một điểm x
 Mean integrated squared error
 Mean integrated absolute error
2ˆ ˆ[ ( )] [( ( ) ( )) ]MSE f x E f x f x= −
2ˆ ˆ[ ] ( ( ) ( ))MISE f E f x f x dx = − ∫
ˆ ˆ[ ] | ( ) ( ) |MIAE f E f x f x dx = − ∫
Dàn bài
 Giới thiệu
 Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
 Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
 So sánh 2 lớp phương pháp
Phương pháp tham số hóa
 Ý tưởng của các phương pháp này gồm 2 bước
◦ B1: xác định mô hình phân bố xác suất theo những 
phân bố quen thuộc (normal, uniform, beta,)
◦ B2: ước lượng tham số để mô hình trở nên “tốt nhất” 
đối với tập mẫu
Phương pháp tham số hóa (tt)
 Bước 1 có thể thực hiện dựa trên các phương 
pháp phân tích trực quan như
◦ Histogram
◦ Quantile-based
 (xem lại slide Phân tích dữ liệu bằng các 
phương pháp trực quan)
 Ví dụ:
◦ univariateHistogram.m
◦ quantilePlot.m
Phương pháp tham số hóa (tt)
 Bước 2: việc ước lượng tham số có thể được 
thực thi bằng một số phương pháp
◦ Maximum Likelihood
◦ Phương pháp moment
 (xem lại slide Phân tích dữ liệu _ các đặc trưng 
và ước lượng tham số)
Finite Mixture
 Ý tưởng: ước lượng mật độ xác suất bằng tổng 
các mật độ xác suất thành phần có trọng số.
 Trong đó
◦ pi là các mật độ thành phần
◦ wi là trọng số tương ứng
◦ θi là tham số của pi
◦ c là số lượng thành phần, c << n
1
( ) ( | )
c
i i
i
p w p
=
=∑ ix x θ
Finite Mixture (tt)
 Ví dụ: 
( ) 0.3 ( ; 3,1) 0.3 ( ;0,1) 0.4 ( ;2,0.5)p x N x N x N x= − + +
Finite Mixture (tt)
 Có 3 vấn đề
◦ Xác định mô hình pi
◦ Xác định số lượng mật độ thành phần c
◦ Ước lượng từng tham số θi và trọng số wi
 Thông thường, pi được chọn là mật độ xác suất 
chuẩn
Finite Mixture (tt)
 Ước lượng c: dựa trên sự phân bố dữ liệu trong 
không gian đặc trưng
 Ví dụ: c = ??? 
Finite Mixture (tt)
 Ước lượng tham số θi và trọng số wi : phương 
pháp EM
Dàn bài
 Giới thiệu
 Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
 Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
 So sánh 2 lớp phương pháp
Phương pháp phi tham số
 Lớp phương pháp này không cần phải xác định 
trước mô hình phân bố.
 Xem xét 2 phương pháp
◦ Histogram
◦ Kernel
Phương pháp Histogram
 Ý tưởng chính:
◦ dùng tập mẫu để xây dựng density histogram
◦ dùng histogram này là ước lượng cho mật độ xác suất 
ẩn của tập quần thể
 Density histogram
 Trong đó
◦ không gian đặc trưng được chia thành các bin có kích 
thước bằng nhau
◦ d là số chiều, hi là độ rộng chiều thứ i của mỗi bin
◦ vk là số điểm rơi vào bin thứ k
1
ˆ ( ) , ( )
. ...
k
d
vf bin k
n h h
= ∈x x
Phương pháp Histogram (tt)
 Ảnh hưởng của hi: phân phối chuẩn
Phương pháp Histogram (tt)
 Cần phải tìm hi sao cho tối thiểu hóa error
 Chứng minh được là
Phương pháp Histogram (tt)
 Nếu mỗi chiều đặc trưng thứ i có phân phối 
chuẩn với phương sai σi2 thì
 Ví dụ: bivariateHistogram.m
Phương pháp Histogram (tt)
 Một mở rộng là: Average Shifted Histogram
m ∞?
Phương pháp Kernel – 1 chiều
 Hàm mật độ được ước lượng
 K(.) được gọi là hàm kernel với tính chất 
 ∫K(t)dt=1 (tại sao?)
 Thông thường K(.) là hàm mật độ, đối xứng và
có đỉnh tại 0.
 Ý nghĩa: đặt giá trị cao tại nơi có mật độ dày 
Phương pháp Kernel – 1D (tt)
Phương pháp Kernel – 1D (tt)
 Ảnh hưởng của h: phân phối chuẩn
Phương pháp Kernel – 1D (tt)
 Nếu K(.) có trung bình µ và phương sai σ2 thì
 Tối ưu đạt được tại h làm cực tiểu AMISE
 Một ước lượng
Phương pháp Kernel – 1D (tt)
Phương pháp Kernel – 1D (tt)
Phương pháp Kernel – 1D (tt)
 Việc xác định h quan trọng hơn là việc chọn 
K(.)
Phương pháp Kernel - dD
 Hàm mật độ được ước lượng
 Với một trong những ước lượng hj
Dàn bài
 Giới thiệu
 Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
 Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
 So sánh 2 lớp phương pháp
So sánh 2 lớp phương pháp
 Chi phí bộ nhớ
◦ Phương pháp tham số chỉ cần lưu lại các tham số nên 
tốn ít bộ nhớ
◦ Phương pháp phi tham số buộc phải lưu lại
 Histogram: rất nhiều giá trị f^(x) vì số lượng bin rất 
lớn 
 Kernel: phải lưu lại toàn bộ tập mẫu
So sánh (tt)
 Chi phí tính toán
◦ Offline: 
 phương pháp tham số do phải ước lượng mô hình và
tham số nên tốn nhiều thời gian
 phương pháp phi tham số thì ko hề tốn thời gian nào
◦ Online: 
 phương pháp tham số tính rất nhanh chóng do chỉ
cần thế số vào hàm
 phương pháp phi tham số tính toán rất lớn
 Histogram: tìm xem x thuộc bin nào
 Kernel: tính toàn bộ n lần hàm kernel
So sánh (tt)
 Độ chính xác:
◦ Phương pháp tham số
 Do phải gò ép vào một mô hình biết trước nên error 
chưa chắc giảm xuống khi n tăng, thậm chí có rủi ro 
nếu ước đoán mô hình sai
 Đối với Finite Mixture: nếu c  vô hạn thì ước 
lượng chính xác bất kỳ hàm mật độ nào, tuy nhiên 
khi đó chi phí về bộ nhớ và thời gian tính toán 
không thua gì phương pháp phi tham số
◦ Phương pháp phi tham số
 Error giảm khi n tăng
So sánh (tt)
 Phương pháp kernel và Finite Mixture có mối 
liên hệ với nhau (bài tập)
            Các file đính kèm theo tài liệu này:
 18_phan_tich_du_lieu_uoc_luong_mat_do_phan_bo_xac_suat_6636.pdf 18_phan_tich_du_lieu_uoc_luong_mat_do_phan_bo_xac_suat_6636.pdf