Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất

Giới thiệu

Phương pháp tham số hóa

◦ Ước lượng mô hình bằng các công cụ trực quan

◦ Ước lượng tham số của mô hình

◦ Finite Mixture

Phương pháp phi tham số hóa

◦ Ước lượng bằng Histogram

◦ Ước lượng bằng Kernel

So sánh 2 lớp phương pháp

34 trang | Chia sẻ: Mr Hưng | Lượt xem: 1302 | Lượt tải: 0

Bạn đang xem trước 20 trang nội dung tài liệu Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Phân tích dữ liệu - ước lượng mật độ phân bố xác suất Lê Phong Dàn bài Giới thiệu Phương pháp tham số hóa ◦ Ước lượng mô hình bằng các công cụ trực quan ◦ Ước lượng tham số của mô hình ◦ Finite Mixture Phương pháp phi tham số hóa ◦ Ước lượng bằng Histogram ◦ Ước lượng bằng Kernel So sánh 2 lớp phương pháp Giới thiệu Trong thống kê, để khai thác được các tính chất của tập quần thể, người ta quan tâm đến phân bố xác suất ẩn trong quần thể đó. Ước lượng hàm mật độ phân bố xác suất từ tập mẫu. Có 2 phương pháp tiếp cận ◦ Tham số hóa ◦ Phi tham số hóa Giới thiệu (tt) Mỗi phương pháp đều có ưu nhược điểm và được đánh giá trên ◦ Độ chính xác ◦ Bộ nhớ lưu trữ ◦ Tốc độ tính toán Để đánh giá độ chính xác, người ta thường dùng 1 trong 3 độ đo tiêu chuẩn (càng nhỏ càng tốt) ◦ Mean squared error ◦ Mean integrated squared error ◦ Mean integrated absolute error Giới thiệu (tt) Mean squared error tại một điểm x Mean integrated squared error Mean integrated absolute error 2ˆ ˆ[ ( )] [( ( ) ( )) ]MSE f x E f x f x= − 2ˆ ˆ[ ] ( ( ) ( ))MISE f E f x f x dx = − ∫ ˆ ˆ[ ] | ( ) ( ) |MIAE f E f x f x dx = − ∫ Dàn bài Giới thiệu Phương pháp tham số hóa ◦ Ước lượng mô hình bằng các công cụ trực quan ◦ Ước lượng tham số của mô hình ◦ Finite Mixture Phương pháp phi tham số hóa ◦ Ước lượng bằng Histogram ◦ Ước lượng bằng Kernel So sánh 2 lớp phương pháp Phương pháp tham số hóa Ý tưởng của các phương pháp này gồm 2 bước ◦ B1: xác định mô hình phân bố xác suất theo những phân bố quen thuộc (normal, uniform, beta,) ◦ B2: ước lượng tham số để mô hình trở nên “tốt nhất” đối với tập mẫu Phương pháp tham số hóa (tt) Bước 1 có thể thực hiện dựa trên các phương pháp phân tích trực quan như ◦ Histogram ◦ Quantile-based (xem lại slide Phân tích dữ liệu bằng các phương pháp trực quan) Ví dụ: ◦ univariateHistogram.m ◦ quantilePlot.m Phương pháp tham số hóa (tt) Bước 2: việc ước lượng tham số có thể được thực thi bằng một số phương pháp ◦ Maximum Likelihood ◦ Phương pháp moment (xem lại slide Phân tích dữ liệu _ các đặc trưng và ước lượng tham số) Finite Mixture Ý tưởng: ước lượng mật độ xác suất bằng tổng các mật độ xác suất thành phần có trọng số. Trong đó ◦ pi là các mật độ thành phần ◦ wi là trọng số tương ứng ◦ θi là tham số của pi ◦ c là số lượng thành phần, c << n 1 ( ) ( | ) c i i i p w p = =∑ ix x θ Finite Mixture (tt) Ví dụ: ( ) 0.3 ( ; 3,1) 0.3 ( ;0,1) 0.4 ( ;2,0.5)p x N x N x N x= − + + Finite Mixture (tt) Có 3 vấn đề ◦ Xác định mô hình pi ◦ Xác định số lượng mật độ thành phần c ◦ Ước lượng từng tham số θi và trọng số wi Thông thường, pi được chọn là mật độ xác suất chuẩn Finite Mixture (tt) Ước lượng c: dựa trên sự phân bố dữ liệu trong không gian đặc trưng Ví dụ: c = ??? Finite Mixture (tt) Ước lượng tham số θi và trọng số wi : phương pháp EM Dàn bài Giới thiệu Phương pháp tham số hóa ◦ Ước lượng mô hình bằng các công cụ trực quan ◦ Ước lượng tham số của mô hình ◦ Finite Mixture Phương pháp phi tham số hóa ◦ Ước lượng bằng Histogram ◦ Ước lượng bằng Kernel So sánh 2 lớp phương pháp Phương pháp phi tham số Lớp phương pháp này không cần phải xác định trước mô hình phân bố. Xem xét 2 phương pháp ◦ Histogram ◦ Kernel Phương pháp Histogram Ý tưởng chính: ◦ dùng tập mẫu để xây dựng density histogram ◦ dùng histogram này là ước lượng cho mật độ xác suất ẩn của tập quần thể Density histogram Trong đó ◦ không gian đặc trưng được chia thành các bin có kích thước bằng nhau ◦ d là số chiều, hi là độ rộng chiều thứ i của mỗi bin ◦ vk là số điểm rơi vào bin thứ k 1 ˆ ( ) , ( ) . ... k d vf bin k n h h = ∈x x Phương pháp Histogram (tt) Ảnh hưởng của hi: phân phối chuẩn Phương pháp Histogram (tt) Cần phải tìm hi sao cho tối thiểu hóa error Chứng minh được là Phương pháp Histogram (tt) Nếu mỗi chiều đặc trưng thứ i có phân phối chuẩn với phương sai σi2 thì Ví dụ: bivariateHistogram.m Phương pháp Histogram (tt) Một mở rộng là: Average Shifted Histogram m ∞? Phương pháp Kernel – 1 chiều Hàm mật độ được ước lượng K(.) được gọi là hàm kernel với tính chất ∫K(t)dt=1 (tại sao?) Thông thường K(.) là hàm mật độ, đối xứng và có đỉnh tại 0. Ý nghĩa: đặt giá trị cao tại nơi có mật độ dày Phương pháp Kernel – 1D (tt) Phương pháp Kernel – 1D (tt) Ảnh hưởng của h: phân phối chuẩn Phương pháp Kernel – 1D (tt) Nếu K(.) có trung bình µ và phương sai σ2 thì Tối ưu đạt được tại h làm cực tiểu AMISE Một ước lượng Phương pháp Kernel – 1D (tt) Phương pháp Kernel – 1D (tt) Phương pháp Kernel – 1D (tt) Việc xác định h quan trọng hơn là việc chọn K(.) Phương pháp Kernel - dD Hàm mật độ được ước lượng Với một trong những ước lượng hj Dàn bài Giới thiệu Phương pháp tham số hóa ◦ Ước lượng mô hình bằng các công cụ trực quan ◦ Ước lượng tham số của mô hình ◦ Finite Mixture Phương pháp phi tham số hóa ◦ Ước lượng bằng Histogram ◦ Ước lượng bằng Kernel So sánh 2 lớp phương pháp So sánh 2 lớp phương pháp Chi phí bộ nhớ ◦ Phương pháp tham số chỉ cần lưu lại các tham số nên tốn ít bộ nhớ ◦ Phương pháp phi tham số buộc phải lưu lại Histogram: rất nhiều giá trị f^(x) vì số lượng bin rất lớn Kernel: phải lưu lại toàn bộ tập mẫu So sánh (tt) Chi phí tính toán ◦ Offline: phương pháp tham số do phải ước lượng mô hình và tham số nên tốn nhiều thời gian phương pháp phi tham số thì ko hề tốn thời gian nào ◦ Online: phương pháp tham số tính rất nhanh chóng do chỉ cần thế số vào hàm phương pháp phi tham số tính toán rất lớn Histogram: tìm xem x thuộc bin nào Kernel: tính toàn bộ n lần hàm kernel So sánh (tt) Độ chính xác: ◦ Phương pháp tham số Do phải gò ép vào một mô hình biết trước nên error chưa chắc giảm xuống khi n tăng, thậm chí có rủi ro nếu ước đoán mô hình sai Đối với Finite Mixture: nếu c vô hạn thì ước lượng chính xác bất kỳ hàm mật độ nào, tuy nhiên khi đó chi phí về bộ nhớ và thời gian tính toán không thua gì phương pháp phi tham số ◦ Phương pháp phi tham số Error giảm khi n tăng So sánh (tt) Phương pháp kernel và Finite Mixture có mối liên hệ với nhau (bài tập)

Các file đính kèm theo tài liệu này:

18_phan_tich_du_lieu_uoc_luong_mat_do_phan_bo_xac_suat_6636.pdf