Toán học - Phân tích dữ liệu bằng công cụ trực quan

Giới thiệu

 Trường hợp dữ liệu một chiều

 Trường hợp dữ liệu 2 hoặc 3 chiều

 Trường hợp dữ liệu có > 3 chiều

pdf27 trang | Chia sẻ: Mr Hưng | Ngày: 02/09/2016 | Lượt xem: 113 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Toán học - Phân tích dữ liệu bằng công cụ trực quan, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Phân tích dữ liệu bằng công cụ trực quan 2Dàn bài  Giới thiệu  Trường hợp dữ liệu một chiều  Trường hợp dữ liệu 2 hoặc 3 chiều  Trường hợp dữ liệu có > 3 chiều 3Giới thiệu  2 mục tiêu quan trọng của phân tích dữ liệu ◦ Xác định mô hình hợp lý của quá trình phát sinh dữ liệu ◦ Xác định dữ liệu nhiễu (outlier) trong tập mẫu  Trong phần này xem xét kỹ thuật sử dụng các công cụ trực quan 4Dàn bài  Giới thiệu  Trường hợp dữ liệu một chiều  Trường hợp dữ liệu 2 hoặc 3 chiều  Trường hợp dữ liệu có > 3 chiều 5Trường hợp dữ liệu một chiều  Các phương pháp ◦ Histogram ◦ Quantile plot ◦ Box plot 6Histogram  Chia trục x thành các ‘bin’ có độ rộng h như nhau bắt đầu từ x0 [x0,x0+h), [x0+h,x0+2h),, [x0+n.h,x0+(n+1)h),  Gọi vk là số điểm rơi vào bin thứ k, tức là [x0+(k-1)h,x0+k.h)  Gọi n là số lượng điểm trong tập dữ liệu 7Histogram (tt)  Frequency histogram:  Relative frequency histogram:  Density histogram 0 0 ˆ ( ) , [ ( 1) , . )kf x v x x k h x k h= ∈ + − + 0 0 ˆ ( ) , [ ( 1) , . )kvf x x x k h x k h n = ∈ + − + 0 0 ˆ ( ) , [ ( 1) , . ) . kvf x x x k h x k h n h = ∈ + − + 8Histogram (tt)  Ví dụ: histogramExample.m 9Quantile plot  Quantile qp của biến ngẫu nhiên x được xác định sao cho p = P{x < qp}  Ví dụ: cho x ~ U(a,b) ◦ q0 = a ◦ q0.5 = (a+b)/2 ◦ q1 = b 10 Quantile plot (tt) 11 Quantile plot (tt)  Tập dữ liệu được sắp xếp tăng dần x1 ≤ x2 ≤ ≤ xn  Hàm phân phối thực nghiệm (empirical distribution function) được cho bởi 1 1 0 ˆ ( ) 1 n j j n x x jP x x x x n x x + <   = ≤ <  ≥ 12 Quantile plot (tt)  Mục tiêu: kiểm định xem tập dữ liệu có phân phối P hay không.  Giả sử tập dữ liệu được sắp x1 ≤ x2 ≤ ≤ xn  B1: sinh chuỗi n số  B2: biểu diễn trên đồ thị, trục x là các xi, trục y là các giá trị số sinh được ở B1.  B3: nếu thấy gần tuyến tính  tập dữ liệu có phân phối P 1 1 11 0.5 0.5 0.5 ,..., ,..., i nP P P n n n − − − − − −                  13 Quantile plot (tt)  Ví dụ: xem quantilePlotExample.m 14 Box plot  Trong phương pháp này, 5 tham số được quan tâm ◦ 3 quantile q0.25, q0.5, q0.75, ◦ Giá trị min và max trong tập mẫu  Đặt IQR (interquartile range) là IQR = q0.75 - q0.25  2 giới hạn ◦ Low: LL = q0.25 – 1.5 IQR ◦ Up: UL = q0.75 + 1.5 IQR 15 Box plot (tt)  Mọi điểm dữ liệu nằm ngoài [LL,UL] đều bị coi là outlier Box plot (tt)  Ví dụ: boxPlotExample.m 17 Dàn bài  Giới thiệu  Trường hợp dữ liệu một chiều  Trường hợp dữ liệu 2 hoặc 3 chiều  Trường hợp dữ liệu có > 3 chiều 18 Trường hợp dữ liệu 2 hoặc 3 chiều  Các phương pháp ◦ Scatter ◦ Bivariate Histogram 19 Scatter  Trên hệ trục Cartesian vẽ các điểm tương ứng với từng điểm dữ liệu  Đây là phương pháp đơn giản nhất cho việc quan sát phân bố tập dữ liệu  Ví dụ: ◦ scatter2D.m ◦ scatter3D.m 20 Bivariate Histogram  2 trục x(1) và x(2)  Chia trục x(i) thành các ‘bin’ có độ rộng h(i) như nhau bắt đầu từ x(i)0 [x(i)0, x(i)0 +h(i)), [x(i)0 +h(i), x(i)0 +2h(i)),, [x(i)0 +n. h(i), x(i)0 +(n+1) h(i)),  Gọi vl,k là số điểm rơi vào bin thứ l theo trục x(1) và thứ k theo trục x(2), tức là [x(1)0 +(l-1) h(1), x(1)0 +l. h(1)) x [x(2)0 +(k-1) h(2), x(2)0 +k. h(2)) 21 Bivariate histogram (tt)  Density histogram  Ví dụ: bivariateHistogramExample.m , (1) (2) (1) (1) (1) (1) (2) (2) (2) (1) 0 0 0 0 ˆ ( ) , . [ ( 1) , . ) [ ( 1) , . ) l kvf n h h x l h x l h x k h x k h = ∈ + − + × + − + x x 22 Dàn bài  Giới thiệu  Trường hợp dữ liệu một chiều  Trường hợp dữ liệu 2 hoặc 3 chiều  Trường hợp dữ liệu có > 3 chiều 23 Trường hợp dữ liệu > 3 chiều  Các phương pháp ◦ Scatter plot matrix ◦ Parallel coordinates 24 Scatter plot matrix  Áp dụng scatter 2D cho từng cặp đặc trưng 1 chiều  Nếu tập dữ liệu có d chiều thì sẽ có d*d scatter plot.  Ví dụ: scatterPlotMatrix.m 25 Parallel coordinates  Cách thể hiện dữ liệu 2, 3 chiều trong hệ trục Cartesian: các trục vuông góc từng đôi một  tối đa 3D  Parallel Coordinates: các chiều song song với nhau 26 Parallel Coordinates (tt) x2 x1 x3 x4 27 Parallel coordinates (tt) •Ví dụ: parallelCoordinates.m

Các file đính kèm theo tài liệu này:

  • pdf14_phan_tich_du_lieu_bang_cong_cu_truc_quan_6091.pdf
Tài liệu liên quan