Toán học - Bài 2: Thu thập dữ liệu

Đám đông (population): là tập hợp tất cả các đối tượng nghiên cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích và phạm vi nghiên cứu của mình

Đám đông nghiên cứu (study population). Trong thực tiễn, thường ta không biết chính xác các phần tử của đám đông. Quy mô của đám đông mà ta có thể có được để thực hiện nghiên cứu gọi là đám đông nghiên cứu

Phần tử (element): là đối tượng cần thu thập dữ liệu, thường gọi là đối tượng nghiên cứu. Là đơn vị nhỏ nhất của đám đông và là đơn vị cuối cùng của quá trình chọn mẫu. Số lượng phần tử trong đám đông thường ký hiệu là N, và của mẫu là n

Đơn vị (sampling unit): Những nhóm có được sau quá trình chia nhỏ đám đông được gọi là các đơn vị mẫu. Đơn vị cuối cùng có thể chia nhỏ được của mẫu chính là phần tử mẫu.

 Ví dụ: chia tỉnh/tp, quận, huyện, phường/xã, hộ gia

ppt32 trang | Chia sẻ: Mr Hưng | Lượt xem: 756 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Toán học - Bài 2: Thu thập dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
*BÀI 2: THU THẬP DỮ LIỆU*Các khái niệm cơ bản trong chọn mẫuĐám đông (population): là tập hợp tất cả các đối tượng nghiên cứu mà nhà nghiên cứu cần nghiên cứu để thỏa mãn mục đích và phạm vi nghiên cứu của mìnhĐám đông nghiên cứu (study population). Trong thực tiễn, thường ta không biết chính xác các phần tử của đám đông. Quy mô của đám đông mà ta có thể có được để thực hiện nghiên cứu gọi là đám đông nghiên cứuPhần tử (element): là đối tượng cần thu thập dữ liệu, thường gọi là đối tượng nghiên cứu. Là đơn vị nhỏ nhất của đám đông và là đơn vị cuối cùng của quá trình chọn mẫu. Số lượng phần tử trong đám đông thường ký hiệu là N, và của mẫu là nĐơn vị (sampling unit): Những nhóm có được sau quá trình chia nhỏ đám đông được gọi là các đơn vị mẫu. Đơn vị cuối cùng có thể chia nhỏ được của mẫu chính là phần tử mẫu. Ví dụ: chia tỉnh/tp, quận, huyện, phường/xã, hộ gia đình*Các khái niệm cơ bản trong chọn mẫuKhung mẫu (sampling frame): là danh sách liệt kê dữ liệu cần thiết của tất cả các đơn vị và phần tử của đám đông để thực hiện công việc chọn mẫuHiệu quả chọn mẫu (sampling efficiency)Hiệu quả thống kê  sai số chuẩn nhỏ hơn (khi 2 mẫu cùng kích thước)Hiệu quả kinh tế  chi phí thu thập dữ liệu của mẫu với một độ chính xác mong muốn nào đó*Quy trình chọn mẫuXác định đám đông nghiên cứuXác định khung mẫuXác định kích thước mẫuChọn phương pháp chọn mẫuTiến hành chọn*Xác định đám đông nghiên cứuLà khâu đầu tiên trong quá trìnhViệc xác định đã được tiến hành khi thiết kế nghiên cứu, vì họ đã xác định đối tượng cần thu thập dữ liệu, đối tượng có nguồn dữ liệu cần thiết*Xác định khung mẫuVí dụ: xác định khung mẫu là danh sách liệt kê các người tiêu dùng bia tại TPHCM có độ tuổi từ 18-45 bao gồm: họ tên, địa chỉ, độ tuổiĐể có thể xác định và tiếp cận được họ nhằm thu thập dữ liệuKhi nguồn dữ liệu thứ cấp để xác định khung mẫu chưa có, xác định được khung mẫu cũng cũng khó khăn và tốn kém*Xác định kích thước mẫuMột cách đơn giản và dễ nhất là dựa vào các nghiên cứu có cùng nội dung đã được thực hiện trước đó để lấy mẫu.Có thể hỏi ý kiến các chuyên gia, những người có kinh nghiệm thực hiện các dự án điều tra khảo sát.Có thể tính toán theo công thức tính mẫu.Làm thế nào để xác định cỡ mẫu?*Công thức tính cỡ mẫuTrường hợp tổng thể lớn và không biết tổng thể.Trong đó: n = là cỡ mẫu z = giá trị phân vị chuẩn p = là ước tính tỷ lệ % của tổng thể q = 1-p (thường tỷ lệ p và q được ước tính 50% và 50% đó là khả năng lớn nhất có thể xảy ra của tổng thể) e = sai số cho phép (±3%, ±4%, ±5%...)*Ví dụTính cỡ mẫu của một cuộc trưng cầu ý kiến trước một cuộc bầu cử với độ tin cậy là 95%. sai số cho phép là nằm trong khoảng +5%. Giả định p*q lớn nhất có thể xảy ra là 0.5*0.5.Cỡ mẫu sẽ được tính là:*Trường hợp tổng thể lớn và biết tổng thể.Trong đó:N = số lượng đơn vị trong tổng thể. P = tỷ lệ tổng thể.Q = 1-P, k = sai số cho phép.*Trường hợp tổng thể nhỏ và biết được tổng thể Trong đó: n là cỡ mẫu, N là số lượng tổng thể, e là sai số chuẩn *Ví dụTính cỡ mẫu của một cuộc điều tra vớiTổng thể là N = 2000, độ chính xác là 95%, sai số tiêu chuân là +- 5%.-- cỡ mẫu sẽ được tính là:*Bảng cỡ mẫu Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5. Cỡ của tổng thểCỡ mẫu(n) với sai số cho phép : ±3% ±5% ±7% ±10% 500*22214583600*24015286700*25515888800*26716389900*277166901,000*286169912,00071433318595*Bảng cỡ mẫu (tiếp)Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5. Cỡ của tổng thểCỡ mẫu(n) với sai số cho phép : ±3% ±5% ±7% ±10% 3,000811 353191974,000870364194985,000909 370196986,000938375197987,000959378198998,000976381199999,00098938320099*Bảng cỡ mẫu (tiếp)Bảng 1. Cỡ mẫu với sai số cho phép là ±3%, ±5%, ±7% và ±10% Độ tin cậy là 95% và P=0.5. Cỡ của tổng thểCỡ mẫu(n) với sai số cho phép : ±3% ±5% ±7% ±10% 10,0001,0003852009915,0001,0343902019920,0001,053 39220410050,0001,087397204100100,0001,099398204100>100,0001,111400204100*Các phương pháp chọn mẫuTheo xác suất(Probability sampling)Ngẫu nhiên đơn giản(simple random sampling)Hệ thống(systematic sampling)Phân tầng (theo tỷ lệ, không theo tỷ lệ)(stratified sampling)Theo nhóm (một bước, hai bước)(cluster sampling)Phi xác suất(Non-probability sampling)Thuận tiện(convenience sampling)Phán đoán(judgment sampling)Phát triển mầm(snowball sampling)Định mức/Hạn ngạch(quota sampling)*Điều quan tâm khi chọn phương phápMục tiêu nghiên cứuTính tổng quát hóa của kết quả nghiên cứuThời gian và chi phí*Các phương pháp chọn mẫuTheo xác suất(Probability sampling)Tính đại diện caoTổng quát hóa cho đám đôngTốn kém thời gian và chi phíThường dùng cho các nghiên cứu chính thứcPhi xác suất(Non-probability sampling)Tiết kiệm được thời gian và chi phíTính đại diện thấpKhông tổng quát hóa cho đám đôngThường dùng cho các nghiên cứu sơ bộ, khám phá*Thu thập dữ liệu sơ cấp bằng bảng câu hỏi*Thu thập dữ liệu sơ cấp qua khảo sát bằng bảng câu hỏi chínhXác định cụ thể dữ liệu cần thu thậpXác định dạng phỏng vấnĐánh giá nội dung câu hỏiXác định hình thức trả lờiXác định cách dùng thuật ngữXác định cấu trúc bảng câu hỏiThử lần 1 sửa chữabản nháp cuối cùng*Bước 1. Xác định cụ thể dữ liệu cân thu thậpLiệt kê đầy đủ và chi tiết các dữ liệu cần thu thậpDựa vào vấn đề nghiên cứu và nhu cầu thông tin để thiể kế các câu hỏi cho việc thu thập các thông tin này*Bước 2. Xác định dạng phỏng vấnPhỏng vấn trực diện (trực tiếp)Phỏng vấn qua điện thoạiPhỏng vấn bằng cách gửi thưPhỏng vấn qua mạng InternetPhát ra cho người trả lời điền vào bảng hỏi rồi thu lại*Đánh giá nội dung câu hỏi Nội dung câu hỏi có ảnh hưởng đến khả năng hợp tác của người trả lời  tạo điều kiện cho họ mong muốn tham gia và trả lời trung thựcNgười trả lời có hiểu câu hỏi không?Họ có thông tin không?Họ có cung cấp thông tin không?Thông tin họ cung cấp có đúng là dữ liệu cần thu thập không?Ví dụ: thay vì hỏi “bạn bao nhiêu tuổi”, hay “thu nhập của bạn là bao nhiêu” thì có thể hỏi “trong các nhóm tuổi sau đây, bạn thuộc nhóm tuổi nào?...” nếu ta không cần biết chính xác tuổi của họ*Xác định hình thức trả lờiCâu hỏi đóngChọn một lựa chọnXếp hạngCâu hỏi nhiều lựa chọnCâu hỏi mở - câu hỏi cho câu trả lời tự do“Lý do nào bạn thích sử dụng dầu gội 2 trong 1?” - câu hỏi đào sâu“và còn gì nữa”*Xác định cách dùng thuật ngữDùng từ đơn giản và quen thuộcTránh câu hỏi dài dòng. Từ ngữ càng chi tiết, cụ thể và rõ ràng càng tốt. Không nên lạm dụng câu hỏi quá dài, tối nghĩa. Khi dùng 1 từ cần xem xét nó có nghĩa nào khác có thể làm cho người trả lời hiểu nhầm.Tránh câu hỏi cho hai hay nhiều trả lời cùng một lúc. Ví dụ “kem Kido’s có ngon và bổ dưỡng không?”Tránh câu hỏi gợi ý kích thích người trả lời phản xạ theo hướng đã dẫn trong câu hỏi. Ví dụ “bạn có đồng ý rằng sữa đặc có đường thương hiệu Cô Gái Hà Lan là loại sữa có chất lượng cao nhất không?”Tránh câu hỏi có thang trả lời không cân bằngTránh câu hỏi bắt người trả lời phải ước đoán. Vd “Bạn mua bao nhiêu cục xà bông tắm trong năm qua?”*Xác định trình tự các câu hỏiMột bảng câu hỏi chia thành nhiều phần, thông thường:Phần gạn lọc(screening): để chọn người trả lời trong đám đông nghiên cứu. Có khi là một phần riêng biệt được sử dụng để gạn lọc trước khi phỏng vấn thực thụPhần chínhPhần về dữ liệu cá nhân người trả lời (biodata)*Xác định hình thức bảng câu hỏiHình thức đẹp dễ nhận được sự hợp tác của người trả lờiCác phần của bảng hỏi nên được trình bày riêng biệt, có thể thông qua giấy màu khác nhau*Thử lần thứ nhất chỉnh sửa bản nháp cuối cùngĐể có bảng hỏi tốt, khi thiết kế xong, cần thử nhiều lần (pilot study)Lần thử đầu tiên (pretest, alpha test) được thực hiện thông qua phỏng vấn, tham khảo ý kiên một số thành viên nghiên cứu khác trong công ty và điều chỉnh lại  bản nháp cuối cùngBản nháp này lại được qua lần thử thứ hai (beta test) qua phỏng vấn thử đối tượng nghiên cứu thực sự trong đám đông nghiên cứu. Tuy nhiên, mục đích không phải là để thu thập dữ liệu mà là để đánh giá bảng hỏi. Họ hiểu có đúng câu hỏi không?Họ có thông tin không?Hỏi như vậy họ có chịu cung cấp thông tin không?Thông tin họ cung cấp có đúng là thông tin cần thiết không?Sau khi hiệu chỉnh bảng hỏi ở lần thứ 2 này  bảng hỏi hoàn chỉnh*Sau khi phỏng vấnHiệu chỉnh dữ liệu -Hiệu chỉnh tại hiện trường: phỏng vấn viên phải hiệu chỉnh ngay khi kết thúc phỏng vấn (câu bị bỏ sót, cần hỏi lại ngay; hoàn chỉnh các ký hiệu viết tắt, những gì chưa điền kịp) -Giám sát viên kiểm tra (tính hoàn tất, tính hợp lý giữa các câu hỏi, tính rõ ràng của các câu trả lời, tính nghiêm túc trong quá trình phỏng vấn của PV viên) & hiệu chỉnh lại - Hiệu chỉnh tại trung tâm: do bộ phận xử lý dữ liệu thực hiện trước khi nhập liệu cho việc xử lý. *Nguyên nhân gây sai sót trong thu thập dữ liệuThiết kế bảng hỏi không đạt yêu cầu. Đặc biệt là sử dụng thuật ngữ gây nhầm lẫn, câu hỏi không rõ ràng, hình thức trình bày không thống nhất, dễ gây nhầm lẫn cho PVV sai lệch khi PV. Vì vậy cần kiểm tra kỹ lưỡng trong hai lần thử để điều chỉnh giúp giảm sai sót trong thiết kế.Hướng dẫn PVV không kỹ lưỡng, đặc biệt là do chủ quan, không kiểm tra PVV để xác định họ đã hiểu tất cả các câu hỏi, đã nắm vững kỹ thuật, trợ vấn cụ hay chưaKỹ thuật phỏng vấn kém do PVV thiếu kinh nghiệm, chủ quan, không chịu rèn luyện.*Gợi ýHuấn luyện, hướng dẫn PVV thực tập trước khi phỏng vấn thực thụ.Sau khi được hướng dẫn xong, PVV thử phỏng vấn giám sát viên. Nếu có sai sót trong việc hiểu câu hỏi, kỹ thuật phỏng vấn cần điều chỉnh, hướng dẫn lại ngaySau khi được hướng dẫn lại, PVV thử phỏng vấn đối tượng nghiên cứu. Lần PV này cũng nhằm kiểm tra kỹ năng PV của PVV. Trong lần này các giám sát viên cần theo dõi chặt chẽ quá trình PV nhằm phát hiện các sai sót, kỹ năng PV để có những biện pháp điều chỉnh kịp thời.*Chuẩn bị dữ liệuMã hóa dữ liệu (tên biến, mã giá trị)Nhập dữ liệu vào máy tínhLàm sạch dữ liệuCác ô trống (có thể sai sót do trong quá trình thu thập – người trả lời không trả lời, hay có PV nhưng quên ghi kết quả; hoặc sai sót do nhập liệu-quên nhập)Trả lời không hợp lý (có thể sai sót trong quá trình nhập) bảng tần số, min max

Các file đính kèm theo tài liệu này:

  • pptbai_2_thu_thap_du_lieu_2189.ppt