3.2.1. Mẫu ngẫu nhiên
a) Mẫu ngẫu nhiên và tập tổng thể
Bài toán: Một nhà sản xuất dưa chuột muối đóng hộp muốn biết phân phối chiều dài các quả dưa chuột (chiều dài trung bình, độ lệch chuẩn...), để làm vỏ hộp với kích thước thích hợp. Nhà sản xuất này không thể đo hết chiều dài của hàng triệu quả dưa chuột sẽ được đóng hộp. Họ chỉ đo chiều dài của $n$ quả dưa chuột được chọn một cách ngẫu nhiên, rồi từ đó ước lượng ra phân phối chiều dài. Số $n$ ở đây có thể là một số khá lớn, ví dụ 100 quả hay 1000 quả, nhưng nó là một phần rất nhỏ của tổng số các quả dưa chuột.
Để mô hình hóa bài toán ước lượng trên, ta gọi $X$ là BNN “chiều dài của quả dưa chuột”. Chúng ta muốn ước lượng phân phối xác suất của $X$, hoặc là ước lượng những đại lượng đặc trưng của $X$, ví dụ như kì vọng và phương sai. Để ước lượng, chúng ta sẽ lấy ra $n$ giá trị của $X$ một cách ngẫu nhiên và gọi các giá trị được lấy ra là $x_1,\cdots, x_n$. Bộ $(x_1,\cdots, x_n)$ được gọi là một mẫu ngẫu nhiên cỡ $n$ của BNN $X$.
Tổng quát, một mẫu ngẫu nhiên cỡ $n$ của BNN $X$ là giá trị $x=(x_1,\cdots,x_n)$ của véctơ ngẫu nhiên $X=(X_1,\cdots,X_n)$, trong đó các BNN $X_1,\cdots, X_n$ độc lập và có cùng phân phối xác suất với $X$. Như vậy, mẫu ngẫu nhiên có nguồn gốc từ một tập lớn hơn mà ta sẽ gọi là tập tổng thể và mang thông tin nào đó về tập tổng thể, mặc dù các thông tin đó có thể khác nhau ở những mẫu khác nhau (Trong ví dụ, $X_i$ là biến ngẫu nhiên “chiều dài của quả dưa chuột thứ $i$ được chọn”, còn $x_i$ là giá trị nhận được của $X_i$; ta cũng có thể lấy mẫu về khối lượng, đường kính mặt cắt...).
Để ý rằng giả thiết độc lập cho phép làm đơn giản rất nhiều các tính toán sau này. Chẳng hạn nếu biến gốc $X$ rời rạc, có hàm xác suất $p(x)$, thì hàm xác suất đồng thời của $(X_1,\cdots, X_n)$ sẽ là $$p_n(x_1,\cdots,x_n)=P(X_1=x_1,\cdots,X_n=x_n)=\prod_{i=1}^np(x_i).$$ Tương tự nếu BNN $X$ liên tục có mật độ $f(x)$ thì $$f_n(x_1,\cdots,x_n)=\prod_{i=1}^nf(x_i).$$
Như vậy, các phân phối đồng thời đã được biểu diễn đơn giản qua các phân phối biến thành phần. Muốn có đầy đủ thông tin về đối tượng nào đó, ta phải làm việc với tập tổng thể. Tuy nhiên việc nghiên cứu tập tổng thể sẽ vô cùng khó khăn vì:
- tập tổng thể quá lớn dẫn đến đòi hỏi quá nhiều chi phí vật chất và thời gian;
- trình độ tổ chức và nghiên cứu hạn chế của đội ngũ khi làm việc với quy mô lớn, không nắm bắt và kiểm soát được quá trình nghiên cứu;
- nhiều trường hợp không khả thi khi tập tổng thể biến động nhanh, các phần tử thay đổi thường xuyên. Chẳng hạn việc xét tuổi thọ của tất cả công dân Việt Nam là một việc làm không khả thi;
- có thể trong quá trình điều tra sẽ phá hủy đối tượng nghiên cứu. Chẳng hạn, để đánh giá chất lượng bia của nhà máy bia Hà Nội sản xuất trong một tháng mà đem mở tất cả các chai bia này để kiểm tra thì sau khi kiểm tra sẽ không còn bia để bán. Như vậy việc nghiên cứu trên tập tổng thể, trừ các tập đủ bé, thường không thể thực hiện được. Từ đó đặt ra vấn đề chọn mẫu và nghiên cứu trên tập mẫu. Nếu mẫu được chọn ngẫu nhiên và với số lượng đủ, chúng ta hy vọng rằng việc xử lí chúng sẽ cho ta kết quả vừa nhanh vừa đỡ tốn kém mà vẫn đạt được độ chính xác và tin cậy cần thiết.
b) Vấn đề chọn mẫu
Ta mong muốn mẫu có tính đại diện tốt cho tập tổng thể bởi vì việc nghiên cứu với mẫu như vậy cho ta độ tin cậy cao. Hiện nay có nhiều phương pháp khác nhau để chọn mẫu, nhưng khó có thể nói rằng phương pháp nào là tốt nhất. Việc chọn phương pháp lấy mẫu phù hợp phụ thuộc vào chính tập đối tượng cụ thể và vào sở trường của nhà nghiên cứu.
- Chọn mẫu ngẫu nhiên: Trong phương pháp chọn mẫu ngẫu nhiên, mỗi phần tử của tập tổng thể đã có xác suất chọn xác định từ trước cả khi chọn mẫu. Mẫu ngẫu nhiên cho phép đánh giá khách quan hơn các đặc trưng của tập tổng thể. Có 3 cách chọn như sau:
(i) Chọn mẫu ngẫu nhiên đơn giản: là phương pháp chọn mẫu có tính chất mọi mẫu có cùng kích cỡ (cùng số phần tử) có cùng xác suất được chọn và mọi phần tử của tập tổng thể có đồng khả năng lọt vào mẫu. Để việc chọn hoàn toàn ngẫu nhiên, ta có thể tiến hành theo kiểu bốc thăm hoặc dùng bảng số ngẫu nhiên, ở đây có hai phương thức chọn là không hoàn lại (mỗi phần tử chỉ được chọn một lần) và có hoàn lại (chọn xong trả lại tổng thể để chọn tiếp). Nếu số lượng phần tử của mẫu khá bé so với tập tổng thể thì kết quả lấy mẫu theo hai phương thức sai lệch không đáng kể. Do tính ngẫu nhiên nên mẫu có tính đại diện cao và tin cậy. Tuy nhiên phương pháp này đòi hỏi phải biết toàn bộ tập tổng thể, vì thế chi phí chọn mẫu khá lớn.
(ii) Chọn mẫu phân nhóm: Đầu tiên ta chia tập tổng thể thành các nhóm tương đối thuần nhất, sau đó từ mỗi nhóm trích ra một mẫu ngẫu nhiên; tập hợp tất cả các mẫu đó cho ta một mẫu (ngẫu nhiên) phân nhóm. Người ta dùng phương pháp này khi trong nội bộ tập tổng thể có những sai khác lớn. Nhà nghiên cứu phải có hiểu biết nhất định về cấu trúc tập tổng thể để phân chia nhóm hợp lý. Sau này mỗi nhóm sẽ có vai trò khác nhau phụ thuộc vào độ quan trọng của chúng trong tập tổng thể. Hạn chế của phương pháp là tính chủ quan khi phân chia nhóm. Nhưng nó vẫn hay được dùng do cách thức đơn giản khi làm việc với các nhóm khá bé và thuần nhất.
(iii) Chọn mẫu chùm: là chọn một mẫu ngẫu nhiên của các tập con của tập tổng thể, được gọi là các chùm. Ta cũng giả sử rằng các phần tử của mỗi chùm mang tính đại diện cho tập tổng thể. Ngoài ra ta cố gắng sao cho mỗi chùm vẫn có độ phân tán cao như tập tổng thể và đồng đều nhau về quy mô. Chẳng hạn ta muốn nghiên cứu nhu cầu tiêu thụ một mặt hàng nào đó bằng phương pháp chọn mẫu chùm: đầu tiên ta chia thành phố thành các khu dân cư, sau đó chọn ra một số khu làm phần tử của mẫu, cuối cùng ta nghiên cứu tất cả các gia đình sống trong các khu được chọn. Phương pháp này cho ta tiết kiệm kinh phí và thời gian (vì không phải di chuyển trên toàn thành phố), nhưng sai số có thể lớn hơn hai phương pháp trên.
- Chọn mẫu có suy luận: Phương pháp chọn mẫu này dựa trên ý kiến các chuyên gia về đối tượng nghiên cứu. Như vậy việc chọn mẫu ở đây dựa trên hiểu biết và kinh nghiệm của một vài nhà chuyên môn. Do đó phương pháp này cũng có hạn chế cơ bản là: khi không có sự tham gia của các công cụ thống kê vào việc chọn mẫu nên tính khách quan rất khó được bảo đảm, từ đó kéo theo các kết luận mang nặng tính chủ quan. Tất nhiên điều đó không có nghĩa là không nên dùng các phương pháp chuyên gia. Rõ ràng là chất lượng mẫu phụ thuộc nhiều vào trình độ của nhà nghiên cứu và kinh nghiệm của họ sẽ trở thành một công cụ hữu hiệu.
- Sai số trong lấy mẫu: Khi lấy mẫu, do nhiều nguyên nhân khác nhau, sẽ không tránh khỏi những sai số trong các số liệu mẫu. Do đó, trước khi dùng các phương pháp thống kê để phân tích, xử lí ta cần loại bỏ các sai số không đáng có ở trong mẫu đã cho, có như vậy các thông tin thu được sau xử lí mới đảm bảo tính chính xác với độ tin cậy cao. Để thuận lợi cho việc xử lí, ta phân loại các sai số như sau:
(i) Sai số thô: sinh ra do phạm vi các điều kiện cơ bản của việc lấy mẫu hoặc do sơ suất của người thực hiện, chẳng hạn, người kiểm tra cố ý chọn ra các sản phẩm tốt để kiểm tra khi đánh giá chất lượng của lô sản phẩm, hoặc người lấy mẫu ghi nhầm kết quả thu được...
(ii) Sai số hệ thống: là sai số do không điều chỉnh chính xác dụng cụ hoặc không thống nhất giữa những người lấy mẫu về cách xác định một đại lượng nào đó... dẫn đến các kết quả quan sát được bị sai lệch.
(iii) Sai số ngẫu nhiên: sinh ra do một số lớn các nguyên nhân mà tác động của chúng nhỏ đến mức không thể tách riêng và tính riêng biệt cho từng nguyên nhân được. Chẳng hạn, trong các cuộc thi thể thao, khi từng thành viên trong Ban giám khảo đánh giá bằng cho điểm (các môn võ, thể dục dụng cụ...), sẽ có giám khảo cho hơi cao, lại có người cho thấp hơn một chút, đó chính là sai số ngẫu nhiên. Trong ba loại sai số trên, sai số thô, sai số hệ thống cần phát hiện sớm và loại bỏ, còn sai số ngẫu nhiên không thể loại bỏ được trong mỗi lần lấy mẫu.
- Phương pháp loại bỏ sai số thô: Khi tiến hành loại bỏ sai số thô (số liệu lạ) ta cần chú ý:
(i) Trước tiên cần kiểm tra xem có sơ suất hoặc có vi phạm các nguyên tắc cơ bản khi thu thập số liệu không?
(ii) Thử loại bỏ $x_0$ là số liệu bị nghi ngờ rồi tiến hành xử lí số liệu xem kết luận có khác so với khi giữ lại $x_0$ hay không? Nếu không có sai khác đáng kể thì nên giữ lại số liệu $x_0$.
(iii) Nên tham khảo các tài liệu chuyên môn liên quan có thể giải thích cho việc xuất hiện số liệu lạ này sau đó mới quyết định nên giữ hay nên bỏ.
Giả sử ta có dãy số liệu: $x_0, x_1,\cdots, x_n$ ở đó $x_0$ bị nghi ngờ là số dị thường (giá trị nhỏ nhất hoặc lớn nhất) trong dãy số trên. Khi đó ta xét đại lượng: $T=\dfrac{x_0-\overline{x}}{s}$ ($\overline{x}$: trung bình mẫu, $s$: độ lệch chuẩn mẫu hiệu chỉnh, xem phần 3.2.3).
(i) Nếu $T>t_{\alpha/2}(n-1)$ thì loại bỏ giá trị $x_0$ ra khỏi dãy các số liệu trên.
(ii) Nếu $T\leq t_{\alpha/2}(n-1)$ ta kết luận dãy số liệu trên không có số dị thường, trong đó $t_\alpha(n)$ là giá trị tới hạn mức $\alpha$ của phân phối Student $n$ bậc tự do (xem phần 3.4.2). Trong thực tế tùy yêu cầu chính xác của việc xử lí số liệu người ta thường lấy $\alpha$ ở các mức từ 0,01 đến 0,05. Việc đưa ra tiêu chuẩn loại bỏ sai số thô nói trên dựa trên giả thiết các số liệu mẫu lấy từ tổng thể có phân phối chuẩn $\mathcal N(\mu;\sigma^2)$.