Skip navigation

3.5. Kiểm định giả thuyết thống kê

Trong phần này, chúng ta sẽ bàn đến những phương pháp thống kê dùng để trả lời những câu hỏi dạng “có hay không một hiện tượng hay hiệu ứng nào đó”. Ví dụ: dữ liệu của trang web A có được bảo mật tốt không?, loại thuốc này có hiệu nghiệm không?, chất thải của nhà máy này có làm hại sức khỏe của nhân dân xung quanh không?, đạo đức của thanh niên có thực sự phụ thuộc vào hoàn cảnh gia đình?, học viên của Tiểu đoàn A học môn Thống kê tốt hơn học viên của Tiểu đoàn B?... Mỗi tình huống “có hay không” như vậy thường được coi là các giả thuyết, chúng có thể đúng và cũng có thể sai. Vấn đề xác định đúng sai của một giả thuyết sẽ được gọi là kiểm định.

Trong thống kê chúng ta xuất phát từ một mẫu $X_1,X_2,\cdots,X_n$ chọn từ một tổng thể chưa biết phân phối hoặc có phân phối nhưng chưa biết tham số $\theta$. Ta có thể phát biểu nhiều nhận xét khác nhau về các yếu tố chưa biết, đó là các giả thuyết thống kê. Giả thuyết được đưa ra kiểm định được gọi là giả thuyết gốc, kí hiệu là $H_0$. Các giả thuyết khác với giả thuyết gốc được gọi là giả thuyết đối hay đối thuyết, kí hiệu là $H_1$. Ta thừa nhận khi đã chọn cặp $H_0,H_1$ thì việc chấp nhận $H_0$ sẽ chính là bác bỏ $H_1$ và ngược lại. Việc kiểm định một giả thuyết là đúng hay sai dựa trên thông tin mẫu sẽ được gọi là kiểm định thống kê.

Cần chú ý rằng đối thuyết $H_1$ không nhất thiết là phủ định của giả thuyết $H_0$. Chẳng hạn giả thuyết $H_0$: “thu nhập bình quân của cư dân một thành phố nào đó trong 1 năm là 80 triệu đồng”, nếu ta nghi ngờ rằng thu nhập này không đúng thì đối thuyết $H_1$ là khác 80 triệu đồng, $>80$ triệu đồng hoặc $<80$ triệu đồng, ...

Lí thuyết kiểm định giả thuyết thống kê có nhiều ứng dụng trong thực tế, giúp các nhà quản lí kiểm tra tính đúng đắn của các quyết định.

Có một điều mà người học cần hết sức chú ý. Đó là, mỗi phương pháp kiểm định bằng thống kê chỉ thích hợp trong những tình huống nhất định, khi các giả sử nhất định được thoả mãn. Với một vấn đề kiểm định thống kê trong thực tế cần thực hiện, thì phải chọn lựa phương pháp đúng đắn, và rất có thể là phương pháp mà người học cần đến không nằm trong giáo trình này, do đó bạn đọc sẽ phải tìm hiểu sâu thêm về thống kê để chọn lựa được phương pháp thích hợp cho vấn đề của mình.

3.5.1. Các nguyên tắc chung của kiểm định giả thuyết thống kê

Nguyên tắc chung của kiểm định giả thuyết thống kê dựa trên hai nguyên lí sau:

- Nguyên lí xác suất nhỏ: nếu một sự kiện có xác suất xuất hiện rất nhỏ thì có thể coi rằng nó không xảy ra khi thực hiện một phép thử có liên quan đến sự kiện đó.

- Phương pháp phản chứng: nếu từ giả thuyết $H_0$ đúng dẫn đến một điều vô lí thì ta bác bỏ $H_0$ (chấp nhận đối thuyết $H_1$).

Dựa vào hai nguyên lí này ta đưa ra phương pháp chung để kiểm định một giả thuyết thống kê như sau: Để kiểm định $H_0$, trước hết giả sử $H_0$ đúng, từ đó ta tìm được sự kiện A mà xác suất xuất hiện sự kiện A là rất nhỏ và ta có thể xem A không thể xảy ra trong một phép thử về sự kiện này. Lúc đó nếu trên một mẫu cụ thể quan sát được mà sự kiện A xuất hiện thì điều này trái với nguyên lí xác suất nhỏ. Vậy $H_0$ sai và bác bỏ nó; ngược lại, nếu A không xảy ra thì ta chưa có cơ sở để bác bỏ $H_0$. Ta thực hiện phương pháp trên bằng các bước cụ thể sau:

a) Tiêu chuẩn kiểm định giả thuyết thống kê

Từ BNN gốc $X$ của tổng thể lập mẫu ngẫu nhiên $X_1,\cdots,X_n$, chọn thống kê $T=T(X_1,\cdots,X_n)$ có thể phụ thuộc vào tham số đã biết trong giả thuyết $H_0$. Nếu giả thuyết $H_0$ đúng thì luật phân phối của $T$ phải hoàn toàn xác định. Một thống kê như vậy được gọi là tiêu chuẩn kiểm định.

b) Quy tắc kiểm định

Nếu ta thành công trong việc chia miền xác định của tiêu chuẩn kiểm định $T$ thành hai phần $R_\alpha$ và $\overline{R_\alpha}$ trong đó $R_\alpha$ là miền bác bỏ $H_0$, còn $\overline{R_\alpha}$ là miền chấp nhận $H_0$, thì quy tắc kiểm định khá đơn giản: với $\alpha$ rất nhỏ cho trước (thường $\alpha\in[0,01;0,05]$) và với điều kiện $H_0$ đúng, nếu $$\label{3.12} P(T\in R_\alpha|H_0)=\alpha \tag{3.13}$$ thì ta bác bỏ $H_0$; nếu ngược lại, ta chấp nhận $H_0$. Giá trị $\alpha$ được gọi là mức ý nghĩa của kiểm định.

So sánh giá trị của tiêu chuẩn kiểm định $T$ với miền bác bỏ $R_\alpha$ và kết luận theo quy tắc sau:

(i) Nếu $T\in R_\alpha$, theo nguyên tắc kiểm định thì $H_0$ sai, do đó ta bác bỏ $H_0$, thừa nhận $H_1$.

(ii) Nếu $T\notin R_\alpha$ thì điều này chưa khẳng định rằng $H_0$ đúng mà chỉ có nghĩa là qua mẫu cụ thể này chưa khẳng định được $H_0$ sai. Do đó ta chỉ có thể nói rằng qua mẫu cụ thể này chưa có cơ sở để bác bỏ $H_0$ (trên thực tế là thừa nhận $H_0$).

c) Sai lầm loại I và sai lầm loại II

Với quy tắc kiểm định như trên có thể mắc hai loại sai lầm sau đây:

(i) Sai lầm loại I: bác bỏ một giả thuyết đúng. Từ \eqref{3.12}, ta thấy xác suất mắc sai lầm loại I đúng bằng mức ý nghĩa $\alpha$. Sai lầm loại I sinh ra do kích thước mẫu quá nhỏ, do phương pháp lấy mẫu...

(ii) Sai lầm loại II: chấp nhận một giả thuyết sai. Xác suất sai lầm loại II là $\beta$ xác định như sau: $$\label{3.13}P(T\notin R_\alpha|H_1)=\beta.\tag{3.14}$$

Ta gọi $P(T\in R_\alpha|H_1)=1-\beta$ là lực lượng kiểm định của tiêu chuẩn $T$.

Cả hai loại sai lầm đều có thể gây ra những hậu quả không tốt, chúng ta mong muốn cả hai xác suất \eqref{3.12} và \eqref{3.13} càng nhỏ càng tốt. Trong thực tế ta không thể đồng thời làm giảm cả hai xác suất đó, tức là muốn $\alpha$ giảm thì $\beta$ tăng và ngược lại. Vì muốn hạn chế sai lầm loại I, ta có xu hướng dè dặt trong việc bác bỏ và sẽ có khuynh hướng dễ dãi trong việc chấp nhận, khi đó lại dễ phạm sai lầm loại II. Còn muốn giảm sai lầm loại II, ta dè dặt trong việc chấp nhận và dẫn đến dễ dãi trong việc bác bỏ. Điều này làm cho nguy cơ phạm sai lầm loại I tăng lên. (Tất nhiên có một cách làm giảm cả hai xác suất sai lầm nếu tăng kích thước mẫu $n$ lên. Nhưng khi đó chi phí cũng tăng lên và đôi khi ta không trực tiếp làm ra được số liệu).

$H_0$ đúng $H_0$ sai
Bác bỏ $H_0$ Sai lầm loại I, $\alpha$ Quyết định đúng, $1-\beta$
Không bác bỏ $H_0$ Quyết định đúng, $1-\alpha$ Sai lầm loại II, $\beta$

Giải quyết mâu thuẫn này bằng cách nào?

Thực ra sai lầm loại I và loại II rất tương đối, nó không có sẵn từ đầu, mà chỉ xác định khi ta đã đặt giả thuyết. Chẳng hạn đối với một bác sĩ khám bệnh, ông ta có thể phạm phải một trong hai tình huống sai lầm sau:

(A) Người có bệnh, sau khi xét nghiệm, ông kết luận không có bệnh.

(B) Người không bệnh, sau khi xét nghiệm, ông kết luận: nhập viện!

- Đâu là sai lầm loại I? Tất nhiên là chưa thể trả lời được. Nếu bác sĩ đặt giả thuyết $H_0$: “người này có bệnh” thì trường hợp (A) là sai lầm loại I và (B) là sai lầm loại II. Còn nếu bác sĩ đặt giả thuyết $H_0$: “người này không bệnh” thì trường hợp (A) là sai lầm loại II còn (B) là sai lầm loại I.

- Nên đặt giả thuyết thế nào? Muốn vậy, ta phải xem xét sai lầm nào quan trọng hơn, tức là khi phạm phải sẽ chịu tổn thất lớn hơn, thì ta sẽ đặt bài toán để sai lầm đó là loại I. Với trường hợp trên, ta chọn đặt giả thuyết $H_0$: “người này có bệnh”. Sau khi đã đặt bài toán và xác định được sai lầm loại I, các nhà thống kê đưa ra phương pháp sau: cố định xác suất sai lầm loại I không vượt quá mức ý nghĩa $\alpha$ nhỏ (không đáng kể) nào đó, với mẫu kích thước $n$ xác định, ta chọn ra miền bác bỏ $R_\alpha$ sao cho xác suất sai lầm loại II $\beta$ là nhỏ nhất hoặc có thể chấp nhận được. Việc chọn mức ý nghĩa $\alpha$ bằng bao nhiêu tùy thuộc vào từng trường hợp cụ thể, tùy thuộc vào ý nghĩa của bài toán. Với mỗi cặp giả thuyết và đối thuyết đã cho, không phải lúc nào cũng tồn tại hoặc tìm được một quy tắc sao cho lực lượng của phép kiểm định $1-\beta$ là lớn nhất. Những quy tắc đưa ra trong giáo trình này là những quy tắc thông dụng.

d) Thủ tục kiểm định giả thuyết thống kê

Qua nội dung trình bày ở trên ta có thể xây dựng một thủ tục kiểm định giả thuyết thống kê bao gồm các bước sau:

(i) Phát biểu giả thuyết $H_0$ và đối thuyết $H_1$.

(ii) Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên kích thước $n$.

(iii) Chọn tiêu chuẩn kiểm định $T$ và xác định quy luật phân phối xác suất của $T$ với điều kiện giả thuyết $H_0$ đúng.

(iv) Dựa vào luật phân phối xác suất của $T$, tìm miền bác bỏ $R_\alpha$ sao cho $$P(T\in R_\alpha|H_0)=\alpha.$$

(v) Dựa vào mẫu cụ thể kích thước $n$, tính các thông số của mẫu cần thiết, thay thế vào thống kê $T$ tính được giá trị $T_0$ và gọi là giá trị quan sát thực tế hay giá trị thực nghiệm của thống kê $T$ tương ứng với mẫu.

(vi) So sánh giá trị quan sát $T_0$ của tiêu chuẩn kiểm định $T$ với miền bác bỏ $R_\alpha$ và kết luận.

Ví dụ 3.14. Tung một đồng tiền 20 lần, ra 2 lần mặt sấp và 18 lần mặt ngửa. Có thể coi đồng tiền là cân bằng (hai mặt sấp và ngửa đều có xác suất 50%) không? Giả thuyết $H_0$ là “đồng tiền cân bằng”.

3.5.2. Các kiểm định dùng một mẫu

a) Kiểm định về kì vọng của tổng thể có phân phối chuẩn

Giả sử BNN của tổng thể là $X\sim\mathcal N(\mu;\sigma^2)$ và mẫu ngẫu nhiên $(X_1,\cdots,X_n)$. Bài toán đặt ra là với mức ý nghĩa $\alpha$ cho trước hãy kiểm định giả thuyết $H_0: \mu=\mu_0$ (với $\mu_0$ cho trước).

(i) Trường hợp phương sai $\sigma^2$ đã biết 

Chọn tiêu chuẩn kiểm định $T=\dfrac{\overline{X}-\mu_0}{\sigma}\sqrt{n}$. Từ giả thiết phân phối chuẩn của $X$ (hoặc theo Định lí 2.6) ta có $T\sim\mathcal N(0;1)$. Ta xây dựng các miền bác bỏ dựa vào đối thuyết $H_1$ như sau:

- Kiểm định hai phía: khi $H_1:\mu\neq\mu_0$, từ (2.9) ta có $P(|T|>U_{\alpha/2}|H_0)=\alpha$, do đó miền bác bỏ là $$ R_\alpha=(-\infty;-U_{\alpha/2})\cup (U_{\alpha/2};+\infty).$$

- Kiểm định một phía:

• Nếu $H_1:\mu>\mu_0$, từ (2.9) ta có $P(T>U_{\alpha}|H_0)=\alpha$, do đó miền bác bỏ là $R_\alpha=(U_{\alpha};+\infty)$;

• Nếu $H_1:\mu<\mu_0$, từ khái niệm hàm phân phối và Định nghĩa 2.19 ta có $$P(T<-U_\alpha|H_0)=\Phi(-U_{\alpha})=1-\Phi(U_{\alpha})=\alpha,$$ do đó miền bác bỏ là $(-\infty;-U_{\alpha})$.

Với mẫu cụ thể, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là $T_0=\dfrac{\overline{x}-\mu_0}{\sigma}\sqrt{n}$ và so sánh với miền bác bỏ $R_\alpha$ để kết luận.

Ví dụ 3.15. Một hãng bảo hiểm thông báo “số tiền trung bình hãng chi trả cho khách hàng bị tai nạn ôtô là 170 triệu đồng”. Để kiểm tra lại, người ta kiểm tra ngẫu nhiên hồ sơ chi trả của 25 trường hợp thì thấy trung bình mẫu là 180 triệu đồng. Giả sử số tiền chi trả tuân theo luật phân phối chuẩn với $\sigma=50$ triệu đồng, hãy kiểm định lại thông báo của hãng bảo hiểm trên với $\alpha=0,05$.

(ii) Trường hợp phương sai $\sigma^2$ chưa biết và kích thước mẫu $n\geq 30$

Khi kích thước mẫu đủ lớn ($n\geq 30$) thì độ lệch chuẩn $\sigma$ có thể được xấp xỉ bởi độ lệch chuẩn mẫu hiệu chỉnh $S$. Hơn nữa, theo Định lí giới hạn trung tâm 2.6 thì thống kê $\dfrac{\overline{X}-\mu}{\sigma}\sqrt{n}\sim\mathcal N(0;1)$. Ta xây dựng các miền bác bỏ dựa vào đối thuyết $H_1$ tương tự như trong trường hợp (i), tức là:

- Kiểm định hai phía: khi $H_1: \mu\neq\mu_0$ thì miền bác bỏ là $$ R_\alpha=(-\infty;-U_{\alpha/2})\cup (U_{\alpha/2};+\infty).$$

- Kiểm định một phía:

• Nếu $H_1:\mu>\mu_0$ thì miền bác bỏ là $R_\alpha=(U_{\alpha};+\infty)$;

• Nếu $H_1:\mu<\mu_0$ thì miền bác bỏ là $R_\alpha=(-\infty;-U_{\alpha})$.

Với mẫu cụ thể, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là $T_0=\dfrac{\overline{x}-\mu_0}{s}\sqrt{n}$ và so sánh với miền bác bỏ $R_\alpha$ để kết luận.

(iii) Trường hợp phương sai $\sigma^2$ chưa biết và kích thước mẫu $n<30$ 

Từ (3.10), thống kê $T=\dfrac{\overline{X}-\mu}{S}\sqrt{n}\sim T(n-1)$. Do đó, sử dụng tính chất (iii) của phân phối Student, ta xây dựng các miền bác bỏ theo đối thuyết $H_1$ như sau: 

- Kiểm định hai phía: khi $H_1: \mu\neq\mu_0$, ta có $P(|T|>t_{\alpha/2}(n-1)|H_0)=\alpha$, do đó miền bác bỏ là $$R_\alpha=\big(-\infty;-t_{\alpha/2}(n-1)\big)\cup \big(t_{\alpha/2}(n-1);+\infty\big).$$

- Kiểm định một phía:

• Nếu $H_1:\mu>\mu_0$, ta có $P\big(T>t_{\alpha}(n-1)|H_0\big)=\alpha$, do đó miền bác bỏ là $R_\alpha=\big(t_{\alpha}(n-1);+\infty\big)$;

• Nếu $H_1:\mu<\mu_0$, ta có $P\big(T<-t_\alpha(n-1)|H_0\big)=\alpha$, do đó miền bác bỏ là $R_\alpha=\big(-\infty;-t_{\alpha}(n-1)\big)$.

Với mẫu cụ thể, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là $T_0=\dfrac{\overline{x}-\mu_0}{s}\sqrt{n}$ và so sánh với miền bác bỏ $R_\alpha$ để kết luận.

Ví dụ 3.16. Độ dài chi tiết một máy thông tin là BNN $X$ có luật phân phối chuẩn. Kiểm tra 28 sản phẩm thu được số liệu như sau: (đơn vị tính cm)

20,04 20,04 19,99 20,01 20,00 20,02 20,01 20,02 20,04 20,02
20,00 20,02 19,99 19,97 20,02 19,99 19,99 19,97 20,00 20,04
19,97 20,00 20,00 20,02 20,01 19,97 20,04 19,99

 Với độ tin cậy 95%, có thể cho rằng trung bình độ dài chi tiết máy này bằng 20cm hay không?

b) Kiểm định về tỉ lệ của tổng thể có phân phối Bernoulli

Bài toán kiểm định về tỉ lệ: với mức ý nghĩa $\alpha$, hãy xác định giả thuyết $H_0: p=p_0$ biết $p$ là tham số của phân phối Bernoulli $\mathcal B(1;p)$.

Trong bài toán khoảng tin cậy cho tỉ lệ, ta đã biết nếu kích thước mẫu $n$ đủ lớn (tức là $n.p\geq 5$ và $n.(1-p)\geq 5$) thì phân phối chuẩn có thể được dùng xấp xỉ phân phối nhị thức $\mathcal B(n;p)$, khi đó tần suất mẫu $f\sim \mathcal N\left(p;\dfrac{p(1-p)}{n}\right)$ và tiêu chuẩn kiểm định $T=\dfrac{f-p}{\sqrt{p(1-p)}}\sqrt{n}\sim\mathcal N(0;1)$. Từ đó bài toán kiểm định về tỉ lệ không có khác biệt căn bản so với kiểm định về kì vọng.

- Kiểm định hai phía: khi $H_1: p\neq p_0$ thì miền bác bỏ là $$R_\alpha=(-\infty;-U_{\alpha/2})\cup (U_{\alpha/2};+\infty).$$

- Kiểm định một phía:

• Nếu $H_1:\mu>\mu_0$ thì miền bác bỏ là $R_\alpha=(U_{\alpha};+\infty)$;

• Nếu $H_1:\mu<\mu_0$ thì miền bác bỏ là $(-\infty;-U_{\alpha})$.

Ví dụ 3.17. Một tạp chí công nghệ thông tin thông báo có 25% học sinh phổ thông trung học là độc giả thường xuyên. Một mẫu ngẫu nhiên gồm 200 học sinh được chọn cho thấy có 45 em đọc tạp chí đó thường xuyên. Kiểm định tính chính xác của thông báo trên với mức ý nghĩa 0,05.

c) Kiểm định về phương sai của biến ngẫu nhiên có phân phối chuẩn

Giả sử BNN $X$ của tổng thể có luật phân phối chuẩn $\mathcal N(\mu;\sigma^2)$ trong đó phương sai $\sigma^2$ chưa biết. Ta kiểm định giả thuyết $H_0: \sigma^2=\sigma_0^2$. Theo tính chất (iii) của phân phối $\chi^2$ thì $T=\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$. Khi giả thuyết $H_0$ đúng, thống kê $T$ trở thành $T=\dfrac{(n-1)S^2}{\sigma_0^2}$. Với mức ý nghĩa $\alpha$, sử dụng tính chất (iv) của phân phối khi bình phương, ta xây dựng các miền bác bỏ tùy thuộc vào đối thuyết $H_1$ như sau:

- Kiểm định hai phía: khi $H_1: \sigma^2\neq\sigma_0^2$, ta có $$P(\chi^2_{1-\alpha/2}(n-1)<T<\chi^2_{\alpha/2}(n-1))=P(T<\chi^2_{\alpha/2}(n-1))-P(T<\chi^2_{1-\alpha/2}(n-1))=1-\alpha,$$ do đó miền bác bỏ là $$R_\alpha=\big(-\infty;\chi^2_{1-\alpha/2}(n-1)\big)\cup \big(\chi^2_{\alpha/2}(n-1);+\infty\big).$$

- Kiểm định một phía:

• Nếu $H_1:\sigma^2>\sigma^2_0$, ta có $P\big(T>\chi^2_{\alpha}(n-1)|H_0\big)=\alpha$, do đó miền bác bỏ là $R_\alpha=\big(\chi^2_{\alpha}(n-1);+\infty\big)$;

• Nếu $H_1:\sigma^2<\sigma^2_0$, ta có $P\big(T<\chi^2_{1-\alpha}(n-1)|H_0\big)=\alpha$, do đó miền bác bỏ là $R_\alpha=\big(-\infty;\chi^2_{1-\alpha}(n-1)\big)$.

Ví dụ 3.18. Để kiểm tra độ chính xác của một máy người ta đo ngẫu nhiên kích thước của 15 chi tiết do máy đó sản xuất và tính được $s^2=14,6$. Với $\alpha=0,01$ hãy kết luận về hoạt động của máy, biết rằng kích thước chi tiết do máy đó sản xuất ra là BNN có phân phối chuẩn có dung sai theo thiết kế là $\sigma^2=12$.

3.5.3. Các kiểm định dùng nhiều mẫu

a) So sánh hai kì vọng của hai tổng thể có phân phối chuẩn

Đây là bài toán được dùng khá rộng, mỗi khi cần so sánh hai tổng thể hoặc hai BNN, đặc trưng đầu tiên thường hay được dùng chính là giá trị trung bình.

Giả sử hai tổng thể với hai BNN tương ứng $X\sim\mathcal N(\mu_X;\sigma^2_X)$ và $Y\sim\mathcal N(\mu_Y;\sigma^2_Y)$. Nếu muốn so sánh $\mu_X$ và $\mu_Y$, người ta đưa ra giả thuyết $H_0: \mu_X=\mu_Y$ và kiểm định giả thuyết trên theo các trường hợp sau:

(i) Trường hợp hai phương sai $\sigma_X^2$ và $\sigma_Y^2$ đã biết

Lấy hai mẫu ngẫu nhiên độc lập kích thước tương ứng là $n_1$, $n_2$ của dấu hiệu nghiên cứu $X$, $Y$. Khi đó tiêu chuẩn kiểm định $$T=\dfrac{(\overline{X}-\overline{Y})-(\mu_X-\mu_Y)}{\sqrt{\dfrac{\sigma_X^2}{n_1}+\dfrac{\sigma_Y^2}{n_2}}}\sim\mathcal N(0,1).$$

Nếu giả thuyết $H_0$ đúng thì $\mu_X-\mu_Y=0$ và khi đó $$T=\dfrac{(\overline{X}-\overline{Y})}{\sqrt{\dfrac{\sigma_X^2}{n_1}+\dfrac{\sigma_Y^2}{n_2}}}\sim\mathcal N(0,1).$$

Với mức ý nghĩa $\alpha$ cho trước và tùy thuộc vào dạng của đối thuyết $H_1$, tương tự trường hợp (i) trong phần a) của 3.5.2 ta có thể xây dựng các miền bác bỏ tương ứng như sau:

- Kiểm định hai phía: khi $H_1: \mu_X\neq\mu_Y$ thì miền bác bỏ là $$R_\alpha=(-\infty;-U_{\alpha/2})\cup (U_{\alpha/2};+\infty).$$

- Kiểm định một phía:

• Nếu $H_1:\mu_X>\mu_Y$ thì miền bác bỏ là $R_\alpha=(U_{\alpha};+\infty)$;

• Nếu $H_1:\mu_X<\mu_Y$ thì miền bác bỏ là $(-\infty;-U_{\alpha})$.

Với hai mẫu cụ thể, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là $T_0=\dfrac{(\overline{x}-\overline{y})}{\sqrt{\dfrac{\sigma_X^2}{n_1}+\dfrac{\sigma_Y^2}{n_2}}}$ và so sánh với miền bác bỏ $R_\alpha$ để kết luận.

(ii) Trường hợp hai phương sai $\sigma_X^2$ và $\sigma_Y^2$ chưa biết và $n_1,n_2\geq 30$ 

Khi kích thước mẫu đủ lớn ta có thể xấp xỉ các phương sai $\sigma_X^2, \sigma_Y^2$ bởi các ước lượng không chệch tương ứng của chúng là $S_X^2, S_Y^2$. Miền bác bỏ được xây dựng tương tự như trường hợp hai phương sai $\sigma_X^2$ và $\sigma_Y^2$ đã biết với tiêu chuẩn kiểm định $T=\dfrac{(\overline{X}-\overline{Y})}{\sqrt{\dfrac{S_X^2}{n_1}+\dfrac{S_Y^2}{n_2}}}$.

(iii) Trường hợp hai phương sai $\sigma_X^2$ và $\sigma_Y^2$ chưa biết và $\sigma_X^2=\sigma_Y^2$ 

Chọn thống kê sau làm tiêu chuẩn kiểm định $$T=\dfrac{(\overline{X}-\overline{Y})-(\mu_X-\mu_Y)}{\sqrt{\dfrac{(n_1-1)S_X^2+(n_1-1)S_Y^2}{n_1+n_2-2}}\cdot\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim T(n_1+n_2-2).$$

Nếu giả thuyết $H_0$ đúng thì $\mu_X-\mu_Y=0$ và khi đó $$T=\dfrac{(\overline{X}-\overline{Y})}{\sqrt{\dfrac{(n_1-1)S_X^2+(n_1-1)S_Y^2}{n_1+n_2-2}}\cdot\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim T(n_1+n_2-2).$$

Với mức ý nghĩa $\alpha$ cho trước và tùy thuộc vào dạng của đối thuyết $H_1$, tương tự trường hợp (iii) trong phần a) của 3.5.2 ta có thể xây dựng các miền bác bỏ tương ứng như sau:

- Kiểm định hai phía: khi $H_1: \mu_X\neq\mu_Y$ thì miền bác bỏ là $$R_\alpha=\big(-\infty;-t_{\alpha/2}(n_1+n_2-2)\big)\cup \big(t_{\alpha/2}(n_1+n_2-2);+\infty\big).$$

- Kiểm định một phía:

• Nếu $H_1:\mu_X>\mu_Y$ thì miền bác bỏ là $R_\alpha=\big(t_{\alpha}(n_1+n_2-2);+\infty\big)$;

• Nếu $H_1:\mu_X<\mu_Y$ thì miền bác bỏ là $R_\alpha=\big(-\infty;-t_{\alpha}(n_1+n_2-2)\big)$.

Với hai mẫu cụ thể, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là $T_0=\dfrac{(\overline{x}-\overline{y})}{\sqrt{\dfrac{(n_1-1)s_X^2+(n_1-1)s_Y^2}{n_1+n_2-2}}\cdot\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}$, so sánh với miền bác bỏ $R_\alpha$ để kết luận.

Ví dụ 3.19. Để đánh giá kết quả học tập môn Xác suất thống kê của hai trung đội A, B của đại đội 1, tiểu đoàn 28, Đại đội trưởng lấy ra 2 mẫu đại diện từ kết quả thi kết thúc môn:

Trung đội A $n_1=20$ $\overline{x}=7,0$ $s_X=1,2$
Trung đội B $n_2=20$ $\overline{y}=6,5$ $s_Y=1,0$

Giả sử điểm thi của hai đại đội đều có phân phối chuẩn và $\sigma^2_X=\sigma^2_Y$.

a) Với mức ý nghĩa $\alpha=0,05$ có thể kết luận trung đội A có kết quả thi môn Xác suất thống kê tốt hơn trung đội B hay không?

b) Với độ tin cậy 95% có thể nói điểm trung bình của trung đội B cao nhất là bao nhiêu, của trung đội A thấp nhất là bao nhiêu?

(iv) Trường hợp hai phương sai $\sigma_X^2$ và $\sigma_Y^2$ chưa biết và $\sigma_X^2\neq\sigma_Y^2$

Chọn thống kê sau làm tiêu chuẩn kiểm định $$T=\dfrac{(\overline{X}-\overline{Y})-(\mu_X-\mu_Y)}{\sqrt{\dfrac{S_X^2}{n_1}+\dfrac{S_Y^2}{n_2}}}\sim T(k),$$ trong đó $$k=\left[\dfrac{(n_1-1)(n_2-1)}{(n_2-1)C^2+(n_1-1)(1-C)^2}\right]\quad\text{và}\quad C=\dfrac{S_X^2/n_1}{S_X^2/n_1+S_Y^2/n_2}.$$

Nếu giả thuyết $H_0$ đúng thì $\mu_X-\mu_Y=0$ và khi đó $$T=\dfrac{(\overline{X}-\overline{Y})}{\sqrt{\dfrac{S_X^2}{n_1}+\dfrac{S_Y^2}{n_2}}}\sim T(k).$$

Với mức ý nghĩa $\alpha$ cho trước và tùy thuộc vào dạng của đối thuyết $H_1$, tương tự trường hợp (iii) trong phần a) của 3.5.2 ta có thể xây dựng các miền bác bỏ tương ứng như sau:

- Kiểm định hai phía: khi $H_1: \mu_X\neq\mu_Y$ thì miền bác bỏ là $$R_\alpha=\big(-\infty;-t_{\alpha/2}(k)\big)\cup \big(t_{\alpha/2}(k);+\infty\big).$$

- Kiểm định một phía:

• Nếu $H_1:\mu_X>\mu_Y$ thì miền bác bỏ là $R_\alpha=\big(t_{\alpha}(k);+\infty\big)$;

• Nếu $H_1:\mu_X<\mu_Y$ thì miền bác bỏ là $R_\alpha=\big(-\infty;-t_{\alpha}(k)\big)$. Với hai mẫu cụ thể, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là $T_0=\dfrac{(\overline{x}-\overline{y})}{\sqrt{\dfrac{s_X^2}{n_1}+\dfrac{s_Y^2}{n_2}}}$ và so sánh với miền bác bỏ $R_\alpha$ để kết luận.

Ví dụ 3.20. Để kiểm nghiệm hiệu quả của một sáng kiến mới nhằm tăng năng suất sản xuất, người ta chọn ngẫu nhiên 7 ngày làm việc của từng nhóm: Nhóm I có áp dụng phương pháp mới và Nhóm II không áp dụng phương pháp mới. Kết quả có được về năng suất của từng nhóm như sau:

Nhóm I 40 54 26 63 21 37 39
Nhóm II 18 43 28 50 16 32 13

Với mức ý nghĩa $\alpha=0,05$ hãy kết luận xem phương pháp mới nói trên có thực sự hiệu quả không. Giả thiết năng suất của mỗi nhóm có phân phối chuẩn.

b) So sánh hai tỉ lệ của hai tổng thể có phân phối Bernoulli

Giả sử ta xét cùng một lúc hai tổng thể. Ở tổng thể thứ nhất tần suất xuất hiện của dấu hiệu A là $p_X$, ở tổng thể thứ hai tần suất xuất hiện của dấu hiệu A là $p_Y$. Ta có thể xem dấu hiệu nghiên cứu của tổng thể thứ nhất là BNN $X\sim \mathcal B(1;p_X)$ và dấu hiệu nghiên cứu của tổng thể thứ hai là BNN $Y\sim\mathcal B(1;p_Y)$. Nếu muốn so sánh $p_X$ và $p_Y$, người ta đưa ra giả thuyết $H_0: p_X=p_Y$. Khi các mẫu có kích thước đủ lớn ($n_1,n_2\geq 30$) thì thống kê sau $$T=\dfrac{(f_X-f_Y)-(p_X-p_Y)}{\sqrt{\dfrac{p_X(1-p_X)}{n_1}+\dfrac{p_Y(1-p_Y)}{n_2}}}\sim\mathcal N(0;1),$$ trong đó $f_X, f_Y$ tương ứng là tần suất mẫu của các BNN $X, Y$.

Nếu giả thuyết $H_0$ đúng, tức là $p_X=p_Y=p_0$ thì $$T=\dfrac{(f_X-f_Y)}{\sqrt{p_0(1-p_0)\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)}}\sim\mathcal N(0;1).$$

Thông thường $p_0$ chưa biết nên được thay bằng ước lượng (trung bình cộng) $$\overline{f}=\dfrac{n_1f_X+n_2f_Y}{n_1+n_2}.$$

Như vậy tiêu chuẩn kiểm định $$T=\dfrac{(f_X-f_Y)}{\sqrt{\overline{f}(1-\overline{f})\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)}}\sim\mathcal N(0;1).$$

Với mức ý nghĩa $\alpha$ cho trước và tùy thuộc vào dạng của đối thuyết $H_1$, tương tự trường hợp (i) trong phần b) 3.5.2 ta có các miền bác bỏ tương ứng như sau:

- Kiểm định hai phía: khi $H_1: p_X\neq p_Y$ thì miền bác bỏ là $$R_\alpha=(-\infty;-U_{\alpha/2})\cup (U_{\alpha/2};+\infty).$$

- Kiểm định một phía:

• Nếu $H_1:p_X>p_Y$ thì miền bác bỏ là $R_\alpha=(U_{\alpha};+\infty)$;

• Nếu $H_1:p_X<p_Y$ thì miền bác bỏ là $(-\infty;-U_{\alpha})$.

Với hai mẫu cụ thể, ta tính được giá trị quan sát của tiêu chuẩn kiểm định là $T_0=\dfrac{(f_X-f_Y)}{\sqrt{\overline{f}(1-\overline{f})\left(\dfrac{1}{n_1}+\dfrac{1}{n_2}\right)}}$ và so sánh với miền bác bỏ $R_\alpha$ để kết luận.

Ví dụ 3.21. Để thăm dò ý kiến của nhân dân về một điều khoản nào đó, người ta chọn ra hai mẫu đại diện ở thành thị và nông thôn. Ở thành thị: $n_1=500$ với 320 ý kiến ủng hộ, Ở nông thôn: $n_2=400$ với 300 ý kiến ủng hộ. Với mức ý nghĩa $\alpha=0,05$ có thể kết luận người dân ở nông thôn ủng hộ điều khoản này cao hơn ở thành thị hay không?

Tra cứu kiến thức môn học close