Ước lượng điểm có một nhược điểm cơ bản là không thể biết được độ chính xác cũng như xác suất để ước lượng đó chính xác, nhất là khi kích thước mẫu nhỏ, sự sai lệch của ước lượng so với giá trị thật là khá lớn. Để khắc phục các hạn chế đó, người ta dựa vào khái niệm ước lượng bằng một khoảng giá trị. Tất nhiên một khoảng ước lượng vẫn có thể sai giống như mọi ước lượng khác, nhưng khác với ước lượng điểm, xác suất sai lầm có thể biết và trong chừng mực nào đó hy vọng có thể kiểm soát được. Nói như vậy không có nghĩa là không nên dùng ước lượng điểm nữa, nó vẫn cho ta một thông tin quan trọng và ước lượng khoảng sẽ được xây dựng xung quanh ước lượng điểm.
3.4. Ước lượng khoảng
3.4.1. Khoảng tin cậy và độ tin cậy
- Độ dài $\hat{\theta}_{2}-\hat{\theta}_1$ được gọi là bề rộng của khoảng tin cậy.
- Hệ số $\alpha:=1-\beta$ được gọi là mức ý nghĩa.
Trong thực tế, khi bề rộng của khoảng tin cậy giảm thì độ tin cậy $\beta$ cũng giảm theo và ngược lại. Vì vậy, trong thống kê người ta thường cố định độ tin cậy $\beta$ và tìm một khoảng tin cậy $[\hat{\theta}_1,\hat{\theta}_2]$ ứng với độ tin cậy này sao cho nó có bề rộng càng nhỏ càng tốt. Thông thường, người ta chọn độ tin cậy $\beta$ trong đoạn $[0,95;0,999]$, khả năng mắc sai lầm khi dùng các ước lượng khoảng là $\alpha$.
Để tìm $\hat{\theta}_1$ và $\hat{\theta}_2$ ứng với độ tin cậy $\beta$, ta thực hiện theo các bước sau:
Bước 1
Tìm một thống kê $\hat{\theta}$ sao cho phân phối xác suất của $\hat{\theta}$ xác định hoàn toàn (không chứa đặc số $\theta$).
Bước 2
Với độ tin cậy $\beta$ cho trước, ta tìm cặp số dương $\alpha_1$ và $\alpha_2$ thỏa mãn $\alpha_1+\alpha_2=\alpha$ và tương đương với chúng là các phân vị $\hat{\theta}_{\alpha_1}$, $\hat{\theta}_{1-\alpha_2}$ thỏa mãn điều kiện $$P(\hat{\theta}<\hat{\theta}_{\alpha_1})=\alpha_1\quad\text{và}\quad P(\hat{\theta}>\hat{\theta}_{1-\alpha_2})=1-P(\hat{\theta}<\hat{\theta}_{1-\alpha_2})=\alpha_2.$$ Khi đó $$P(\hat{\theta}_{\alpha_1}<\hat{\theta}<\hat{\theta}_{1-\alpha_2})=1-\alpha_2-\alpha_1=1-\alpha=\beta.$$
Bước 3
Bằng các phép biến đổi tương đương ta đưa bất đẳng thức trong Bước 2 về dạng $\hat{\theta}_1<\theta<\hat{\theta}_2$ và $P(\hat{\theta}_1<\theta<\hat{\theta}_2)=\beta$, đó chính là khoảng tin cậy cần tìm.
3.4.2. Khoảng tin cậy cho kì vọng
Giả sử BNN của tổng thể là $X\sim\mathcal N(\mu;\sigma^2)$ với tham số kì vọng $\mu$ chưa biết và mẫu ngẫu nhiên $(X_1,\cdots,X_n)$. Bài toán đặt ra là tìm khoảng tin cậy cho $E(X)=\mu$ với độ tin cậy $\beta$ cho trước.
a) Bài toán 1 (phương sai $\mathbf{\sigma^2}$ đã biết)
Chọn thống kê $\hat{\mu}:=Z=\dfrac{\overline{X}-\mu}{\sigma}\sqrt{n}$. Từ giả thiết phân phối chuẩn của $X$ (hoặc theo Định lí 2.6) ta có $Z\sim\mathcal N(0;1)$. Theo (3.5), ta cần tìm các phân vị $z_{\alpha_1}$ và $z_{1-\alpha_2}$ thỏa mãn: \begin{align*}P(z_{\alpha_1}<Z<z_{1-\alpha_2})=\beta&\Leftrightarrow P(z_{\alpha_1}<\dfrac{\overline{X}-\mu}{\sigma}\sqrt{n}<z_{1-\alpha_2})=\beta\\&\Leftrightarrow P(\overline{X}-z_{1-\alpha_2}\dfrac{\sigma}{\sqrt{n}}<\mu<\overline{X}-z_{\alpha_1}\dfrac{\sigma}{\sqrt{n}})=\beta.\end{align*}
Do phân vị của phân phối chuẩn có tính chất $-z_{\alpha_1}=z_{1-\alpha_1}$ nên từ đẳng thức trên ta thu được khoảng tin cậy cần tìm là $$\label{3.6}\overline{X}-z_{1-\alpha_2}\dfrac{\sigma}{\sqrt{n}}<\mu<\overline{X}+z_{1-\alpha_1}\dfrac{\sigma}{\sqrt{n}}.\tag{3.7}$$
Từ Định nghĩa 2.19 về giá trị tới hạn mức $\alpha$ của phân phối chuẩn tắc, ta có biểu thức \eqref{3.6} tương đương với $$\label{3.7}\overline{X}-U_{\alpha_2}\dfrac{\sigma}{\sqrt{n}}<\mu<\overline{X}+U_{\alpha_1}\dfrac{\sigma}{\sqrt{n}}. \tag{3.8}$$
Như vậy đối với độ tin cậy $\beta$ cho trước, ta sẽ có vô số cặp $\alpha_1,\alpha_2$ thỏa mãn $\alpha_1+\alpha_2=\alpha$ và tương ứng có vô số khoảng tin cậy. Một số trường hợp đặc biệt:
(i) Khoảng tin cậy đối xứng: Nếu ta chọn $\alpha_1=\alpha_2=\dfrac{\alpha}{2}$ thì từ \eqref{3.7} ta có $$\overline{X}-U_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}<\mu<\overline{X}+U_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}.$$
Đại lượng $\varepsilon=U_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ được gọi là độ chính xác (hay sai số) của ước lượng, nó phản ánh độ lệch của trung bình mẫu so với kì vọng lí thuyết với độ tin cậy $\beta$.
Với độ chính xác $\varepsilon_0$ và độ tin cậy $\beta$ cho trước thì kích thước mẫu cần thiết là số tự nhiên $n$ nhỏ nhất thỏa mãn: $n\geq \dfrac{\sigma^2U^2_{\alpha/2}}{\varepsilon_0^2}$.
(ii) Khoảng tin cậy phải: Nếu chọn $\alpha_1=0$ và $\alpha_2=\alpha$ thì $U_0=+\infty$ và khoảng tin cậy là $$\left(\overline{X}-U_{\alpha}\dfrac{\sigma}{\sqrt{n}};+\infty\right).$$
(iii) Khoảng tin cậy trái: Nếu chọn $\alpha_1=\alpha$ và $\alpha_2=0$ thì $U_0=+\infty$ và khoảng tin cậy là $$\left(-\infty;\overline{X}+U_{\alpha}\dfrac{\sigma}{\sqrt{n}}\right).$$
Nếu không nói rõ tìm khoảng tin cậy bên phải hay bên trái thì ta quy ước là cần tìm khoảng tin cậy đối xứng.
Ví dụ 3.10. Khối lượng sản phẩm là BNN $X$ có luật phân phối chuẩn, biết rằng phương sai $\sigma^2=4g^2$. Kiểm tra 25 sản phẩm, tính được khối lượng trung bình là 20g.
a) Tìm khoảng tin cậy 95% cho khối lượng trung bình của sản phẩm.
b) Nếu sai số ước lượng $\varepsilon=0,4$g thì độ tin cậy của ước lượng là bao nhiêu?
c) Với $\varepsilon<0,4$g, muốn độ tin cậy 95% thì phải kiểm tra ít nhất mấy sản phẩm?
Thông tin đầu vào gồm: $\overline{x}=20$, $\sigma=2$, $n=25$.
a) Ta chọn khoảng tin cậy đối xứng, tức là cần tính sai số $\varepsilon=U_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$. Với độ tin cậy 95% thì $\alpha=0,05$, tra Bảng II phần Phụ lục ta được $$ \Phi(U_{\alpha/2})=1-\dfrac{\alpha}{2}=0,975\Leftrightarrow U_{\alpha/2}=1,96. $$
Vậy khoảng ước lượng trung bình khối lượng sản phẩm với độ tin cậy 95% là $$\left(20-1,96\cdot\dfrac{2}{5};20+1,96\cdot\dfrac{2}{5}\right)\text{ hay }(19,216;20,784).$$
b) Với $\varepsilon=0,4$, khi đó $$ U_{\alpha/2}=\dfrac{\varepsilon\sqrt{n}}{\sigma}=\dfrac{0,4.5}{2}=1. $$
Tra Bảng II ta được $\Phi(1)=0,8413=1-\dfrac{\alpha}{2}$ nên $\alpha=0,3174$. Vậy độ tin cậy là $1-0,3174=0,6826$ hay $68,26%$.
c) Với $\varepsilon<0,4$ và $U_{0,05/2}=1,96$ thì $$ U_{\alpha/2}\cdot\dfrac{\sigma}{\sqrt{n}}<0,4\Leftrightarrow n>U^2_{\alpha/2}\cdot\dfrac{\sigma^2}{(0,4)^2}=(1,96)^2\cdot\dfrac{2^2}{(0,4)^2}=96,04. $$
Vì $n$ là số nguyên nên $n\geq 97$ hay phải kiểm kiểm tra ít nhất 97 sản phẩm.
Chú ý: Công thức sai số $\varepsilon$ cho thấy: độ tin cậy $1-\alpha$ càng lớn thì sai số $\varepsilon$ càng lớn, do đó khoảng ước lượng $(\overline{X}-\varepsilon;\overline{X}+\varepsilon)$ cho giá trị thông tin thấp. Kết quả câu b) cho thấy nếu giảm sai số $\varepsilon$ thì khoảng ước lượng $(\overline{X}-\varepsilon;\overline{X}+\varepsilon)$ có giá trị thông tin cao nhưng độ tin cậy của ước lượng giảm xuống. Như vậy, muốn có sai số $\varepsilon$ nhỏ và độ tin cậy $1-\alpha$ lớn thì tăng kích thước mẫu $n$, tương tự kết quả câu c).
b) Bài toán 2 (phương sai $\sigma^2$ chưa biết, kích thước mẫu $n\geq 30$)
Trong nhiều bài toán thực tế, ta không biết phương sai $\sigma^2$ của BNN tổng thể $X$. Nhưng nếu kích thước mẫu $n$ đủ lớn ($n \geq 30$), ta có thể xấp xỉ độ lệch chuẩn $\sigma$ bởi độ lệch chuẩn mẫu hiệu chỉnh $S$ (vì $S^2$ là ước lượng vững, không chệch của $\sigma^2$). Khi đó khoảng tin cậy của tham số $\mu$ với độ tin cậy $\beta=1-\alpha$ bao gồm:
(i) Khoảng tin cậy đối xứng: $\left(\overline{X}-U_{\alpha/2}\dfrac{S}{\sqrt{n}};\overline{X}+U_{\alpha/2}\dfrac{S}{\sqrt{n}}\right).$
(ii) Khoảng tin cậy phải: $\left(\overline{X}-U_{\alpha}\dfrac{S}{\sqrt{n}};+\infty\right).$
(iii) Khoảng tin cậy trái: $\left(-\infty;\overline{X}+U_{\alpha}\dfrac{S}{\sqrt{n}}\right).$
c) Bài toán 3 (phương sai $\sigma^2$ chưa biết, kích thước mẫu $n< 30$)
Phân phối khi bình phương $n$ bậc tự do $\chi^2(n)$:
Rõ ràng \eqref{3.9} cho ta cách nhận biết một BNN có phân phối khi bình phương xuất phát từ $n$ biến độc lập cùng phân phối chuẩn tắc. Các đặc số quan trọng của phân phối khi bình phương gồm: $E(Z_n)=n$, $D(Z_n)=2n$. Các tính chất của phân phối $\chi^2$:
(i) Nếu $X\sim\chi^2(n)$, $Y\sim\chi^2(m)$ và độc lập thì $X+Y\sim \chi^2(n+m)$.
(ii) BNN $\dfrac{Z_n-n}{\sqrt{2n}}\sim\mathcal N(0;1)$ khi $n\to\infty$.
(iii) Giả sử $n$ BNN độc lập $X_i\sim\mathcal N(\mu,\sigma^2), i=\overline{1,n}$ và $\overline{X}=\dfrac{1}{n}\sum_{i=1}^nX_i$ thì $\sum\limits_{i=1}^n\left(\dfrac{X_i-\overline{X}}{\sigma}\right)^2\sim\chi^2(n-1)$.
(iv) Giá trị tới hạn khi bình phương $n$ bậc tự do mức $\alpha$, kí hiệu $\chi^2_\alpha(n)$, được định nghĩa là $P\big(\chi^2>\chi^2_\alpha(n)\big)=\alpha$.
(v) Bảng các giá trị tới hạn $\chi^2_\alpha(n)$ cho trong Bảng III phần Phụ lục.
Phân phối Student $n$ bậc tự do $T(n)$
Các tính chất của phân phối Student:
(i) $E(T_n)=0,\, (n>1)$ và $D(T_n)=\dfrac{n}{n-2},\, (n>2)$.
(ii) Khi $n$ khá lớn thì quy luật Student $T(n)$ hội tụ khá nhanh về phân phối $\mathcal N(0;1)$. Trong thực tế, nếu $n>30$ ta có thể xem thống kê Student xấp xỉ $\mathcal N(0;1)$.
(iii) Giá trị tới hạn mức $\alpha$ của phân phối Student $n$ bậc tự do, kí hiệu $t_\alpha(n)$ thỏa mãn $$P\big(T>t_\alpha(n)\big)=P\big(T<-t_\alpha(n)\big)=P\big(|T|>t_{\alpha/2}(n)\big)=\alpha.$$
(iv) Bảng tính các giá trị tới hạn $t_\alpha(n)$ cho trong Bảng IV phần Phụ lục.
Theo tính chất (iii) của phân phối $\chi^2$, ta có $$\chi^2=\dfrac{(n-1)S^2}{\sigma^2}=\sum\limits_{i=1}^n\left(\dfrac{X_i-\overline{X}}{\sigma}\right)^2\sim\chi^2(n-1),$$ khi đó, thống kê $$\label{3.14}T=\dfrac{\overline{X}-\mu}{S}\sqrt{n}=\dfrac{\dfrac{\overline{X}-\mu}{\sigma}\sqrt{n}}{\sqrt{\dfrac{(n-1)S^2}{\sigma^2(n-1)}}}=\dfrac{\dfrac{\overline{X}-\mu}{\sigma}\sqrt{n}}{\sqrt{\chi^2/(n-1)}}\sim T(n-1).\tag{3.10}$$
Tương tự cách xây dựng đối với trường hợp Bài toán 1, ta nhận được các khoảng tin cậy của tham số $\mu$ với độ tin cậy $\beta=1-\alpha$ bao gồm:
(i) Khoảng tin cậy đối xứng: $$\left(\overline{X}-t_{\alpha/2}(n-1)\cdot\dfrac{S}{\sqrt{n}};\overline{X}+t_{\alpha/2}(n-1)\cdot\dfrac{S}{\sqrt{n}}\right).$$
(ii) Khoảng tin cậy phải: $\left(\overline{X}-t_{\alpha}(n-1)\cdot\dfrac{S}{\sqrt{n}};+\infty\right)$.
(iii) Khoảng tin cậy trái: $\left(-\infty;\overline{X}+t_{\alpha}(n-1)\cdot\dfrac{S}{\sqrt{n}}\right)$.
Ví dụ 3.11. Để đánh giá nhiệt độ lớn nhất trung bình ở tỉnh Khánh Hòa vào ngày 5 tháng 9 (giả sử nhiệt độ tuân theo luật chuẩn), người ta lấy số liệu ở 5 vùng của tỉnh đo được trong ngày là 29, 31, 33, 35 và 36 độ C. Xác định khoảng tin cậy 95% cho nhiệt độ cao nhất trung bình trong ngày đang xét.
Gọi $X$ là nhiệt độ cao nhất ở Khánh Hòa vào ngày 05/09, theo giả thiết $X\sim\mathcal N(\mu;\sigma^2)$. Từ số liệu đã cho ta có bảng sau
$x_i$ | 29 | 31 | 33 | 35 | 36 | $\overline{x}=\frac{164}{5}=32,8$ |
$x_i-\overline{x}$ | -3,8 | -1,8 | 0,2 | 2,2 | 3,2 | |
$(x_i-\overline{x})^2$ | 14,44 | 3,24 | 0,04 | 4,48 | 10,24 | $s^2=\frac{32,8}{4}=8,2$ |
Với độ tin cậy 95%, tra Bảng IV phần Phụ lục ta có $t_{0,025}(4)=2,776$. Vậy khoảng tin cậy là $$\left(32,8-2,776\cdot\sqrt{\dfrac{8,2}{5}};32,8+2,776\cdot\sqrt{\dfrac{8,2}{5}}\right)\approx (29,245;36,355).$$
Để ý đây là khoảng tin cậy 95% tính trên bộ số liệu cụ thể của ví dụ, nó hoàn toàn không có nghĩa là xác suất để trung bình thật rơi vào khoảng tin cậy trên là 0,95. Bởi vậy không nên quên rằng độ tin cậy 95% của một khoảng nào đó được hiểu theo nghĩa thông kê (tức là nếu cứ làm thí nghiệm 100 lần với các khoảng tin cậy 95% thì có khoảng 95 lần giá trị trung bình thật nằm trong khoảng đó).
Nhận xét: Nếu BNN gốc không tuân theo luật phân phối chuẩn, việc xác định khoảng tin cậy cho $E(X)$ sẽ rất phức tạp và đòi hỏi các kỹ thuật hiện đại hơn. Tuy nhiên trong trường hợp $n$ đủ lớn, cả hai thống kê $Z=\dfrac{\overline{X}-\mu}{\sigma}\sqrt{n}$ và $T=\dfrac{\overline{X}-\mu}{S}\sqrt{n}$ đều có phân phối xấp xỉ $\mathcal N(0;1)$. Do đó các thủ tục ước lượng khoảng làm giống như Bài toán 1.
3.4.3. Khoảng tin cậy cho tỉ lệ
Giả sử ta cần nghiên cứu tính chất $A$ nào đó của tổng thể. Nếu cá thể trong tổng thể có tính chất $A$ thì nhận giá trị 1, trường hợp ngược lại nhận giá trị 0. Khi đó tính chất được nghiên cứu có thể xem là BNN $X$ có quy luật phân phối Bernoulli, tỉ lệ phần tử có tính chất $A$ là $p$ chưa biết. Bài toán đặt ra là ước lượng tỉ lệ cá thể có tính chất $A$ trong khoảng $(f_1;f_2)$ sao cho $P(f_1<p<f_2)=1-\alpha=\beta$.
Lấy mẫu ngẫu nhiên $X_1,\cdots,X_n$ là các BNN độc lập có cùng phân phối Bernoulli với $E(X_i)=p$ và $D(X_i)=p(1-p)$, $i=\overline{1,n}$. Tần suất mẫu $f=\dfrac{1}{n}\sum_{i=1}^nX_i$ có $E(f)=p$ và $D(f)=\dfrac{p(1-p)}{n}$. Theo Định lí Giới hạn trung tâm 2.6 thì $$\dfrac{f-p}{\sqrt{p(1-p)}}\sqrt{n}=\dfrac{(X_1+\cdots+X_n)-np}{n\sqrt{p(1-p)}}\sim\mathcal N(0;1) \text{ khi } n \text{ đủ lớn}.$$
Tuy nhiên vì $p$ chưa biết trong khi tần suất mẫu $f$ là ước lượng không chệch, vững và hiệu quả của tỉ lệ tổng thể $p$, vì vậy khi $n$ đủ lớn, ta có thể thay $p$ bằng $f$ trong tính toán.
Với điều kiện $\begin{cases} nf>5\\ n(1-f)>5 \end{cases}$, lập luận tương tự Bài toán 1 ta suy ra các khoảng tin cậy cho tỉ lệ $p$ của tổng thể với độ tin cậy $\beta=1-\alpha$ là:
(i) Khoảng tin cậy đối xứng: $$\left(f-U_{\alpha/2}\sqrt{\dfrac{f(1-f)}{n}};f+U_{\alpha/2}\sqrt{\dfrac{f(1-f)}{n}}\right).$$
(ii) Khoảng tin cậy phải: $\left(f-U_{\alpha}\sqrt{\dfrac{f(1-f)}{n}};+\infty\right)$.
(iii) Khoảng tin cậy trái: $\left(-\infty;f+U_{\alpha}\sqrt{\dfrac{f(1-f)}{n}}\right)$. Độ chính xác (sai số) của khoảng tin cậy là $\varepsilon=U_{\alpha/2}\sqrt{\dfrac{f(1-f)}{n}}$. Với độ tin cậy $\beta$ và sai số $\varepsilon_0$ cho trước, kích thước mẫu cần thiết là $n\in\mathbb N^*$ nhỏ nhất thỏa mãn $$\label{3.10}n\geq f(1-f)\left(\dfrac{U_{\alpha/2}}{\varepsilon_0}\right)^2,\tag{3.11}$$ với $f$ là tần suất của mẫu ngẫu nhiên nào đó.
Ví dụ 3.12. Phỏng vấn 400 người ở một khu vực 300 000 người thấy có 240 người ủng hộ dự luật A.
a) Với độ tin cậy 0,95 hãy ước lượng số người ít nhất ủng hộ dự luật A.
b) Nếu muốn độ chính xác của ước lượng không vượt quá 0,02 thì cần phỏng vấn tối thiểu bao nhiêu người.
Gọi $p$ là tỷ lệ người ủng hộ dự luật A. Tổng thể nghiên cứu là tập hợp 300 nghìn người. Dấu hiệu nghiên cứu là những người sẽ bỏ phiếu ủng hộ dự luật A, có thể xem là BNN có phân phối Bernoulli tham số $p$.
Theo đề bài ta có $f=\dfrac{240}{400}=0,6$ thỏa mãn điều kiện $nf=240>5$ và $n(1-f)=160>5$; với $\alpha=0,05$, tra Bảng II phần Phụ lục ta được $U_{\alpha/2}=1,96$.
a) Độ chính xác của ước lượng là: $\varepsilon=U_{\alpha/2}\sqrt{\dfrac{f(1-f)}{n}}\approx 0,048$. Khoảng tin cậy $(0,6-0,048;0,6+0,048)=(0,552;0,648)$. Do đó số người ít nhất ủng hộ dự luật A là $300\text{ }000.0,552=165\text{ }600$.
b) Theo \eqref{3.10} thì $n\geq 0,6.0,4.\left(\dfrac{1,96}{0,02}\right)^2=2304,96$. Vậy cần phỏng vấn ít nhất 2305 người.
3.4.4. Khoảng tin cậy cho phương sai
Xét BNN $X$ của tổng thể có luật phân phối chuẩn $\mathcal N(\mu;\sigma^2)$ trong đó phương sai $\sigma^2$ chưa biết. Với độ tin cậy $\beta=1-\alpha$ cho trước, ta sẽ ước lượng khoảng tin cậy cho tham số $\sigma^2$ phụ thuộc điều kiện kì vọng $\mu$ đã biết hoặc chưa biết.
a) Bài toán 4 (kì vọng $\mu$ đã biết)
Từ giả thiết $X\sim\mathcal N(\mu;\sigma^2)$, các BNN của mẫu ngẫu nhiên $X_i\sim\mathcal N(\mu;\sigma^2)$ hay $\dfrac{X_i-\mu}{\sigma}\sim\mathcal N(0;1)$ với $i=\overline{1,n}$.
Thống kê $\overline{S}^2=\dfrac{1}{n}\sum\limits_{i=1}^n(x_i-\mu)^2$ được gọi là phương sai mẫu khi biết kì vọng tổng thể $\mu$. Xét thống kê $$Z=\dfrac{n\overline{S}^2}{\sigma^2}=\sum\limits_{i=1}^n\left(\dfrac{X_i-\mu}{\sigma}\right)\sim\chi^2(n).$$
Từ tính chất (iv) của phân phối $\chi^2$, ta chọn các phân vị $\chi^2_{\alpha_1}(n)$ và $\chi^2_{1-\alpha_2}(n)$ thỏa mãn \begin{align*}P\big(\chi^2_{1-\alpha_2}(n)<Z<\chi^2_{\alpha_1}(n)\big)=\beta&\Leftrightarrow P\left(\chi^2_{1-\alpha_2}(n)<\dfrac{n\overline{S}^2}{\sigma^2}<\chi^2_{\alpha_1}(n)\right)=\beta\\&\Leftrightarrow P\left(\dfrac{n\overline{S}^2}{\chi^2_{\alpha_1}(n)}<\sigma^2<\dfrac{n\overline{S}^2}{\chi^2_{1-\alpha_2}(n)}\right)=\beta.\end{align*}
Như vậy, với độ tin cậy $\beta$, khoảng tin cậy của phương sai $\sigma^2$ có dạng $$\label{3.11}\dfrac{n\overline{S}^2}{\chi^2_{\alpha_1}(n)}<\sigma^2<\dfrac{n\overline{S}^2}{\chi^2_{1-\alpha_2}(n)}.\tag{3.12}$$
Tùy theo cách chọn mức $\alpha_1, \alpha_2$ thỏa mãn $\alpha_1+\alpha_2=\alpha$ ta nhận được các khoảng tin cậy của phương sai $\sigma^2$ với độ tin cậy $\beta=1-\alpha$ gồm:
(i) Khoảng tin cậy đối xứng: Nếu ta chọn $\alpha_1=\alpha_2=\dfrac{\alpha}{2}$ thì từ \eqref{3.11} ta có $$\dfrac{n\overline{S}^2}{\chi^2_{\alpha/2}(n)}<\sigma^2<\dfrac{n\overline{S}^2}{\chi^2_{1-\alpha/2}(n)}.$$
(ii) Khoảng tin cậy phải: Nếu chọn $\alpha_1=\alpha$, $\alpha_2=0$ thì $\chi^2_{1}(n)=0$ và khoảng tin cậy là $$\left(\dfrac{n\overline{S}^2}{\chi^2_{\alpha}(n)};+\infty\right).$$
(iii) Khoảng tin cậy trái: Nếu chọn $\alpha_1=0$, $\alpha_2=\alpha$ thì $\chi^2_{0}(n)=\infty$ và khoảng tin cậy là $$\left(0;\dfrac{n\overline{S}^2}{\chi^2_{1-\alpha}(n)}\right).$$
b) Bài toán 5 (kì vọng $\mu$ chưa biết)
Theo tính chất (iii) của phân phối $\chi^2$, ta có $$\dfrac{(n-1)S^2}{\sigma^2}=\sum\limits_{i=1}^n\left(\dfrac{X_i-\overline{X}}{\sigma}\right)^2\sim\chi^2(n-1).$$
Lập luận tương tự Bài toán 4 ta có các khoảng tin cậy cho phương sai $\sigma^2$ của tổng thể với độ tin cậy $\beta=1-\alpha$ là
(i) Khoảng tin cậy đối xứng: $\left(\dfrac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)};\dfrac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right)$.
(ii) Khoảng tin cậy phải: $\left(\dfrac{(n-1)S^2}{\chi^2_{\alpha}(n-1)};+\infty\right)$.
(iii) Khoảng tin cậy trái: $\left(0;\dfrac{(n-1)S^2}{\chi^2_{1-\alpha}(n-1)}\right)$.
Ví dụ 3.13. Kiểm tra 25 sản phẩm của một công ty sản xuất thức ăn đóng gói ta được kết quả sau
Trọng lượng (g) | 195 | 200 | 205 |
Số sản phẩm | 5 | 18 | 2 |
Với độ tin cậy 95%, hãy ước lượng phương sai của trọng lượng các sản phẩm trong 2 trường hợp:
a) Biết trọng lượng trung bình $\mu=200g$,
b) Không biết trọng lượng trung bình.
Từ số liệu trên ta có bảng sau
$x_i$ | 195 | 200 | 205 | |
$n_i$ | 5 | 18 | 2 | |
$x_in_i$ | 975 | 3600 | 410 | $\overline{x}=\frac{4985}{25}=199,4$ |
$(x_i-200)^2$ | 25 | 0 | 25 | |
$(x_i-\overline{x})^2$ | 19,36 | 0,36 | 31,36 |
a) Ta tính được $n\overline{s}^2=\sum\limits_{i=1}^3(x_i-200)^2n_i=175$. Với độ tin cậy 95% thì $\alpha=0,05$, tra Bảng III phần Phụ lục ta có $\chi^2_{0,025}(25)=40,646$ và $\chi^2_{0,975}(25)=13,12$. Vậy với độ tin cậy 95%, qua mẫu cụ thể này, khoảng tin cậy của $\sigma^2$ là $$\left(\dfrac{175}{40,646};\dfrac{175}{13,12}\right)\approx (4,305;13,338).$$
b) Ta có $(n-1)s^2=\sum\limits_{i=1}^3(x_i-199,4)^2n_i=166$. Tra Bảng III phần Phụ lục ta có $\chi^2_{0,025}(24)=39,364$ và $\chi^2_{0,975}(24)=12,401$. Khoảng tin cậy cho $\sigma^2$ là $$\left(\dfrac{166}{39,364};\dfrac{166}{12,401}\right)\approx (4,217;13,386).$$