Trong phần này chúng ta sẽ điểm qua các mục đích chính của thống kê, qua một số ví dụ.
Ví dụ 3.1. (Biểu đồ thống kê) Trong thống kê mô tả, ngoài các bảng số liệu (cùng với một số đại lượng đặc trưng tiêu biểu nhất như trung vị, kì vọng, phương sai), các biểu đồ cũng hay được dùng để giúp người đọc nắm bắt thông tin về số liệu một cách nhanh chóng. Một số loại biểu đồ hay gặp là: biểu đồ tần số, đồ thị phát tán, biểu đồ hình quạt,... Hình bên là một ví dụ về biểu đồ hình quạt, phản ánh tỉ lệ các website bị tấn công thay đổi giao diện (Deface) trong quý I năm 2017 (theo securitybox.vn). |
![]() |
So với các bảng số liệu, các biểu đồ có thể có nhược điểm là cho thông tin không được chính xác bằng (độ sai số cao hơn), nhưng có ưu điểm là biết được nhiều thông tin trên cùng một hình ảnh.
Ví dụ 3.2. (phát xít Đức sản xuất bao nhiêu máy bay và xe cơ giới?) Trong chiến tranh, việc ước lượng được đúng sức mạnh của quân địch là một việc nhiều khi có tính chất sống còn. Trong chiến tranh thế giới II, các cơ quan tình báo quân đồng minh Anh-Mỹ đã cung cấp nhiều thông tin rất sai lệch về lực lượng quân Đức. Tuy nhiên, bằng phương pháp thống kê (thu nhặt các mã số trên các xác máy bay, lốp xe... của quân Đức bị bắn cháy, bỏ rơi, rồi từ đó giải mã và dùng các hàm ước lượng), nhà thống kê học Richard Ruggles cùng với các cộng sự của mình, lúc đó làm tại Cục tình báo kinh tế của Anh, đã ước lượng được rất chính xác số máy bay và xe cơ giới mà Đức sản xuất được hàng tháng. Trong khi đó, ước lượng của các tình báo viên Anh-Mỹ là công suất của Đức khoảng 1 triệu xe cơ giới một tháng.
Công suất hàng tháng của Phát xít Đức | Máy bay | Xe cơ giới |
Ước lượng của Ruggles | 28 500 | 147 000 |
Số liệu thực theo tài liệu của Đức | 26 400 | 159 000 |
Ví dụ 3.3. (London nguy hiểm hay an toàn?) Ngày 10/07/2008, có 4 vụ giết người bằng dao ở 4 nơi khác nhau ở London. Sự kiện này làm náo loạn dư luận đến mức thủ tướng Anh là Gordon Brown đã tuyên bố sẽ trấn áp và tìm cách làm giảm các vụ đâm dao. London có trở nên nguy hiểm cho tính mạng hơn những năm trước không? Để trả lời câu hỏi đó, chúng ta có thể dựa trên một vài số liệu thống kê sau:
- Trong 5 năm trước đó, mỗi năm ở London có khoảng 170 người bị giết, và con số này khá ổn định hàng năm.
- Khoảng 41% các vụ giết người là dùng dao, 17% là dùng súng, 9% là đánh đập (không vũ khí), 5% là đánh bằng vật không phải dao, 3% là bóp cổ, 3% là dùng thuốc độc... và 17% là không xác định được phương pháp.
- Trong thời gian 3 năm 04/2004-03/2007, có 713 ngày không có vụ án mạng nào, 299 ngày có 1 vụ, 66 ngày có 2 vụ, 16 ngày có 3 vụ, 1 ngày có 4 vụ, và không có ngày nào có từ 5 vụ trở lên.
Từ các số liệu thống kê, người ta tính được một số ước lượng sau về số vụ án mạng ở London:
- Gọi $X$ là số vụ án mạng xảy ra trong ngày, khi đó kì vọng được tính từ bảng số liệu.
$X$ | 0 | 1 | 2 | 3 | 4 | 5 |
Tần số | 713 | 299 | 66 | 16 | 1 | 0 |
Tần suất | $\frac{713}{3.365}$ | $\frac{299}{3.365}$ | $\frac{66}{3.365}$ | $\frac{16}{3.365}$ | $\frac{1}{3.365}$ | $\frac{0}{3.365}$ |
Kì vọng $$E(X)=0.\dfrac{713}{3.365}+ 1.\dfrac{299}{3.365}+2.\dfrac{66}{3.365}+3.\dfrac{16}{3.365}+4.\dfrac{1}{3.365}+5.\dfrac{0}{3.365}\approx 0,44.$$
Như vậy, số vụ án mạng xảy ra trong ngày ở London tuân theo phân phối Poisson với kì vọng là 0,44 (tức là trung bình mỗi ngày có 0,44 vụ).
- Xác suất trong 1 ngày có 3 vụ án mạng là $$ P(X=3)=e^{-0,44}\dfrac{(0,44)^3}{3!}\approx 0,0091, $$ tức là trong một năm trung bình có khoảng 3-4 ngày có 3 vụ án mạng.
- Tương tự, xác suất trong 1 ngày có 4 vụ án mạng là $P(X=4)=0,001$ hay cứ khoảng gần 3 năm thì có một ngày với 4 vụ án mạng ($\approx 0,001\times 365\times 3 = 1,095$) và khoảng 30 năm thì mới có một ngày với 5 vụ án mạng.
Việc xảy ra 1 ngày vào năm 2008 với 4 vụ án mạng không nằm ngoài các con số ước lượng trên. Đâm bằng dao là phương pháp gây án mạng phổ biến nhất (41% tổng số các vụ). Khi có 4 vụ án mạng, thì xác suất để cả 4 vụ đều do đâm dao là $(0,41)^4 = 2,8\%$, một con số khá nhỏ, nhưng cũng không nhỏ đến mức “không thể xảy ra”. Khi có 4 vụ án mạng xảy ra cùng ngày, thì có rất nhiều tổ hợp các khả năng xảy ra về phương pháp gây án mạng trong 4 vụ đó (ví dụ 2 vụ dùng dao, 1 vụ dùng súng, 1 vụ thắt cổ), và tất cả các tổ hợp đó đều có xác suất nhỏ, tổ hợp với xác suất lớn nhất cũng không vượt quá 6%. Từ đó, có thể kết luận, việc hôm 10/07/2008 xảy ra 4 vụ án mạng ở London đều bằng đâm dao, hoàn toàn nằm trong các ước lượng về án mạng xảy ra ở London, và không hề chứng tỏ xu thế gì mới. Tổng kết năm 2008, ở London có 152 án mạng xảy ra năm đó. Phương tiện truyền thông được dịp vui mừng vì “đã lâu rồi chưa năm nào London được an toàn như vậy”.
Ví dụ 3.4. (con mắt trở thành chìa khóa)
Đầu thế kỷ 21, đã có những khách sạn mà khách không cần chìa khóa phòng, chỉ cần nhìn vào camera ở cửa phòng, là phòng tự động mở cửa. Sự tiện lợi này dựa trên công nghệ nhận biết danh tính của người qua màng mắt (iris). Một điều thú vị là, kể cả khi hai người sinh đôi và trông giống hệt nhau, thì các đường nét trong màng mắt của họ vẫn rất khác nhau, do quá trình phát triển các đường nét trong màng mắt ở thai nhi phụ thuộc vào nhiều yếu tố ngẫu nhiên (không do di truyền). Cuối thế kỷ 20, John Daugman là một trong những người tiên phong trong công nghệ nhận biết danh tính bằng màng mắt. Thuật toán của ông ta giúp tạo ra từ ảnh màng mắt một mã với 266 đơn vị thông tin có thể coi là ngẫu nhiên và độc lập với nhau (mỗi đơn vị là một BNN nhận giá trị 0 và 1, với xác suất 50%-50%). Để tìm ra 266 đơn vị thông tin độc lập đó (xuất phát từ $2^{11}=2048$ đơn vị thông tin không độc lập với nhau) và kiểm định sự độc lập của chúng, Daugman đã làm thống kê so sánh hơn 222 000 lần cặp ảnh màng mắt khác chủ (2 mắt trong 1 cặp là của hai người khác nhau), và hơn 500 cặp ảnh màng mắt cùng chủ. Một trong các kết quả là, tỷ lệ đơn vị thông tin chệch nhau giữa mã của 2 mắt khác chủ tuân theo phân phối chuẩn với kì vọng là 45.6% (tức là trung bình hai mắt khác chủ thì có 45.6% đơn vị thông tin chệch nhau) với độ lệch chuẩn là 0.18%, và không có cặp mắt khác chủ nào có dưới 37% đơn vị thông tin lệch nhau. Mặt khác, hai ảnh màng mắt khác nhau của cùng một chủ thì trung bình chỉ có 9% các đơn vị thông tin bị lệch nhau trong số 266 đơn vị, và không có cặp ảnh mắt cùng chủ nào bị lệch nhau quá 31% đơn vị thông tin. Từ đó dẫn đến thuật toán phân biệt: coi rằng nếu hai mã bị lệch nhau không quá 34% số đơn vị thông tin, thì vẫn là của cùng một người, còn nếu trên 34% thìcoi là của hai người khác nhau.
Một điều cần chú ý là, thống kê thường bị các tổ chức hay cá nhân lạm dụng để bóp méo sự thật theo hướng có lợi cho mình, hoặc có khi tự dối mình, nếu như làm không đúng cách. Có rất nhiều cách nói dối khác nhau bằng thống kê, chẳng hạn như: bịa đặt các con số không có thật, lựa chọn các con số có lợi, giấu đi các con số bất lợi, thiên vị (bias) trong việc chọn mẫu thí nghiệm... Chẳng hạn như: Bộ quốc phòng Mỹ đã tuyên bố rằng, trong cuộc chiến với Irac năm 1991, các tên lửa Patriot của Mỹ đã bắn rơi 41 tên lửa Scud của Irac, nhưng khi Quốc hội Mỹ điều tra lại thấy chỉ có 4 tên lửa Scud bị bắn rơi; hay ví dụ về \textit{bias} làm hỏng kết quả thống kê: Báo Literacy Digest thăm dò ý kiến cử tri về bầu cử tổng thống ở Mỹ năm 1936, qua điện thoại và qua các độc giả đặt báo. Kết quả thăm dò trên phạm vi rất rộng cho dự đoán là Landon sẽ được 370 phiếu (đại cử tri) còn Roosevelt sẽ chỉ được 161 phiếu. Thế nhưng lúc bầu thật thì Roosevelt thắng. Hoá ra, đối tượng mà Literacy Digest thăm dò năm đó, những người có tiền đặt điện thoại hay đặt báo, là những người thuộc tầng lớp khá giả, có bias theo phía Landon (Đảng Cộng hòa), không đặc trưng cho toàn dân chúng Mỹ. Nói chung, để thống kê toán học cho ra được các kết quả đáng tin cậy, ngoài các công thức toán học đúng đắn, còn cần đảm bảo sự trung thực của các số liệu, có mẫu thực nghiệm (lượng số liệu) đủ lớn, và loại đi được ảnh hưởng của các bias để đảm bảo tính ngẫu nhiên của số liệu. Nhiều khi việc loại đi các kết quả có bias cao từ mẫu thực nghiệm là công việc hiệu quả, cho ra kết luận thống kê chính xác và đỡ tốn kém hơn là tăng cỡ của mẫu thực nghiệm lên thêm nhiều.