Note về Định Lý Giới Hạn Trung Tâm
Định lý
Giả sử \(X_1, X_2, \dots, X_n\) là một dãy các biến ngẫu nhiên độc lập và cùng phân phối, mỗi biến có giá trị kỳ vọng \(\mu\) và độ lệch chuẩn \(\sigma\). Khi \(n\) (kích thước mẫu) tăng lên, phân phối của tổng \(S_n = X_1 + X_2 + \dots + X_n\) hoặc trung bình mẫu \(\overline{X} = \frac{1}{n}(X_1 + X_2 + \dots + X_n)\) sẽ tiệm cận dần về phân phối chuẩn với giá trị kỳ vọng \(\mu\) và độ lệch chuẩn \(\displaystyle \frac{\sigma}{\sqrt{n}}\). Hay nói cách khác, khi \(n \to \infty\) thì:
$$\frac {S_n - n\mu} {\sigma\sqrt{n}} \xrightarrow {d} \mathcal N(0,1)$$
Bất kể phân phối ban đầu của các biến ngẫu nhiên là gì (miễn là nó có kỳ vọng và phương sai hữu hạn), tổng hoặc trung bình của chúng sẽ tiến tới phân phối chuẩn khi số lượng biến tăng lên.
Ví dụ
Chiều cao của con người không hoàn toàn tuân theo phân phối chuẩn, mà có thể bị lệch nhẹ do yếu tố di truyền và môi trường. Tuy nhiên, khi xem xét chiều cao của một nhóm người đủ lớn, ta có thể sử dụng Định lý Giới hạn Trung tâm để ước lượng phân phối của chiều cao trung bình của nhóm người đó.
Giả sử chiều cao của mỗi cá nhân trong một thành phố có giá trị kỳ vọng là 170 cm và độ lệch chuẩn là 10 cm. Nếu chúng ta lấy mẫu 100 người ngẫu nhiên từ dân số đó và tính chiều cao trung bình của họ, theo định lý Giới hạn Trung tâm, chiều cao trung bình của 100 người này sẽ tuân theo phân phối chuẩn với giá trị kỳ vọng là 170 cm và độ lệch chuẩn là \(\displaystyle \frac{10}{\sqrt{1000}} = 1\)cm.
Dựa vào biểu đồ phân bố trên, ta có thể kết luận là khoảng \(95\%\) mọi người sẽ có chiều cao rơi vào \(\mu - 2 \times \sigma = 170cm \pm 2 \times 1cm = [168cm, 172cm]\)
Demo
Demo dưới đây minh họa Định Lý Giới Hạn Trung Tâm bằng việc thả 1 viên xúc sắc. Viên xúc sắc không nhất thiết là phải cân bằng, bạn có thể tùy chỉnh xác suất xuất hiện của mỗi mặt của viên xúc sắc. Sau đó, ta lấy mẫu bằng cách mỗi lần thả \(n \) lần (1-20) rồi tính tổng điểm. Có thể nhận thấy rằng khi \(n\) càng lớn, đồ thị phân bố của tổng càng tiến dần về dạng hình chuông (Phân Phối Gaussian)