Phan bố gaussian trung bình bằng 0

Phân phối chuẩn (tiếng Anh: Normal Distribution) là phân phối xác suất đối xứng quanh giá trị trung bình, các dữ liệu gần giá trị trung bình xuất hiện thường xuyên hơn so với dữ liệu ở xa giá trị trung bình.

Phan bố gaussian trung bình bằng 0

Hình minh họa. Nguồn: 365datascience.com

Phân phối chuẩn

Khái niệm

Phân phối chuẩn còn được gọi là phân phối Gaussian trong tiếng Anh là Normal Distribution.

Phân phối chuẩn là loại phân phối phổ biến nhất hay được dùng giả định trong phân tích kĩ thuật thị trường chứng khoán và trong các loại phân tích thống kê khác. Phân phối chuẩn thông thường có hai tham số: giá trị trung bình và độ lệch chuẩn. Đối với phân phối chuẩn, 68% các quan sát nằm trong khoảng +/- độ lệch chuẩn của giá trị trung bình, 95% nằm trong +/- hai lần độ lệch chuẩn và 99,7% nằm trong + - ba lần độ lệch chuẩn.

Mô hình phân phối chuẩn được phát triển bởi Định luật giới hạn trung tâm. Lí thuyết này nói rằng các giá trị trung bình được tính toán từ các biến ngẫu nhiên độc lập và giống hệt nhau có phân phối gần với phân phối chuẩn, bất kể loại phân phối của mẫu mà các biến được lấy ra (miễn là nó có phương sai hữu hạn).

Phân phối chuẩn đôi khi bị nhầm lẫn với phân phối đối xứng. Phân phối đối xứng là một phân phối trong đó một đường phân chia sẽ tạo ra hai hình ảnh phản chiếu, nhưng dữ liệu thực tế có thể có hai bướu hoặc nhiều điểm nhô lên trên đường cong hình chuông của phân phối chuẩn.

Độ lệch và độ nhọn

Dữ liệu thực tế hiếm khi theo một phân phối chuẩn hoàn toàn. Các hệ số độ lệch và độ nhọn đo lường mức độ khác biệt của một phân phối nhất định so với phân phối chuẩn. Độ lệch đo lường tính đối xứng của một phân phối. Phân phối chuẩn là đối xứng và có độ lệch bằng không. Nếu phân phối của tập dữ liệu có độ lệch nhỏ hơn 0 hoặc độ lệch âm, thì đuôi bên trái của phân phối dài hơn đuôi bên phải; độ lệch dương ngụ ý rằng đuôi bên phải của phân phối dài hơn đuôi bên trái.

Độ nhọn đo độ dày của đuôi phân phối so với đuôi của phân phối chuẩn. Phân phối với đuôi lớn thể hiện dữ liệu ở đuôi phân phối vượt quá dữ liệu ở đuôi phân phối chuẩn (ví dụ nhiền hơn năm độ lệch chuẩn so với giá trị trung bình). Các phân phối có độ nhọn thấp cho thấy tập dữ liệu có điểm cực trị thấp hơn các bản phân phối chuẩn.

Phân phối chuẩn có độ nhọn bằng ba, điều này cho thấy phân phối không có đuôi mập hay mỏng. Do đó, nếu một phân phối quan sát được có độ nhọn lớn hơn ba, phân phối được cho là có đuôi mập khi so sánh với phân phối chuẩn. Nếu phân phối có độ nhọn nhỏ hơn ba, nó được cho là có đuôi mỏng khi so sánh với phân phối chuẩn.

Phân phối chuẩn trong tài chính

Giả định về phân phối chuẩn được áp dụng cho giá tài sản cũng như hành động giá. Các nhà giao dịch có thể vẽ các điểm giá theo thời gian để phù hợp với hành động giá gần đây thành một phân phối chuẩn. Hành động giá càng di chuyển xa giá trị trung bình, càng có nhiều khả năng một tài sản bị định giá quá cao hoặc quá thấp. Nhà giao dịch có thể sử dụng độ lệch chuẩn để xem xét các giao dịch tiềm năng.

Tương tự, nhiều lí thuyết thống kê cố gắng mô hình hóa giá tài sản theo giả định rằng chúng tuân theo phân phối chuẩn. Trong thực tế, phân phối giá có xu hướng có đuôi mập, và do đó, chúng có độ nhọn lớn hơn ba. Các tài sản như vậy có biến động giá lớn hơn ba độ lệch chuẩn, vượt quá mức giá trị trung bình với tần suất thường xuyên hơn dự kiến theo giả định phân phối chuẩn. Ngay cả khi một tài sản đã tồn tại một thời gian dài và phù hợp với phân phối chuẩn thì vẫn không có gì đảm bảo rằng hiệu suất trong quá khứ thực sự dựu báo chính xác cho tăng trưởng trong tương lai.

Các ý chính

- Phân phối chuẩn là thuật ngữ cho phân phối xác suất có đường cong hình chuông.

- Phân phối chuẩn là phân phối đối xứng, nhưng không phải tất cả các phân phối đối xứng là phân phối chuẩn.

Phân phối chuẩn hay phân phối Gauss là một khái niệm quan trọng trong thống kê và là nền tảng của Machine Learning. Một Nhà khoa học dữ liệu (Data Scientist) cần biết về phân phối này khi họ làm việc với các mô hình tuyến tính.

Như được Carl Friedrich Gauss khám phá ra, Phân bố chuẩn (Gaussian Distribution) là một phân phối xác suất liên tục. Nó có đường cong hình chuông đối xứng từ điểm trung bình đến cả hai nửa của đường cong.

Định nghĩa toán học của phân phối chuẩn

Một biến ngẫu nhiên liên tục “x” được cho là tuân theo phân phối chuẩn với tham số μ (trung bình) và σ (độ lệch chuẩn) nếu hàm mật độ xác suất của nó được trình bày bởi công thức:

f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{ -\frac{1}{2} ( \frac{x-\mu}{\sigma})^2 }

Đây còn được gọi là biến chuẩn (normal variate).

Biến chuẩn hóa (Standard Normal Variate): Nếu “x” là một biến chuẩn với trung bình (μ) và độ lệch chuẩn (σ) thì:

Phân phối chuẩn hóa (Standard Normal Distribution)

Trường hợp đơn giản nhất của phân phối chuẩn, được gọi là Phân phối chuẩn hóa (Standard Normal Distribution), có giá trị kỳ vọng μ (trung bình) bằng 0 và σ (độ lệch chuẩn) bằng 1, và được mô tả bởi hàm mật độ xác suất này:

f(z) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}z^2}

Các đặc điểm của đường cong phân phối:

  • Tổng diện tích dưới đường cong chuẩn bằng 1.
  • Đây là phân phối liên tục.
  • Nó đối xứng xung quanh giá trị trung bình. Mỗi nửa của phân phối là hình ảnh soi gương của nửa còn lại.
  • Nó tiệm cận với trục ngang.
  • Nó có một chế độ.

Phân phối chuẩn và các tính chất của diện tích

Phân phối chuẩn đi kèm với các giả định và có thể được chỉ định hoàn toàn bởi hai tham số: trung bình và độ lệch chuẩn. Nếu biết trung bình và độ lệch chuẩn, bạn có thể truy cập tất cả các điểm dữ liệu trên đường cong.

Phan bố gaussian trung bình bằng 0

Quy tắc thực nghiệm (Empirical rule) là một ước lượng thuận tiện và nhanh chóng về phạm vi dữ liệu dựa trên trung bình và độ lệch chuẩn của một tập dữ liệu tuân theo phân phối chuẩn. Nó khẳng định rằng:

  • 68,26% dữ liệu sẽ nằm trong phạm vi 1 độ lệch chuẩn so với trung bình (μ±1σ)
  • 95,44% dữ liệu sẽ nằm trong phạm vi 2 độ lệch chuẩn so với trung bình (μ±2σ)
  • 99,7% dữ liệu sẽ nằm trong phạm vi 3 độ lệch chuẩn so với trung bình (μ±3σ)
  • 95% — (μ±1,96σ)
  • 99% — (μ±2,75σ)

Quy tắc này giúp kiểm tra ngoại lệ (Outliers) và rất hữu ích khi xác định tính chuẩn của bất kỳ phân phối nào.

Trong Machine Learning, dữ liệu tuân theo phân phối chuẩn rất có lợi cho việc xây dựng mô hình. Nó làm cho việc tính toán dễ dàng hơn. Các mô hình như LDA, Gaussian Naive Bayes, Logistic Regression, Linear Regression, v.v., được tính toán rõ ràng từ giả định rằng phân phối là chuẩn hai biến hoặc đa biến. Ngoài ra, các hàm Sigmoid hoạt động tự nhiên nhất với dữ liệu theo phân phối này.

Nhiều hiện tượng tự nhiên trên thế giới tuân theo phân phối log-chuẩn, chẳng hạn như dữ liệu tài chính và dữ liệu dự báo. Bằng cách áp dụng các kỹ thuật biến đổi, chúng ta có thể chuyển đổi dữ liệu thành phân phối chuẩn. Ngoài ra, nhiều quá trình tuân theo tính chuẩn, chẳng hạn như nhiều lỗi đo lường trong thực nghiệm, vị trí của một hạt phải trải qua quá trình lan tỏa, v.v.

Cho nên, trước khi đi vào việc xây dựng mô hình, việc quan trọng là cần khám phá dữ liệu kỹ càng và kiểm tra các phân phối tiềm ẩn cho mỗi biến.

Lưu ý: Tính chuẩn là một giả định cho các mô hình Machine Learning. Điều không bắt buộc là dữ liệu luôn phải tuân theo tính chuẩn. Các mô hình ML hoạt động rất tốt trong trường hợp dữ liệu không phân phối chuẩn. Các mô hình như decision tree, XgBoost, không giả định tính chuẩn nào và làm việc trên dữ liệu thô. Ngoài ra, hồi quy tuyến tính chỉ có hiệu quả về mặt thống kê nếu chỉ có lỗi mô hình là Gaussian, không chính xác là toàn bộ tập dữ liệu.

Kiểm tra phân phối dữ liệu với Python

Phần sau đây sẽ hướng dẫn bạn cách lập trình vẽ biểu đồ Histogram và Kdeplot bằng Python, để kiểm tra tính chuẩn của dữ liệu và giúp bạn chuẩn bị dữ liệu cho việc xây dựng mô hình Machine Learning.

import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt

Load dữ liệu Boston Housing Price

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data" names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] df = pd.read_csv(url, delim_whitespace=True, names=names)

Vẽ Histogram cho tất cả các tính năng số

plt.figure(figsize=(12, 9)) for i, feature in enumerate(df.columns):

plt.subplot(4, 4, i + 1)
sns.histplot(df[feature], kde=True)
plt.xlabel(feature)
plt.tight_layout() plt.show()

Vẽ Kdeplot cho tất cả các tính năng số

plt.figure(figsize=(12, 9)) for i, feature in enumerate(df.columns):

plt.subplot(4, 4, i + 1)
sns.kdeplot(df[feature])
plt.xlabel(feature)
plt.tight_layout() plt.show()

Sử dụng đoạn mã trên, bạn có thể kiểm tra tính chuẩn của dữ liệu và đưa ra quyết định về cách xử lý dữ liệu trước khi đưa vào mô hình Machine Learning. Nhớ kiểm tra ngoại lệ và tiến hành chuẩn hóa hoặc chuyển đổi dữ liệu khi cần thiết.

Cuối cùng, đừng quên thường xuyên ghé trituenhantao.io để cập nhật kiến thức về AI, Machine Learning và các ngành khoa học máy tính liên quan khác. Chúng tôi cung cấp nhiều bài viết hữu ích, hướng dẫn và nguồn tài liệu đáng tin cậy để giúp bạn nâng cao trình độ chuyên môn và ứng dụng kiến thức vào thực tế.