Là gì

Tổng Hợp Xác Suất Thống Kê Tiếng Anh Là Gì ? Xác Suất Thống Kê

Lý thuyết xác suất

1.1 Căn bản: Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự ngẫu nhiên (randomness). Đối tượng cơ bản nhất của LTXS là các biến ngẫu nhiên (random variables). Để định nghĩa một biến ngẫu nhiên thì cần một hàm phân bố (distribution function), qua đó có thể định nghĩa được các khái niệm như trung bình (mean) và phương sai (variance). Standard deviation gọi là độ lệch chuẩn. Mean và variance là các phiếm hàm (functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu diễn bởi hàm mật độ (density), theo định lý Radon-Nikodym.

Đang xem: Xác suất thống kê tiếng anh là gì

Bạn đang xem: Xác suất thống kê tiếng anh là gìBạn đang xem: Xác suất thống kê tiếng anh là gì

Cơ sở toán học của lý thuyết xác suất là thuyết độ đo (measure theory), nhưng việc chính của các xác suất gia (?) (probablist) là xây dựng phát triển cáng nhiều loại đo đo xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa một đại số sigma (sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm độc lập (independence), và mạnh mẽ hơn là độc lập có điều kiện (conditional independence). Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát hơn.

1.2 Độc lập và hội tụ: Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh hiện tượng tập trung của độ đo (concentration of measure). Bắt đầu là luật các số lớn (có phiên bản luật mạnh (strong law) và luật yếu). Luật giới hạn trung tâm (Central limit theorem) nhắc rằng sample mean (mẫu trung bình) có quy luật bình thường (normal/Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm hội tụ (convergence) trong giải tích. Hội tụ gần chắc (almost sure), hội tụ về phân bố hoặc về luật (convergence in distribution/ in law). Ngoài luật số lớn còn có luật các số nhỏ (hay luật các hiện tượng hiếm có — law of rare events), cho ta biết khi nào thì mẫu trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất — là những viên gạch cho toàn bộ lâu đài XS.

Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là tính hoán chuyển được (exchangeability). Nếu tính độc lập là nền tảng cho các phương pháp suy diễn tần số (frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp suy diễn Bayesian. Tính hoán chuyển được đang được mở rộng ra thành hoán chuyển từng phần (partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các vật thể tổ hợp (combinatorial object) rời rạc và phức tạp.

1.3 Quá trình ngẫu nhiên: LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp, nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những tập các hàm số đo được (measurable functions), và hàm phân bố cho các độ đo ngẫu nhiên (random measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các quá trình ngẫu nhiên (stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ các điều kiện nhất quán (consistency) của độ đo cho các cylinder sets. Đây là cách để chúng ta xây dựng được các hàm phân bố cho quá trình Gauss (Gaussian processes), quá trình Dirichlet (Dirichlet process), v.v.

Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào phép biến đổi Fourier (Fourier transform) của các hàm phân bố. Theo ngôn ngữ XS thì khái niệm này gọi là hàm tính cách (characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần khái niệm các hàm phân bố khả phân vô hạn (infinitely divisible). Khái niệm tiếp theo là các hàm phân bố ổn định (stable distribution). Gauss và Poisson chính là hai hàm phân bố ổn định — không phải là “ngẫu nhiên” nếu chúng ta quay về các luật số lớn và số nhỏ nhắc ở trên. Max-stable là một họ phân bố cực đại ổn định.

Xem thêm: Standee Chữ A, X Cuốn Chân Standee 80X180 Cm, Thế Giới Standee

Được quan tâm hàng đầu là biểu hiện của giá trị kỳ vọng (expectation) của một vật thể xác suất. Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bản thân nó cũng là một biến ngẫu nhiên. Một công cụ quan trọng là khái niệm martingale. Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là quá trình đánh bạc(?). Cần khái niệm filtration (hệ thống lọc). Ngoải ra ta còn có submartingale, supermartingale và semimartingale (?). Nhờ các công cụ này mà ta có thể tìm hiểu các khái niệm xác suất hữu ích như thời điểm dừng (stopping time), thời điểm chạm (hitting time), thời gian/thởi điểm vượt biên (boundary crossing time).

Một họ quá trình NN rất thông dụng là quá trình Markov (Markov process). Định nghĩa trên cơ sở hạch xác suất chuyển dịch (transition probability kernel), và khái niệm hệ thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local time được dịch là thời gian địa phương. Quá trình Markov cho thời gian rời rạc còn gọi là chuỗi Markov (hoặc xích Markov). Liên qua đến chuỗi Markov là lý thuyết ergodic (?). Irreducibility dịch là bất khả quy. Một vấn đề được quan tâm là thời gian hòa tan (mixing time) của chuỗi Markov. Điều kiện cần cho chuỗi Markov được hòa tan về một trạng thái phân bố bất dịch (phân bố dừng) (stationary distribution) là ergodicity, thỏa mãn phương trính cân bằng chi tiết (detailed balance). Chuỗi Markov định nghĩa cho không gian rởi rạc (dàn lattice chẳng hạn) thì sẽ trở thành quá trình đi bộ ngẫu nhiên (random walk). Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự cặp đôi. Coupling from the past? Quá đơn giản, cặp nhau từ quá khứ! Time-homogeneous Markov process gọi là quá trình Markov đồng biến.

Nói đến quá trình ta thường nghĩ đến thời gian — cụ thể là các quá trình NN thường được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là trường ngẫu nhiên Markov. Gaussian random field là trường ngẫu nhiên Gauss. Poisson point process gọi là quá trình điểm Poisson (lại quá trình, nhưng kỳ thực phải gọi là trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là hiện tượng chuyển pha.

Một dạng quá trình NN khá hay ho gọi là empirical process (quá trình thực nghiệm). Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói ở mục sau.

Xem thêm: Combo 5 File Kẹp Giấy Đục Lỗ, Combo 5 File Còng 1 Kẹp Hq673 Đục Lỗ Giấy

Các khái niệm quan trọng khác: percolation, excursion, optional stopping

Mô hình thống kê

2.3 Đầy đủ và thông tin. Một công cụ quan trọng trong việc tham số hóa là khái niệm thống kê đầy đủ (sufficient statistics). Để hiểu khái niệm này phải hiểu khái niệm thống kê là gì. Một thống kê là một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên hệ với khmt thì thống kê chính là đầu ra (output) của một giải thuật sử dụng dữ liệu như là đầu vào. Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý biểu diễn phân tích Fisher-Neyman (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm thống kê đầy đủ là một khái niệm có tính lý thuyết thông tin (information-theoretic), có thể phát biểu bằng tính độc lập có điều kiện và các khái niệm entropy.

Xem thêm bài viết thuộc chuyên mục: Là gì

Trả lời

Back to top button