Các đặc trưng được nhắc đến trên, trong luận văn này chính là các khoảng cách: khoảng cách giữa các biến cố, khoảng cách từ biến cố tới biến cố gần nhất, khoảng cách từ một điểm tới biến
Trang 1-
ĐÀO THỊ TUYẾT THANH
PHƯƠNG PHÁP KHOẢNG CÁCH TRONG PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS ĐÀO HỮU HỒ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐÀO THỊ TUYẾT THANH
PHƯƠNG PHÁP KHOẢNG CÁCH TRONG PHÂN TÍCH THỐNG KÊ MẪU ĐIỂM KHÔNG GIAN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS ĐÀO HỮU HỒ
Hà Nội, Năm 2013
Trang 3MỞ ĐẦU
Quá trình điểm không gian được phát triển mạnh mẽ từ các thập niên 60 – 70 – 80 của thế kỷ trước và vẫn được các nhà khoa học không ngừng quan tâm cho đến nay
Ngoài ý nghĩa khoa học rất rõ ràng và sáng sủa, quá trình điểm không gian còn có rất nhiều ứng dụng Nhiều hiện tượng trên thực tiễn chúng ta gặp là các quá trình điểm không gian Do đó ngoài việc nghiên cứu lý thuyết các quá trình điểm không gian, các nhà khoa học còn rất quan tâm tới bài toán phân tích thống kê các quá trình điểm không gian Nghĩa là làm sao ta nhận biết được một quá trình điểm không gian ta gặp trong thực tế là quá trình điểm không gian nào, chúng có những tính chất gì,… Cụ thể hơn: chúng ta có một mẫu ảnh về một hiện tượng nào đó Liệu mẫu ảnh này có tính ngẫu nhiên không gian hoàn toàn hay không, hoặc quá trình điểm không gian đang xét có phải là quá trình Poisson hay không Để trả lời câu hỏi trên ngoài phương pháp mang tính hàn lâm truyền thống, từ thập niên 80 –
90 của thế kỷ 20, với sự phát triển rất mạnh mẽ của tin học, một phương pháp nghiên cứu mới xuất hiện trong nghiên cứu của thống kê toán học là chúng ta mô phỏng các quá trình điểm không gian mà ta quan tâm, sau đó ta xét một vài đặc trưng nào đó của quá trình này So sánh các đặc trưng của quá trình mô phỏng với các đặc trưng của mẫu ảnh ta có, nếu thấy chúng phù hợp với nhau, ta sẽ kết luận về mẫu ảnh ta đang xét
Các đặc trưng được nhắc đến trên, trong luận văn này chính là các khoảng cách: khoảng cách giữa các biến cố, khoảng cách từ biến cố tới biến cố gần nhất, khoảng cách từ một điểm tới biến cố gần nhất, số trung bình khoảng cách nhỏ hơn t của một biến cố cố định bất kỳ
Ngoài phần mở đầu, phần kết luận và danh mục tài liệu tham khảo, luận văn
“Phương pháp khoảng cách trong phân tích thống kê mẫu điểm không gian”,
gồm ba chương:
Trang 4Chương này giới thiệu một số khái niệm về mẫu điểm không gian, đặc biệt là tính ngẫu nhiên không gian hoàn toàn và một số đặc trưng cấp 1, cấp 2 của quá trình điểm không gian
Chương 2: Các phương pháp khoảng cách
Chương này luận văn giới thiệu đến các kết quả lý thuyết về quá trình điểm không gian Cụ thể là các hàm phân phối của các khoảng cách đối với quá trình điểm Poisson Đó là hàm phân phối của khoảng cách giữa các biến cố, khoảng cách lân cận gần nhất, khoảng cách từ điểm tới các biến cố gần nhất, ước lượng tính chất cấp 2
Chương 3: Phân tích mẫu ảnh trên máy tính
Trong chương này, luận văn đã xây dựng các chương trình để xử lý một mẫu ảnh đã cho Mỗi mẫu ảnh được xử lý dựa trên bốn tiêu chuẩn liên quan tới bốn khoảng cách giữa các biến cố Dựa trên các kết quả nhận được khi sử dụng các phần mềm đã được xây dựng trong chương 3 này, chúng tôi đã phân tích và đưa đến kết luận về tính ngẫu nhiên không gian hoàn toàn của ba mẫu ảnh điển hình: mẫu ngẫu nhiên, mẫu kết tập, mẫu có quy tắc
Mặc dù đã rất cố gắng, nhưng do vấn đề được đề cập trong luận văn là tương đối phức tạp, do thời gian có hạn và do trình độ còn hạn chế, vì vậy luận văn không tránh khỏi những thiếu sót Tác giả luận văn mong muốn nhận được sự góp ý kiến của các thầy cô và các bạn đồng nghiệp để luận văn được hoàn chỉnh hơn
Trang 5MỤC LỤC
Chương 1: Quá trình điểm không gian: Các khái niệm cơ bản ……… 1
1.1 Mẫu điểm không gian……… 1
1.2 Tính ngẫu nhiêu không gian hoàn toàn (tính CSR)……… 3
1.3 Tiêu chuẩn Monte Carlo……… 4
1.4 Quá trình điểm không gian……… 5
1.4.1 Quá trình đơn biến……… 6
1.4.2 Quá trình Poisson thuần nhất……… 8
Chương 2: Các phương pháp khoảng cách……… 10
2.1 Khoảng cách giữa các biến cố……… 10
2.2 Khoảng cách lân cận gần nhất……… 13
2.3 Khoảng cách từ điểm tới các biến cố gần nhất……… 14
2.4 Ước lượng tính chất cấp hai: ước lượng hàm K(t)……… 15
Chương 3: Phân tích mẫu ảnh trên máy tính……… 19
3.1 Lập trình xử lý hàm H(t)……… 19
3.2 Lập trình xử lý hàm G(t)……… 30
3.3 Lập trình xử lý hàm F(t)……… 39
3.4 Lập trình xử lý hàm K(t)……… 48
3.5 Phân tích xử lý ba mẫu ảnh cụ thể……… 54
Kết luận ……… 62
Tài liệu tham khảo ……… 63
Trang 6CHƯƠNG1: QUÁ TRÌNH ĐIỂM KHÔNG GIAN:
CÁC KHÁI NIỆM VÀ KẾT QUẢ CƠ BẢN 1.1 Mẫu điểm không gian
Trong nghiên cứu thống kê chúng ta thường gặp các tình huống mà dữ liệu cho dưới dạng tập các điểm, được phân bố ngẫu nhiên trong một miền của không gian, chẳng hạn như các ảnh chụp từ trên cao cho ta các vị trí của các cây trong một khu rừng, hoặc vị trí các tổ chim, hoặc vị trí của các nhân tế bào trong một phần mô nhỏ, … vv
Chúng ta gọi những tập như vậy là mẫu điểm không gian và coi vị trí của các phần tử đó là các biến cố để phân biệt chúng với các điểm tùy ý khác trong miền được nói đến
Sau đây ta xem xét một số ví dụ cụ thể về mẫu điểm không gian
Hình 1.1: Vị trí của 65 cây thông đen Nhật Bản Hình 1.1, do Numata đưa ra (xem [12]),thể hiện vị trí của 65 cây thông đen Nhật Bản trong một hình vuông với cạnh 5,7m
0 0.2 0.4 0.6 0.8 1 1.2
S…
Trang 7Hình 1.2: Vị trí của 62 cây gỗ đỏ Hình 1.2, do Strauss đưa ra(xem [14]), thể hiện vị trí 62 cây gỗ đỏ trên một hình vuông với cạnh 23m
Nhận thấy ở hai mô hình này có sự khác biệt rất rõ rệt Hình 1.1 thể hiện một cấu trúc không rõ ràng và có thể xem như là một mô hình ngẫu nhiên hoàn toàn Trong khi đó ở hình 1.2, việc mọc thành cụm một cách rõ rệt của các cây gỗ đỏ Chúng ta miêu tả mẫu điểm giống như hình 1.2 là mẫu kết tập
0 0.2 0.4 0.6 0.8 1 1.2
S…
0 0.2 0.4 0.6 0.8 1 1.2
S
Trang 8Hình 1.3, do Ripley đưa ra (xem [14]), lại là một mẫu điểm khác, nó thể hiện nhân của 42 tế bào sinh học Sự phân bố của các nhân tế bào có vẻ có quy tắc
Qua 3 ví dụ trên ta có thể hình thành một sự phân loại các mẫu điểm không gian như sau: mẫu có quy tắc, mẫu ngẫu nhiên, mẫu kết tập
Ta giả sử các miền được xét đến đều là miền phẳng trong không gian hai chiều Nhưng về nguyên tắc ta có thể mở rộng cho các không gian khác
1.2 Tính ngẫu nhiên không gian hoàn toàn (tính CSR)
Trước hết ta nêu định nghĩa của tính ngẫu nhiên không gian hoàn toàn (Complete Spatial Randomness: CSR).Đó là tính độc lập tứ phía Nghĩa là số các biến cố của mẫu điểm rơi vào k tập Borel rời nhau lập nên k biến ngẫu nhiên độc lập (xem [15])
Giả thiết về tính ngẫu nhiên không gian hoàn toàn khẳng định rằng:
i) Số biến cố trong một miền phẳng A với diện tích A, tuân theo phân phối Poisson với giá trị trung bình λ A
ii ) Cho n biến cố Xi trong miền A thì các Xi được xem là một mẫu ngẫu nhiên độc lập cỡ n có phân phối đều trên A
Trong i) hằng số λ là cường độ hay là số trung bình các biến cố trên mỗi đơn
vị diện tích Theo i), nếu tính chất CSR thỏa mãn thì cường độ của các biến cố không thay đổi quá mức cho phép Theo ii), khi tính CSR thỏa mãn thì không có sự ảnh hưởng lẫn nhau giữa các biến cố Nghĩa là tính độc lập trong ii) sẽ bị vi phạm nếu sự tồn tại của một biến cố tại X hoặc là khuyến khích hoặc là hạn chế sự tồn tại của các biến cố khác trong lân cận của X
Hình 1.4: 100 biến cố trong một hình vuông đơn vị
Trang 9Hình 1.4 cho ta mẫu điểm ngẫu nhiên không gian hoàn toàn của 100 biến cố trên một đơn vị diện tích Những hình ảnh ấn tượng về sự kết tập là không có Cũng cần lưu ý tới sự giống nhau bề ngoài với hình 1.1
Ta quan tâm đến tính CSR bởi nó cho ta một ý tưởng chuẩn hóa, điều tưởng chừng không thể đạt được trong thực tế, và có thể trở thành tiện lợi cho xấp xỉ đầu tiên
Hầu hết các phân tích bắt đầu với việc kiểm tra tính CSR, bởi nó có những
ưu điểm sau:
- Một mẫu thỏa mãn tính CSR không bác bỏ những ưu điểm của các phương pháp phân tích thống kê chính thức
- Các tiêu chuẩn được dùng như là công cụ để khám phá tập số liệu hơn là để bác bỏ tính CSR
- Tính CSR tác động như là một phân chia giả thiết để phân biệt mẫu điểm có quy tắc và mẫu điểm kết tập
1.3 Tiêu chuẩn Monte Carlo
Ngay cả đối với mô hình ngẫu nhiên đơn giản của mẫu ảnh không gian cũng dẫn đến các phân phối lý thuyết khó, cho nên để kiểm định mô hình đối với các số liệu người ta sử dụng rộng rãi các tiêu chuẩn Monte Carlo (xem [6])
Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm không gian Nội dung của tiêu chuẩn như sau:
Ta xét một thống kê U nào đó
+ Giả sử u1 là giá trị quan sát của U từ mẫu điểm đã cho
+ Giả sử ui ( i = 2, …, s ) là các giá trị tương ứng của U sinh ra bởi các mẫu ngẫu nhiên độc lập,thỏa mãn giả thiết H nào đó (giả thiết H trong luận văn này chính là tính CSR)
+ Giả sử u( j ) là giá trị lớn nhất thứ j trong số ui , i = 1,2,…, s
Khi đó với giả thiết H ta có:
s u
u
P( 1 (j)) 1 , j = 1,2,…, s
Nếu u1 được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H Thực hiện như vậy ta nhận được tiêu chuẩn một phía với mức ý nghĩa k
Trang 10Ta giả thiết các giá trị ui là khác nhau, do đó hạng (hay vị trí) của u1 trong dãy u i là rõ ràng
Hope (xem [9])đã cho một số ví dụ để chỉ ra rằng sự tổn thất lực lượng nhận được từ tiêu chuẩn Monte Carlo là rất nhỏ, vì vậy giá trị s không nhất thiết phải lớn lắm Với tiêu chuẩn một phía mức ý nghĩa thông thường là 5% thì s = 100 là đủ
Tổn thất lực lượng liên quan đến nghiên cứu của Mairiott về “ vùng giới hạn
mờ “(xem [10])mà nó xuất hiện bởi giá trị của u1 có thể có ý nghĩa trong phương pháp kiểm tra cổ điển nhưng không có ý nghĩa trong phương pháp kiểm tra Monte Carlo và ngược lại Giả sử hàm phân phối của U với giả thiết H là F(u) Đối với tiêu chuẩn một phía 5% với s = 20k ta có
P(bác bỏ H/ u1) r s r
u F u F r
Với phương pháp kiểm tra cổ điển khi s → ∞ , P(bác bỏ H/ u1) tiến tới 1 hoặc 0 tương ứng với F(u1) lớn hơn hoặc nhỏ hơn 0,95
1.4 Quá trình điểm không gian
Một quá trình điểm không gian là một cơ cấu ngẫu nhiên mà nó sinh ra một tập hợp đếm được các biến cố xi trong mặt phẳng
Chúng ta sẽ làm việc với các quá trình dừng và đẳng hướng
Tính dừng của quá trình có nghĩa là tất cả các tính chất của quá trình sẽ bất biến đối với phép tịnh tiến, còn tính đẳng hướng nghĩa là các tính chất của quá trình
sẽ bất biến đối với phép quay
Các phương pháp thống kê đối với mẫu điểm không gian, thường là liên quan đến việc so sánh giữa các mô tả tóm tắt thực nghiệm của dữ liệu và mô tả tóm tắt lý thuyết tương ứng của một mô hình quá trình điểm
Điều này dẫn tới việc xây dựng các tiêu chuẩn của tính ngẫu nhiên không gian hoàn toàn liên quan đến việc so sánh giữa dạng phân phối lý thuyết của khoảng
Trang 11cách nào đó và hàm phân phối tương ứng trong một mẫu quan sát của n biến cố Vì vậy chúng ta sẽ xem xét các mô tả tóm tắt lý thuyết của quá trình điểm Ta tập trung vào các tính chất mà dẫn đến các phương pháp thống kê thuận tiện Chúng ta có các
ký hiệu sau:
E[X] là kỳ vọng của biến ngẫu nhiên X
N(A) là số các biến cố trong miền phẳng A
Nj (A) là số các biến cố loại j trong A (trong quá trình đa biến)
Alà diện tích của A
dx là một miền nhỏ chứa điểm x
y
x là khoảng cách Euclid giữa điểm x và y
1.4.1Quá trình đơn biến
Trước hết, ta định nghĩa tính chất cấp một và tính chất cấp hai của quá trình điểm không gian
Tính chất cấp một được mô tả bởi hàm cường độ
dx
) ( lim
x
dy dx
) ( ) ( lim
) ,
(
0 0 2
Hàm cường độ có điều kiện là:
) (
) , ( ) /
y
y x y
(t E N t
K (1.2)
Trang 12với N0 (t) là số các biến cố khác trong khoảng cách t của một biến cố tùy ý
Ta thiết lập mối quan hệ giữa K(t) và λ2 (t) như sau:
Giả sử quá trình của chúng ta là có trật tự, nghĩa là các biến cố trùng nhau không thể xảy ra Chính xác hơn, PN(dx)1có cấp nhỏ hơn so với dx Điều này
có nghĩa là E[N(dx)] ~ PN(dx)1 theo nghĩa là tỷ số của hai số lượng này có xu hướng tiến đến 1 nếu dx 0
là gốc và bán kính t Do đó :
( )
1)
) ) ( )
0 (
) 0 / ( ) 0 / (
t
)(2
)(2)
2
2( ))
t t (1.5)
Đối với việc phân tích dữ liệu, K(t) thuận lợi hơn λ2(t) ở chỗ nó có thể ước lượng một cách dễ dàng hơn từ các dữ liệu Về cơ bản K(t) và λ2(t) liên quan đến hàm phân phối và hàm mật độ xác suất của các khoảng cách giữa các cặp biến cố
Trang 13trong mẫu điểm, và đặc biệt trong các mẫu nhỏ, nó thuận lợi ta người đầu tiên có thể ước lượng mà không cần phải xem phân phối thực nghiệm tương ứng mịn đến mức nào
Một thuận lợi khác của hàm K là nó bất biến đối với phép làm mỏng ngẫu nhiên Bởi vậy, chúng ta hiểu rằng, nếu mỗi biến cố của một quá trình được giữ lại hoặc không tương ứng với dãy phép thử Bernoulli độc lập thì hàm K của quá trình làm mỏng nhận được sẽ đồng nhất với hàm K của quá trình ban đầu Theo (1.2), hàm K được định nghĩa là tỷ số của hai đại lượng là EN0(t)và λ Hiệu quả của sự mỏng là mỗi phần tử bội là p, xác suất sự giữ lại cho một biến cố bất kỳ là tỷ số không đổi
1.4.2 Quá trình Poisson thuần nhất
Quá trình Poisson thuần nhất trên mặt phẳng là nền tảng lý thuyết của quá trình điểm không gian được xây dựng Nó biểu diễn cơ chế ngẫu nhiên đơn giản nhất có thể để sản sinh ra các mẫu điểm không gian và trong ứng dụng nó được sử dụngnhư là một tiêu chuẩn lý tưởng của tính ngẫu nhiên không gian hoàn toàn Quá trình Poisson được định nghĩa một cách thuận lợi bởi những vấn đề sau, nó tương ứng với định nghĩa tính ngẫu nhiên không gian hoàn toàn
i) Đối với λ > 0, với bất kỳ miền phẳng hữu hạn A, N(A) tuân theo luật phân phối Poisson với trung bình λ A
ii) Với N(A) = n đã cho, n biến cố trong A lập nên một mẫu ngẫu nhiên độc lập phân phối đều trong A
Để chứng minh rằng i) và ii) là tự phù hợp, ta đưa ra tính chất iii):
iii) Cho hai miền rời nhau A và B, các biến ngẫu nhiên N(A) và N(B) độc lập Thật vậy, từ i) và ii) ta suy ra iii)
Đặt C AB là hợp của hai miền rời nhau A và B
Trang 14)(
!
)()
(,)(
y
B e
x
A e
n
C e
q p x
y x y B N x A
N
P
y B
x A
n C
y x
với x,y: nguyên, không âm
Điều đó chứng tỏ N(A), N(B) có phân phối Poisson độc lập Ta nhận được iii) Ngược lại tính cộng tính của các biến ngẫu nhiên phân phối Poisson độc lập X
và Y và phân phối nhị thức có điều kiện của X với điều kiện X + Y đã cho sẽ cho ta tính i) và ii) đối với mọi miền là hợp của hai miền rời nhau mà trên đó tính i) và ii) thỏa mãn Điều đó chứng minh tính tự phù hợp mà ta yêu cầu
Tham số λ của quá trình Poisson là cường độ của nó Từ tính độc lập iii) ta suy ra
0:)
( ) 0 1 exp( ): 0)
()
(x G x P N x2 x2 x
Để mô phỏng một thể hiện riêng của quá trình Poisson trên A với điều kiện N(A) bằng một giá trị cố định, chúng ta cần tạo ra các biến cố độc lập theo một hàm phân phối đều trên A Các dạng khó sử dụng của miền A có thể được điều chỉnh bởi
sự mô phỏng các quá trình trên một miền lớn hơn với một dạng phù hợp chẳng hạn
là hình chữ nhật hoặc hình tròn, và chỉ giữ lại các biến cố nằm trong A
Trang 15CHƯƠNG2: CÁC PHƯƠNG PHÁP KHOẢNG CÁCH
Việc kiểm định tính CSR là một điều kiện tiên quyết tối thiểu đối với mọi cố gắng nghiêm túc để mô hình hóa một mẫu quan sát được Vì vậy trong chương này chúng ta sẽ xây dựng các tiêu chuẩn để nhận biết tính CSR dựa trên các khoảng cách giữa các biến cố với nhau, khoảng cách tới biến cố gần nhất, khoảng cách giữa một điểm cố định tới các biến cố …
Các tiêu chuẩn dựa trên phương pháp đồ thị sẽ mang đến cho chúng ta những kết quả bất ngờ thú vị Giá trị của phương pháp đồ thị mang lại khá nhiều thông tin
và nhiều trường hợp ta không cần dùng đến phương pháp khác nữa Dùng mức ý nghĩa đạt được để đánh giá mức độ thỏa mãn tính CSR Trường hợp không thỏa mãn ta sẽ kết hợp thông tin của các tiêu chuẩn bổ sung khác để chỉ ra bản chất của
mọi sự không thỏa mãn tính CSR của một mẫu điểm
2.1 Khoảng cách giữa các biến cố
Giả sử ta có một mẫu điểm gồm n biến cố trong một miền A, khi đó ta có )
C n khoảng cách giữa các biến cố Ký hiệu tịj là khoảng cách giữa hai biến
cố i và j trong miền A Phân phối lý thuyết của khoảng cách T giữa hai biến cố độc lập và phân phối đều trong A, phụ thuộc vào kích thước và hình dạng của A, nhưng
có thể biểu diễn được dưới dạng kiểu khi A là hình vuông hoặc hình tròn (xem [7])
Đối với một hình vuông đơn vị, hàm phân phối của T là:
: ) 1 2 arcsin(
2 3
) 1 2 ( ) 1 ( 4 2
2
3
1
1 0
: 2
3
8 )
(
2 2
2 2 / 1 2 4
2
4 3 2
t t
t t
t t t
t t
t t
t
t t
Trang 16Giả sử đối với miền A đang xét, hàm phân phối H(t) đã biết Tính toán hàm phân phối thực nghiệm (viết tắt là EDF) của khoảng cách giữa các biến cố.Gọi hàm
2 )
(
ˆ
1 t n n
H #(t ij t)
trong đó # (t ij t)là số lượng của các tij mà nhỏ hơn hay bằng t
Bây giờ ta vẽ đồ thị của ˆ ( )
H với giả thiết tính CSR được thỏa mãn.Nhưng điều
đó khá phức tạp bởi vì sự phụ thuộc giữa các khoảng cách giữa các biến cố với một điểm biên chung Do đó chúng ta tiến hành như sau:
+ Ta mô phỏng s – 1 mẫu điểm gồm n biến cố trong miền A với kích thước
và hình dạng như mẫu điểm đang xét với giả thiết thỏa mãn tính CSR Đó là s – 1
mô phỏng của n biến cố độc lập và có phân phối đều trong A
+ Với một mẫu mô phỏng ta tính hàm phân phối thực nghiệm H ˆ t i( ), i = 2,3,…, s
+ Xác định các bao mô phỏng trên dưới tương ứng:
Bao mô phỏng trên là U(t) = max{H ˆ t i( ), i = 2,3, …, s } (2.3) Bao mô phỏng dưới là L(t) = min {H ˆ t i( ) , i = 2,3, …, s } (2.4) Các bao mô phỏng này được vẽ đối với H(t) và có tính chất là với tính CSR
và với mỗi t
s t L t H P t U t H
P( ˆ ( ) ( )) ( ˆ ( ) ( )) 1
1
Trang 17Các bao mô phỏng giúp ta đánh giá, giải thích đồ thị của ˆ ( )
1 t
H đối với H(t) Hai trong nhiều phép xấp xỉ để xây dựng tiêu chuẩn Monte Carlo chính xác của CSR như sau:
i) Chọn t0 và xác định ˆ ( )
0
t H
u i i Như đã nói trong 1.3 thứ hạng của u1trong dãy ui , i = 1, 2 …, s cung cấp một cơ sở của tiêu chuẩn, bởi vì với tính CSR thì tất cả các hạng của u1 là như nhau
ii ) Xác định ui là thước đo của sự khác biệt giữa H ˆ t i( )và H(t) trên toàn khoảng biến thiên t, chẳng hạn
dt t H t H
u i ( ˆi( ) ( ))2 (2.6)
và một lần nữa chúng ta lại áp dụng tiêu chuẩn dựa trên hạng của u1
Phép xấp xỉ đầu tiên có ý nghĩa chỉ khi t0 có thể được lựa chọn một cách ngẫu nhiên, trong khi đó cách thứ hai có vẻ khách quan hơn
Nếu miền A là một miền mà đối với nó hàm phân phối lý thuyết H(t) chưa biết thì việc kiểm tra tính CSR vẫn có thể được thực hiện nếu trong (2.6), H(t) được
1
1 )
s t H
i j j
là ˆ ( )
1 t
H vẫn nằm trong vùng dao động của tính CSR, khi đó ta chấp nhận giả thiết H: mẫu điểm có tính CSR Ngược lại, ta bác bỏ giả thiết H, nghĩa là mẫu điểm không có tính CSR
Trang 18Để nhận được các kết quả trình bày trên chúng ta phải nhờ đến sự giúp đỡ của máy tính điện tử
Lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm ở hình 1.1, 1.2, 1.3 sẽ được thực hiện ở chương sau
2.2 Khoảng cách lân cận gần nhất
Cho n biến cố trong miền A Đặt yi là khoảng cách từ biến cố thứ i đến biến
cố khác gần nó nhất trong A yi được gọi là khoảng cách lân cận gần nhất Như vậy
ta sẽ có n giá trị yi trên miền A Chúng ta có thể tính được EDF, giả sử ˆ ( )
1 y
G , khoảng cách lân cận gần nhất bằng cách tương tự với việc tính toán được sử dụng tại mục 2.1 để có được ˆ ( )
1 t
H Vì vậy: ˆ ( )
1 y G
Sự phân bố lý thuyết của khoảng cách lân cận gần nhất Y dưới tính CSR phụ thuộc vào n và miền A không thể biểu diễn dưới dạng hiểu bởi sự phức tạp của hiệu ứng biên Nếu bỏ qua hiệu ứng biên và nếu ký hiệu A là diện tích của A thì ta sẽ
nhận được biểu thức xấp xỉ Khi đó
)1
(1)
( n
A y y
1)
(y y2 y
Trang 19Hàm phân phối thực nghiệm ˆ ( )
i = 2,… , s; dựa trên các mô phỏng
Các cơ sở có thể đối với tiêu chuẩn Monte Carlo là
+ Chọn ui là giá trị trung bình của mẫu ycủa n khoảng cách lân cận gần nhất + Hoặc chọn y0 , đặt ˆ ( )
0
y G
s y G
i j j
Bước cuối cùng là vẽ đồ thị các hàm G ˆ y i( ), U(y), L(y) trên cùng một hệ tọa
độ với hoành độ là G1(y), các tung độ tương ứng là ˆ ( )
1 y
G , U(y), L(y) Việc đánh giá hàm phân phối thực nghiệm của các khoảng cách lân cận gần nhất G1(y)ứng với mẫu điểm đã cho cũng tương tự như việc đánh giá hàm ˆ ( )
1 t
H ở mục 3.1
Việc lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm được giới thiệu ở 1.1 sẽ được bàn đến ở chương sau
2.3 Khoảng cách từ điểm tới các biến cố gần nhất
Giả sử ta có m điểm mẫu trong miền A xi là khoảng cách từ một điểm mẫu (trong m điểm mẫu trên) tới biến cố gần nhất trong n biến cố trong A Hàm phân phối thực nghiệm ˆ ( )
1 x F
Trang 20Lập luận tương tự như khi dẫn tới (2.7) dưới giả thiết về tính CSR ta nhận được biểu thức xấp xỉ:
0:)exp(
1)
Green-Hình 2.1:Đồ thị thực nghiệmF ˆ x( ) của các tế bào sinh học
Hình (2.1) chỉ ra rằng với mẫu điểm hình 1.3- nhân của 42 tế bào sinh học mức độ xấp xỉ được dùng là k = 7 ≈ 42 ; k = 14; k = 96
Với sự phát triển của khoa học tính toán thì việc lựa chọn k lớn không phải là một trở ngại Nhìn vào hình 2.1 ta thấy nếu k lớn ta sẽ nhận được đường cong F ˆ x( )trơn
Tương tự như đã làm trong khoảng cách lân cận gần nhất, tiêu chuẩn Monte Carlo của CSR có thể dựa trên thống kê:
Trang 21lượng cho hàm 2(t) Chọn một dải độ rộng h > 0 làm phép xấp xỉ
h t K h t K t
Kˆ'( ) ˆ( ) ˆ( ) 1
sẽ dẫn tới ước lượng
) ( ˆ ) 2 ( ˆ )
Trong mục 1.4.2 chúng ta đã định nghĩa hàm K(t) bởi K(t)EN0(t) tính chất cấp hai của quá trình dừng, đẳng hướng, ở đây cường độ λ là số lượng trung bình của các biến cố trên một đơn vị diện tích,
+ Đặt u ij x i x j
+Xác định ~( ) 1 ( )
1
t u I n
Ở đây, I(.) ký hiệu là hàm chỉ tiêu
Dạng công thức ước lượng E~(t)trong (2.10) thể hiện một cách chính xác rằng hàm K được liên kết chặt chẽ với phân bố khoảng cách giữa các biến cố mà ta
đã sử dụng trong phân tích ở mục 1.2 Tuy nhiên E~(t) là ước lượng chệch âm đối với E(t) vì hiệu ứng biên Đối với biến cố được nhắc đến trong khoảng cách t của biên của A, số lượng các biến cố khác trong khoảng cách t quan sát được cần thiết phải loại trừ mỗi biến cố nào mà có thể xảy ra trong khoảng cách t nhưng bên ngoài
A Một vài phương pháp đã được đề xuất cho việc này, phương pháp sau chúng ta
sử dụng là của Ripley (xem [13])
Trang 22+ Ký hiệu ij (x i,u ij)
Khi đó đối với quá trình dừng, đẳng hướng, ijlà xác suất có điều kiện để một biến cố được quan sát, biết rằng nó ở khoảng cách u ijtừ biến cố thứ i là xi Xem hình 2.2 và chú ý rằng nói chungij ji
Hình 2.2: Ước lượng của Ripley (1976) cho hàm K(t) Như vậy ước lượng không chệch cho E(t) là ˆ ( ) 1 1 ( )
1
ij t n
u I n
1 (
1 )
(
ˆ
1
ij t n
u I A
n n t
1
n
n Ước lượng của Ripley là xấp xỉ không chệch với t đủ nhỏ, hạn chế trên t là cần thiết bởi vì trọng lượng ij có thể tiến tới vô cùng khi t tăng Trong thực tế đây không phải là vấn đề nghiêm trọng Chẳng hạn, khi A là hình vuông đơn vị giới hạn trên lý thuyết của t là
2
1
≈ 0,7 nhưng K ˆ t( )sẽ hiếm khi được yêu cầu với các giá trị t lớn như vậy
Trang 23Các phần mềm Splancs kết hợp một thuật toán được viết bởi Barry Rowlingson cho cách tính ( u x, )khi A là một đa giác tùy ý Công thức rõ ràng của
d d
Bây giờ giả sử rằng A là hình tròn có tâm là gốc và bán kính a Giả sử
Trang 24CHƯƠNG 3: PHÂN TÍCH MẪU ẢNH TRÊN MÁY TÍNH
A,A1,A2,A3,A4 : Array [0 maxn+1] of toado;
kc :Array [0 maxn,0 maxn] of Real;
H1,U,L : Array [0 sdchia] of Real;
R : Array [0 sdchia+1] of Integer;
N : Integer;
fi1,f01 : Text;
(*===============================================*)
Trang 25Begin
Line(XO-Dx1, YO, XO+Dx2, YO); {Truc hoanh}
Line(XO+Dx2-5, YO-5, XO+Dx2, YO);
Line(XO+Dx2-5, YO+5, XO+Dx2, YO);
Line(XO, YO-Dy2, XO, YO+Dy1); {Truc tung}
Line(XO, YO-Dy2, XO-5, YO-Dy2+5);
Line(XO, YO-Dy2, XO+5, YO-Dy2+5);
Trang 26FileExists:=(IOResult = 0)and(FileName<> '');
End; { FileExists }
(*===============================================*) Procedure Nhap; { Đọc dữ liệu ảnh mẫu ban đầu}
Trang 27Var
Trang 29Begin
Fh1:=(2*Dem(t))/(n*(n-1));
end;
(*=============================================*) Function FHi(t:real): real;
Begin
Fhi:=(2*Dem(t))/(n*(n-1));
end;
(*===============================================*) Procedure LapToadoFH;
Trang 31if H1[i]<L[i] then L[i]:=H1[i];
if H1[i]>U[i] then U[i]:=H1[i];
end;
end;
(*==============================================*) Procedure Lapbaomophong;
Trang 32For i:=0 to sdchia do
if myn < R[i] then myn:=R[i];
writeln('Muc Y nghia =',myn/s:6:3);
end;
(*===============================================*) Procedure THAY;
Trang 33(*==================================================*) Procedure VedothiFH;
var x,y : Real;
var x,y : Real;
Trang 34End;
End;
(*===============================================*) Procedure VedothiH1tHt;
Var i : Integer;
Begin
for i:=1 to n do
Putpixel(Xorg+Trunc(Dx*A1[i].x),Yorg-Trunc(A1[i].y*Dx),10); End;
(*===============================================*) Procedure Process;