1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn Công nghệ tri thức: LÝ THUYẾT THỐNG KÊ HỌC STATISTICS VÀ BÀI TẬP THỎ NÓI DỐI

40 574 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 2,57 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thống kê mô tả được sử dụng thường xuyên nhất với hai thuộc tính phân phối mẫuhoặc tổng thể: chiều hướng trung tâm hoặc vị trí tìm cách để mô tả giá trị trung bìnhhoặc giá trị đặc trưng

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

Tel (84-511) 736 949, Website: itf.ud.edu.vn, E-mail: cntt@edu.ud.vn

TIỂU LUẬN MÔN HỌC CÔNG NGHỆ TRI THỨC NGÀNH KHOA HỌC MÁY TÍNH

ĐỀ TÀI :

LÝ THUYẾT THỐNG KÊ HỌC - STATISTICS

VÀ BÀI TẬP THỎ NÓI DỐI

Nhóm HV : 1 ĐẶNG VĂN NGHĨA

2 MAI XUÂN PHÚ

3 TRẦN HỮU PHƯỚC Lớp Cao học KHMT Khóa 31 (2015  2017))

ĐÀ NẴNG, 5/2016

Trang 2

sống, từ kinh tế, chính trị, xã hội, văn hóa đến các lĩnh vực nghiên cứu khoa học khác.

Do vậy, lượng dữ liệu đã được các cơ quan, tổ chức, cá nhân thu thập và lưu trữ ngày mộtnhiều lên và hình thành các kho dữ liệu khổng lồ Cùng với sự phát triển đó, yêu cầu cómột nghành khoa học để phục vụ việc phân tích, giải thích, trình bày và tổ chức các dữliệu khổng lồ đó là rất cần thiết Vì vậy thống kê học đã ra đời

Thống kê học là một môn khoa học xã hội, ra đời và phát triển do nhu cầu hoạtđộng thực tiễn xã hội Trước khi trở thành một môn khoa học độc lập, thống kê học đã

có một nguồn gốc lịch sử phát triển khá lâu Đó là cả một quá trình tích luỹ kinhnghiệm từ giản đơn đến phức tạp, được đúc rút dần thành lý luận khoa học ngày cànghoàn chỉnh Thống kê học là sự nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, baogồm phân tích, giải thích, trình bày và tổ chức dữ liệu, ngày càng phát triển mạnh mẽ vàhoàn thiện hơn về phương pháp luận, nó thực sự trở thành công cụ để nhận thức xã hội vàcải tạo xã hội Trong phạm vi tiểu luận này, nhóm xin trình bày nghiên cứu các vấn đề cơbản về Thống kê học

Xin chân thành cám ơn Thầy PGS.TS Phan Huy Khánh đã cung cấp kiến thức, tàiliệu để chúng tôi hoàn thành báo cáo này Kính mong sự chỉ bảo và góp ý của Thầy đểbài tiểu luận được hoàn thiện hơn

Đà Nẵng, ngày 12 tháng 5 năm 2016

Nhóm học viên thực hiện

Đặng Văn NghĩaMai Xuân PhúTrần Hữu Phước

Trang 3

I Giới thiệu 1

I.1 Lịch sử của thống kê học 1

I.2 Tổng quan 1

I.3 Các phương pháp thống kê 2

II Nội dung 3

II.1 Thu thập dữ liệu 3

II.1.1 Phương pháp chọn mẫu 3

II.1.2 Các nghiên cứu thực nghiệm và quan sát 8

II.2 Các kiểu dữ liệu 9

II.3 Thuật ngữ và lý thuyết của thống kê suy luận 10

II.3.1 Thống kê, ước tính và số lượng chính 10

II.3.2 Giả thuyết vô nghĩa và các giả thuyết thay thế 11

I Đề bài: (Đề 16) Thỏ nói dối 26

II Xây dựng cơ sở luật và sự kiện 26

III Xây dựng câu hỏi truy vấn 30

III.1 Câu hỏi có/không(Yes/No) 30

III.2 Câu hỏi tình huống (Wh-Questions) 30

III.3 Câu hỏi điền chỗ trống (Fill -in-the-blank/Cloze Questions) 31

KẾT LUẬN 35

TÀI LIỆU THAM KHẢO 36

Trang 4

I Giới thiệu

I.1 Lịch sử của thống kê học

Phương pháp thống kê đã tồn tại ít nhất là thế kỷ thứ 5 trước công nguyên

Một số học giả xác định được nguồn gốc của số liệu thống kê đến năm 1663, vớicác ấn phẩm của tự nhiên và quan sát chính trị Bills do John Graunt Ứng dụng đầu tiêncủa thống kê xoay quanh nhu cầu chính sách các quốc gia trên cơ sở dữ liệu nhân khẩuhọc và kinh tế, do đó hình thành ngành nghiên cứu nguồn gốc thống kê

Các lĩnh vực hiện đại của số liệu thống kê xuất hiện vào cuối thế kỷ 19 và đầu thế

kỷ 20 trong 3 giai đoạn Giai đoạn đầu tiên, vào thời điểm chuyển giao thế kỷ, được dẫndắt bởi các công việc của Sir Francis Galton và Karl Pearson, đã trở thành một hệ thốngthống kê toán học sử dụng trong phân tích, không chỉ trong các nghiên cứu khoa học, màcòn sử dụng trong các ngành công nghiệp và chính trị

Giai đoạn thứ hai của những năm 1910 và 1920 đã được khởi xướng bởi WilliamGosset, và đỉnh cao trong tri thức của Sir Ronald Fisher, người đã viết cuốn sách để xácđịnh các ngành học trong các trường đại học trên toàn thế giới

Ngày nay phương pháp thống kê được áp dụng trong tất cả các lĩnh vực có liênquan đến việc ra quyết định, để cho các kết luận chính xác từ một bộ phận so với các dữliệu và đưa ra quyết định khi đối mặt với kết luận không chắc chắn dựa trên phương phápthống kê Việc sử dụng máy tính hiện đại đã tính toán nhanh các tính toán thống kê quy

mô lớn, và cũng đã có những phương pháp mới có thể không chính xác bằng việc tínhbằng tay Thống kê tiếp tục là một lĩnh vực nghiên cứu thiết thực, ví dụ như vấn đề làmsao dể phân tích dữ liệu lớn

Thống kê là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích,

Trang 5

giải thích, trình bày và tổ chức dữ liệu Chúng ta áp dụng thống kể để nghiên cứu các lĩnhvực khoa học, công nghiệp hoặc các vấn đề xã hội Thống kê rất cần thiết để bắt đầunghiên cứu một tiến trình Ví dụ, tổng thể có thể gồm nhiều loại khác nhau như “tất cảmọi người đang sống trong một đất nước” hay “tập hợp các phân tử của tinh thể” Nó đềcập tới tất cả các khía cạnh của dữ liệu bao gồm việc lập kế hoạch, thu thập dữ liệu mẫucho các cuộc khảo sát và thí nghiệm.

Trong trường hợp không thể thu thập được trong quá trình điều tra tổng thể, thống

kê thu thập dữ liệu bằng cách phát triển các mẫu thí nghiệm và mẫu khảo sát cụ thể Mẫuđại diện cần được đảm bảo rằng những suy luận và kết luận có thể tin cậy được từ đó suy

ra toàn bộ tổng thể Một nghiên cứu thực nghiệm liên quan đến việc lấy kích thước mẫu,thao tác trên hệ thống và sau đó lấy kích thước mẫu cùng dạng để xác định xem các thaotác đã thay đổi giá trị của các phép đo Ngược lại, một quan sát nghiên cứu không liênquan đến việc thực hiện thí nghiệm

I.3 Các phương pháp thống kê

Hai phương pháp thống kê chính được sử dụng trong phân tích dữ liệu: thống kê mô

tả và thống kê suy luận

Thống kê mô tả (Descriptive statistics): là phương pháp tóm tắt dữ liệu từ một mẫu

sử dụng các chỉ số như là giá trị trung bình hoặc độ lệch chuẩn

Thống kê mô tả được sử dụng thường xuyên nhất với hai thuộc tính phân phối (mẫuhoặc tổng thể): chiều hướng trung tâm (hoặc vị trí) tìm cách để mô tả giá trị trung bìnhhoặc giá trị đặc trưng của phân phối, trong khi phân tán (hoặc thay đổi) mức độ đặc trưng

mà các thuộc tính của phân phối đi trệch so với nghiên cứu

Thống kê suy luận (Inferential statistic): rút ra kết luận từ dữ liệu biến thiên ngẫu

nhiên (ví dụ: các sai số quan sát, mẫu của tổng thể)

Suy luận về thống kê toán học được thực hiện trong khuôn khổ của lý thuyết xácsuất, trong đó đề cập tới việc phân tích các hiện tượng ngẫu nhiên Để thực hiện một suyluận khi chưa biết số lượng, hoặc nhiều ước lượng được đánh giá bằng cách sử dụng mẫu

Trang 6

II Nội dung

I.4 Thu thập dữ liệu

II.1 Phương pháp chọn mẫu

Trong bộ dữ liệu điều tra tổng thể, trường hợp không thể thu thập số liệu, dữ liệuthống kê phân tích được phát triển bằng các thiết kế thử nghiệm cụ thể và các mẫu khảosát Thống kê chính là việc cung cấp công cụ để nói trước và dự báo việc sử dụng các dữliệu thông qua các mô hình thống kê Để sử dụng một mẫu như một thông tin hướng dẫncho toàn bộ tổng thể, điều quan trọng là nó thực sự đại diện cho mẫu tổng thể Lấy mẫuđại diện phải đảm bảo rằng nó được suy luận và kết luận một cách chính xác từ việc chọnmẫu cho toàn bộ tổng thể Một vấn đề lớn nhằm làm tăng kích cỡ mẫu được lựa chọn làmẫu đại diện Thống kê cung các phương pháp thiết kê thử nghiệm mẫu, các thử nghiệmnày có thể làm giảm bớt các vấn đề ở việc bắt đầu nghiên cứu, tăng khả năng nhận biếtcác mẫu tin tưởng về mẫu thống kê

Để xây dựng phương pháp điều tra chọn mẫu cho riêng ngành Thống kê trước tiên

ta cần nghiên cứu đặc điểm của các cuộc điều tra thống kê

a Đặc điểm của các cuộc điều tra thống kê:

Ngành Thống kê thường xuyên tổ chức phối hợp các cuộc điều tra toàn bộ với cáccuộc điều tra chọn mẫu

- Cùng một hệ thống chỉ tiêu năm nay điều tra toàn bộ, sang năm hoặc một số nămsau đó lại điều tra chọn mẫu

- Trong cùng một năm một số chỉ tiêu dùng điều tra toàn bộ, một số chỉ tiêu khácdùng điều tra chọn mẫu

Ký hiệu các chỉ tiêu điều tra chọn mẫu là Xi ( i= 1, 2, 3, k)

Và ký hiệu các chỉ tiêu điều tra toàn bộ là Yj (j = 1, 2, 3, h)

b Công thức sai số và cỡ mẫu

Để có thể so sánh mức độ sai số của nhiều chỉ tiêu ta nên dùng tỷ lệ sai số thay cho

Trang 7

Với: là mức sai số của số bình quân mẫu

 là phương sai của tổng thể, m là số bình quân mẫu, s là tỷ lệ sai số (tính bằngphần trăm)

Và công thức xác định cỡ mẫu cần thiết:

Với là mức sai số của số bình quân mẫu,  là phương sai của tổng thể, n là sốđơn vị mẫu, t là hệ số tin cậy

Như vậy mức sai số và cỡ mẫu cần thiết đều phụ thuộc vào độ lớn của đại lượng

và đại lượng này càng nhỏ thì sai số và cỡ mẫu càng nhỏ

c Đặc điểm của số liệu thống kê

Nếu ta tính độ lệch tương đối của bản thân các chỉ tiêu cần điều tra và chỉ tiêu trunggian là thương của chỉ tiêu điều tra mẫu với chỉ tiêu điều tra toàn bộ ta thấy:

Lấy số liệu điều tra doanh nghiệp 2001 làm ví dụ:

- Các chỉ tiêu điều tra mẫu là: tiền lương, giá trị tài sản, giá trị sản xuất, thu củangười sản xuất

Trang 8

- Các chỉ tiêu điều tra toàn bộ gồm: Lao động, giá trị TSCĐ, doanh thu

Ta tính được giá trị của đại lượng của bản thân chỉ tiêu điều tra và các chỉ tiêutrung gian như sau:

Bảng 1 Giá trị của đại lượng

Chỉ tiêu trung gian: Chỉ tiêu đt chia lao

- Giá trị của đại lượng của chỉ tiêu trung gian nhỏ hơn nhiều giá trị số của

đại lượng của bản thân chỉ tiêu cần điều tra (Nếu và là những số bất

kỳ thì giá trị của đại lượng của tỷ lệ không nhỏ hơn giá trị của đại lượng

của chỉ tiêu )

Trang 9

- Có những giá trị của đại lượng rất nhỏ, vấn đề đặt ra là ta chọn được chỉ tiêu

điều tra toàn bộ sao cho giá trị của đại lượng là nhỏ nhất Sau khi lựachọn được chỉ tiêu điều tra toàn bộ làm mẫu số cho chỉ tiêu điều tra trung gian,công thức ước lượng của chỉ tiêu điều tra như sau

d Công thức ước lượng

Sau khi tiến hành điều tra ta thu thập được số liệu như sau:

- Số liệu của chỉ tiêu điều tra của các đơn vị mẫu: , , ,

- Số liệu của chỉ tiêu điều tra toàn bộ của các đơn vị mẫu:

Tổng chỉ tiêu cần điều tra của các đơn vị mẫu

Tổng chỉ tiêu điều tra toàn bộ của các đơn vị mẫu

Chỉ tiêu cần điều tra ước lượng cho toàn tổng thể ký hiệu là X Tổng thể

Tổng của chỉ tiêu điều tra toàn bộ trên toàn tổng thể ký hiệu là Y Tổng thể, ta có

- Giá trị trung bình của các tỷ lệ của các đơn vị mẫu (m):

e Tỷ lệ sai số điều tra mẫu

Trang 10

(tính bằng % )

Vận dụng phương pháp chọn mẫu trong thống kê vào thực tiễn :

1 Trường hợp cùng một hệ thống chỉ tiêu năm nay điều tra toàn bộ, sang nămhoặc một số năm sau đó điều tra chọn mẫu Ví dụ cuộc điều tra các đơn vị hànhchính, sự nghiệp của Vụ hệ thống tài khoản quốc gia năm 2002 điều tra toàn bộ, năm

2003 điều tra mẫu trên các chỉ tiêu tổng số thu và tổng số chi của từng đơn vị Vớitrường hợp này chỉ tiêu trung gian thành tốc độ tăng thu hoặc chi của các đơn vịđiều tra Nếu vận dụng phương pháp điều tra mẫu chung vào cuộc điều tra này thì cỡmẫu có tỷ lệ sai số 5% cho các tỉnh là gần như điều tra toàn bộ, còn nếu vận dụngphương pháp điều tra mẫu trong thống kê thì cụ thể cỡ mẫu cho từng tỉnh như sau:

a) Thành phố Hà nội: Số đơn vị tổng thể 3629

Chỉ tiêu ước lượng từ mẫu Đại lượng ( )

Cỡ mẫu cần chọn (Sai số 5%) Cỡ mẫu dự kiến

Tốc độ tăng thu 0,662 176 200

Tốc độ tăng chi 0,511 105 200

b) Thành phố Hải Phòng: Số đơn vị tổng thể 3253

Chỉ tiêu ước lượng từ mẫu Đại lượng ( )

Cỡ mẫu cần chọn (Sai số 5%) Cỡ mẫu dự kiến

Tốc độ tăng thu 0,400 64 200

Tốc độ tăng chi 0,415 69 200

c)Thành phố Hồ Chí Minh: Số đơn vị tổng thể 6522

Chỉ tiêu ước lượng từ mẫu Đại lượng ( )

Cỡ mẫu cần chọn (Sai số 5%) Cỡ mẫu dự kiến

Tốc độ tăng thu 0,405 66 250

Tốc độ tăng chi 0,635 161 250

d)Thành phố Đà Nẵng: Số đơn vị tổng thể 1219

Trang 11

Chỉ tiêu ước lượng từ mẫu Đại lượng ( )

2 Trường hợp trong cùng một năm một số chỉ tiêu điều tra toàn bộ, một số chỉtiêu thu thập bằng điều tra chọn mẫu Ví dụ điều tra doanh nghiệp ta có

- Các chỉ tiêu điều tra toàn bộ: Số lao động, giá trị TSCĐ, doanh thu

- Các chỉ tiêu điều tra mẫu: Tiền lương, giá trị tài sản, giá trị sản xuất, thu củangười sản xuất

Để ước lượng các chỉ tiêu điều tra mẫu ta dùng chỉ tiêu điều tra toàn bộ có quan hệgần gũi với nó làm chỉ tiêu mẫu số ví dụ

Để ước lượng các chỉ tiêu điều tra mẫu là tiền lương ta chọn mẫu số là chỉ tiêu laođộng

Để ước lượng các chỉ tiêu điều tra mẫu là giá trị tài sản ta chọn mẫu số lgiá trịTSCĐ

Để ước lượng các chỉ tiêu điều tra mẫu là giá trị sản xuất ta chọn mẫu số là chỉ tiêudoanh thu

Để ước lượng các chỉ tiêu điều tra mẫu là thu của người sản xuất ta chọn mẫu số làchỉ tiêu lao động,v.v

Tính toán cỡ mẫu cần điều tra cho từng chỉ tiêu điều tra mẫu với tỷ lệ sai số 5% cụthể như sau

Chỉ tiêu tiền lương cần cỡ mẫu là 213

Trang 12

Chỉ tiêu giá trị tài sản cần cỡ mẫu là 190

Chỉ tiêu giá trị sản xuất cần cỡ mẫu là 60

Chỉ tiêu thu của người sản xuất cần cỡ mẫu là 196

Như vậy với một mẫu khoảng 250 doanh nghiệp, mỗi chỉ tiêu điều tra mẫu có mộtcách ước lượng riêng, ta sẽ có số liệu của cả tổng thể với tỷ lệ sai số dưới 5%

II.2 Các nghiên cứu thực nghiệm và quan sát

Các bước cơ bản của một nghiên cứu thống kê là:

1 Lập kế hoạch nghiên cứu, bao gồm việc tìm kiêm số liệu để trả lời cho cácnghiên cứu Sử dụng các thông tin sau: ước tính sơ lược về kích thước của hiệuquả điều tra, các giả thuyết, các biến khảo sát dự định Xem xét việc lựa chọn đốitượng khảo sát và đúng quy trình nghiên cứu Các nhà thống kê cho rằng nên sosánh thử nghiệm một cách đáng tin cậy với tiêu chuẩn mẫu hoặc tiêu chuẩn sosánh một kết quả nghiên cứu Chấp nhận ước lượng không chệch của mức ýnghĩa đáng tin cậy

2 Thiết kế nghiên cứu nhằm ngăn sự ảnh hưởng của các biến gây nhiễu và phân bốmẫu ngẫu nhiên của hệ số tin cậy cho các đối tượng để ước lượng không chệchcủa mức ý nghĩa đáng tin cậy và sai sót trong nghiên cứu Ở giai đoạn này, cácthí nghiệm và các thống kê viết giao thức nghiên cứu mà chính việc hướng dẫnthực hiện các thí nghiệm và chỉ ra những phân tích ban đầu của các dữ liệunghiên cứu

3 Kiểm tra các nghiên cứu sau các giao thức thử nghiệm và phân tích dữ liệu vàphân tích

4 Kiểm tra thêm các dữ liệu thiết lập trong phân tích thứ cấp, đề xuất giả thuyếtmới cho các nghiên cứu sau này

5 Tìm kiếm tài liệu và trình bày kết quả nghiên cứu

Mục đích cho một dự án nghiên cứu thống kê là điều tra nguyên nhân, và từ đó rút

ra kết luận của những thay đổi ảnh hưởng đến giá trị các nhân tố ảnh hưởng hoặc các biếnđộc lập dựa trên các biến phụ thuộc hoặc trả lời cho nghiên cứu Có hai loại chính củanghiên cứu thống kê các biến nguyên nhân: nghiên cứu thực nghiệm và nghiên cứu quansát Cả hai loại nghiên cứu này đều có sự tác động của biến độc lập (hoặc các biến) về

Trang 13

hành vi của các biến phụ thuộc được quan sát Sự khác biệt giữa hai biến này nằm ở cáchnghiên cứu dựa trên thực tế Mỗi biến có thể có ý nghĩa Nghiên cứu thực nghiệm liênquan đến việc lấy kích thước mẫu nghiên cứu, thao tác hệ thống và thêm vào kích thướcmẫu sử dụng cho quá trình lấy mẫu, sau đó lấy mẫu bổ sung để xác định các thao tác sửđổi giá trị của các phép đo Ngược lại, một nghiên cứu quan sát không liên quan đến thaotác thực nghiệm Thay vào đó, dữ liệu được thu thập và mối tương quan giữa các yếu tố

dự báo và trả lời cho các khám phá và kiểm tra Trong khi các công cụ của việc phân tích

dữ liệu có kết quả tốt từ việc phân tích ngẫu nhiên, cũng có thể áp dụng cho các loại dửliệu khác- như nghiên cứu tự nhiên và nghiên cứu quan sát – mà một nhà thống kê sẽ sửdụng như biến thay thế, nhiều lý thuyết đánh giá có cấu trúc (ví dụ: sự khác biệt trong cácđánh giá khác nhau và biến đo lường thông tin, trong rất nhiều biến khác) cung cấp kếtquả phù hợp cho các nhà nghiên cứu

I.5 Các kiểu dữ liệu

Các biến thử khác nhau đã được tạo ra để phân loại mức độ đo lường Các nhà tâm

lý Stanley Smith Stevens đã xác định thang đo danh nghĩa, thứ tự, khoảng thời gian và tỷ

lệ đo Thang đo danh nghĩa không có thứ tự xếp hạng có ý nghĩa trong các giá trị, và chophép chuyển đổi một-một Thang đo thứ tự có sự khác biệt chính xác giữa các giá trị liêntiếp, nhưng có một thứ tự có ý nghĩa giá trị và cho phép bất kỳ chuyển đổi nào để chuyểnđổi Đo khoảng thời gian có ý nghĩa và khoảng cách giữa các phép đo được xác định,nhưng giá trị bằng không là tùy ý (như trong trường hợp số dô kinh độ và độ C hoặc độF), và cho phép bất kỳ chuyển đổi truyến tính Đo tỷ lệ có cả một giá trị số không có ýnghĩa và khoảng cách giữa các phép đo khác nhau được xác định, và cho phép chuyển đổisang sự thay đổi tỷ lệ

Vì các biến chỉ phù hợp cho thang đo danh nghĩa hoặc thang đo thứ tự, không thể

đo lường một cách hợp lý về số lượng, đôi khi chúng được nhóm lại với nhau như cácbiến phân loại, trong khi thang đo tỷ lệ và thang đo thời gian được nhóm lại với nhau như

là các biến định tính, những biến có thể rời rạc hoặc liên tục do tính chất số lượng húngthường được phân biệt như vậy thường ít tương quan với các dữ liệu trong nghiên cứukhoa học lưu trữ và phân tích thông tin được đưa vào Trong đó các biến phân loại phân

Trang 14

đôi có thể được đại diện với các kiểu dữ liệu Boolean (sử dụng hệ thống dữ liệu lý luậnnhư AND, OR, NOT để xác định quan hệ giữa các thực thể), biến phân loại Polytomousvới số nguyên và các biến liên tục với các loại dữ liệu nghiên cứu khoa học lưu trữ vàphân tích thông tin được đưa vào Nhưng các bản đồ của các kiểu dữ liệu khoa học lưutrữ và phân tích thông tin đưa vào với các loại dữ liệu thống kê phụ thuộc vào phân loạisau khi được thực hiện.

I.6 Thuật ngữ và lý thuyết của thống kê suy luận

II.3 Thống kê, ước tính và số lượng chính

Xem xét một mẫu các phân phối độc lập có cùng tính chất, các biến ngẫu nhiên vớimột phân phối xác suất nhất định: suy luận thống kê và lý thuyết tính toán xác định mộtmẫu ngẫu nhiên là vec-tơ ngẫu nhiên được đưa ra bởi các vec-tơ theo cột của các biềnphân phối độc lập có cùng tính chất

Hình 1: Thống kê suy luận

- Tổng thể: được chọn làm mẫu được mô tả bởi một phân phối xác suất mà có thể

có tham số chưa biết

- Một thống kê: là một biến ngẫu nhiên, đó là một chức năng của các mẫu ngẫu

nhiên, nhung không phải là chức năng của các tham số chưa biết Mặc dù cácphân phối mẫu của xác suất thống kê có thể có tham số chưa biết

Trang 15

- Một ước lượng: là một thống kê được sử dụng để ước lượng hàm này Ước

lượng thường được sử dụng bao gồm ý nghĩa của mẫu khảo sát, không gồm mẫuphương sai và hiệp phương sai mẫu

- Biến ngẫu nhiên: là một hàm của mẫu ngẫu nhiên và các tham số chưa biết,

nhưng có phân phối xác suất không phụ thuộc vào các tham số chưa biết, đượcgọi là một đại lượng quan trọng hay biến phụ thuộc Sử dụng biến phụ thuộc baogồm các chỉ số z, các số liệu thống kê chi bình phương và giá trị t-value củaphân phối Student

Giữa hai ước lượng của một tham số cho trước, với ước lượng điểm trung bình bìnhphương được cho rằng có hiệu quả hơn Hơn nữa một ước lượng được cho là giá trị tiệmcận nếu giá trị kỳ vọng của nó bằng với giá trị thực của tham số chưa biết được ước tính,

và là giá trị tiệm cận nếu giá trị kỳ vọng của nó hội tụ ở giới hạn với giá trị thực của tham

số như vậy Các đặc tính thích hợp để ước lượng bao gồm: ước lượng UMVUE cóphương sai nhỏ nhất cho tất cả các giá trị có thể có của các tham số ước lượng (đâythường là các đặc tính dễ dàng để xác minh hiệu quả) và đánh giá phù hợp cùng quy vềtrong xác suất để đúng với giá trị của tham số

Điều này vẫn còn để lại những câu hỏi làm thế nào để có ước lượng trong một tìnhhuống nhất định và thực hiện các tính toán, một phương pháp đã được đề xuất: cácphương pháp trong thời điểm hiện tại, những phương pháp likelihood lớn nhất, phươngpháp bình phương nhỏ nhất và phương pháp gần nhất của ước lượng phương trình

II.4 Giả thuyết vô nghĩa và các giả thuyết thay thế

Giải thích thông tin thống kê có thể bao gồm sự phát triển của một giả thuyết trong

đó giả định rằng bất cứ điều gì xảy ra được đề xuất như là một nguyên nhân không cóhiệu quả trên các biến đo lường

Minh họa tốt nhất cho một người mới làm thống kê là gặp phải tình trạng khó khănkhi thử nghiệm với những người khảo sát Các giả thuyết không có giá trị H0, khẳng địnhrằng bị cáo là vô tội, trong khi các giả thuyết khác H1, khẳng định rằng bị cáo có tội Bảncáo trạng đưa ra những nghi ngờ về việc có tội Các giả thuyết H0 (hiện trạng) đối lập vớigiả thuyết H1 và được tồn tại khi H1 được hỗ trợ bằng các chứng cứ “bác bỏ những điều

vô lý” Tuy nhiên “không đạt yêu cầu để bác bỏ giả thuyết H0” trong trường hợp không

Trang 16

bao gồm tính vô tội, nhưng chỉ đơn thuần là không đủ bằng chứng để buộc tội Vì vậy,người được khảo sát không nhất thiết phải chấp nhận H0 nhưng không bác bỏ H0 Trongkhi người ta không thể “chứng minh” một giả thuyết, người ta có thể kiểm tra xấp xỉ đểđưa ra phương pháp thử nghiệm, phương pháp kiểm tra các sai số loại II.

Những gì các nhà thống kê gọi là một giả thuyết có một hoặc hai khả năng xảy rachỉ đơn giản là một giả thuyết trái ngược với giả thuyết vô nghĩa

II.5 Sai số

Tác động từ giả thuyết hai loại sai số cơ bản được ghi nhận:

Sai số loại I là giả thuyết rỗng bị bác bỏ là sai khi “bác bỏ phủ định”

Sai số lại II là giả thuyết không rỗng được bác bỏ để loại bỏ và sự khác biệt trênthực tế giữa các quần thể được bỏ qua cho một “bác bỏ khẳng định”

Độ lệch chuẩn đề cập đến mức độ các quan sát cá nhân trong mẫu khác với một giátrị trung tâm, chẳng hạn như các mẫu hoặc ý nghĩa tổng thể, trong khi sai số chuẩn đề cậpđến một ước tính của sự khác biệt giữa trung bình mẫu và ý nghĩa tổng thể

Một lỗi thống kê là số lượng mà một quan sát khác với giá tị kỳ vọng của nó, giá trịthặng dư là số lượng một quan sát khác với giá trị ước lượng giả định giá trị dự kiến vềmột mẫu nhất định (còn gọi là dự đoán)

Sai số bình phương có nghĩa khi được sử dụng cho việc ước lượng hiệu quả thuthập dữ liệu, một lớp được sử dụng rộng rãi trong ước lượng Sai số căn bậc hai đơn giản

là căn bậc hai của sai số căn bậc hai có nghĩa

Nhiều phương pháp thống kê nhằm giảm thiểu tổng giá trị thặng dư của bìnhphương, và chúng được gọi là “phương pháp bình phương nhỏ nhất” trái ngược với độlệch chuẩn nhỏ nhất Sau đó cung cấp cung cấp số lượng bằng với các lỗi nhỏ và lớn,trong khi trước đây chỉ ra rõ các sai số lớn hơn Tổng giá trị thặng dư của giá trị bìnhphương có thể phân biệt được, nó cung cấp thuộc tính có ích để tính hàm hồi quy Bìnhphương tối thiểu áp dụng hồi quy tuyến tính được gọi là bình phương nhỏ nhât thôngthường và bình phương nhỏ nhất chấp nhận cho hàm hồi quy phi tuyến tính được gọi là

Trang 17

phần không xác định của mô hình được gọi là sai số giới hạn, bị nhiễu hoặc có thể là dữliệu thừa.

Tiến trình đo lường tạo ra số liệu thống kê cũng có thể có sai số Nhiều trong số cácsai số này được phân loại ngẫu nhiên (dữ liệu thừa) hoặc hệ thống (độ sai lệch), nhưngcác loại sai số khác (ví dụ: sai lệch, chẳng hạn như khi một báo cáo phân tích của các đơn

vị không chính xác) cũng quan trọng Sự xuất hiện của dữ liệu bị mất và/ hoặc kiểm định,điều này có thể dẫn đến ước lượng sai lệch và từ đó đã phát triển một phương pháp cụ thể

để giải quyết vấn đề này

II.6 Ước lượng theo khoảng

Hầu hết các nghiên cứu chỉ ra là một phần của một mẫu tổng thể, vì vậy kết quảkhông hoàn toàn đại diện cho toàn bộ tổng thể Bất kỳ ước tính thu được từ mẫu chỉ gầnđúng với giá trị tổng thể

Khoảng tin cậy (KTC): cho phép các nhà thống kê thể thiện chặt chẽ các mẫu dựtính phù hợp với các giá giá trị thực trong toàn bộ tổng thể Thông thường chúng được thểhiện ở khoảng tin cậy 95% Chính thức khoảng tin cậy 95% cho một giá ở phạm vi rộng,nếu lấy mẫu và phân tích được lặp đi lặp lại trong cùng một điều kiện (cho ra bộ dữ liệukhác nhau), khoảng cách giữa hai giá trị sẽ bao gồm giá trị thật (tổng thể) đạt 95% giá trịtrong tổng số các trường hợp có thể xảy ra Điều này không có nghĩa là xác suất mà giá trịthực trong khoảng tin cậy là 95% Từ những quan điểm, kết luận như vậy là không cónghĩa, như là giá trị thực không phải là một biến ngẫu nhiên Hoặc là giá trị thực hoặctrong phải trong một khoảng tin cậy Tuy nhiên, sự thật là trước khi bất kỳ dữ liệu nàođược lấy mẫu và đưa ra kế hoạch làm thế nào để tạo ra khoảng tin cậy, xác suất là 95%cho khoảng tin cậy chưa được thống kê sẽ bao gồm các giá trị đúng: tai thời điểm này,giớí hạn của khoảng tin cậy là các biến ngẫu nhiên chưa được quan sát

Trang 18

Hình 2: Khoảng tin cậy: dòng màu đỏ là giá trị thực cho giá trị trung bình trong

ví dụ này, đường màu xanh là khoảng tin cậy ngẫu nhiên cho 100 giá trị.

Một phương pháp mà không mang lại một khoảng tin cậy được hiểu là một xác suấtnhất định có chứa các giá trị thực sử dụng trong một khoảng tin cậy từ thống kê Bayesian:phương pháp này phụ thuộc vào cách giải thích khác nhau thế nào là “xác suất”, đó như

Lời giải:

Gọi là biến cố: “Chi tiết lấy từ dây chuyền đạt tiêu chuẩn”, là biến cố: “Chi

tiết do máy thứ nhất sản xuất” và là biến cố: “Chi tiết do máy thứ hai sản xuất” Ta

Trang 19

cần tính xác suất

Theo công thức Bayes

Theo điều kiện bài toán

Thay vào ta có

Trong nguyên tắc chọn khoảng tin cậy có thể được đối xứng hoặc không đối xứng.Một khoảng tin cậy có thể không đối xứng vì nó hoạt động thấp hơn hoặc cao hơn cácràng buộc cho một tham số (khoảng tin cậy phía trái hoặc phải), nhưng nó cũng có thể làkhông đối xứng vì khoảng hai chiều được xây dựng đối xứng trong dự tính Đôi khi cácgiới hạn cho một khoảng tin cậy đạt được tiệm cận và được sử dụng để ước tính giới hạn

II.7 Mức ý nghĩa

Thống kê hiếm khi chỉ trả lời các câu hỏi dưới dạng có/không dưới các phân tích

Sự giải thích thường đi xuống đến mức ý nghĩa thống kê áo dụng với số lượng và thường

đề cập đến xác suất của một giá trị chính xác từ chối giả thuyết rỗng (có thể xem như làgiá trị p-value)

Phân phối chuẩn là để thử nghiệm một giả thuyết đối với một giả thuyết khác Mộtmiền quan trọng là đê tập hợp các giá trị của các ươc lượng dẫn dến bác bỏ giả thuyếtrỗng Do đó xác suất của sai số loại I là xác suất mà các ước lượng thuộc các khu vựcquan trọng cho rẳng giải thuyết đúng (có ý nghĩa thống kê) và xác suất sai số loại II là xácsuất mà các ước lượng không thuộc miền quan trọng được ddauw ra bằng giả thuyết thay

Trang 20

thế là đúng Các số lượng thống kê của một thử nghiệm là xác suất mà nó đúng bác bỏ giảthuyết rỗng khi giả thuyết là sai.

Đề cập đến mức ý nghĩa thống kê không nhất thiết là kết quả của tổng thể so với sốhạng thực Ví dụ, trong một nghiên cứu lớn về một loại thuốc có thể chỉ ra rằng thuốc cótác dụng mang lạ lợi ích đáng kể về mặt thống kê nhưng rất nhỏ, như vậy loại thuốc nàydường như không có khả năng tác dụng nhiều cho bệnh nhân

Trong khi về nguyên tắc mức chấp nhận ý nghĩa được thống kê có phải xem xét vấn

đề, các giá trị p-value là mức ý nghĩa nhỏ nhất cho phép thử nghiệm để bác bỏ giả thuyết.Kết quả tương đương nói rằng các giá trị p-value là xác suất, giả định giả thuyết là đúng,kết quả quan sát là cực kỳ thấp như kiểm định thống kê Do đó gái trị p-value càng nhỏ,xác suất sai số loại I càng thấp

Một vấn đề thường xảy ra với loại này:

Một sự khác biệt đó là có ý nghĩa thống kê cao vẫn có thể không có ý nghĩa, nhưng

nó có thể phát biểu đúng các kiểm định trong thống kê Một câu trả lời trở thành giảthuyết chỉ có mức ý nghĩa bao gồm các giá trị p-value, tuy nhiên không biết được kíchthước hay tầm quan trọng của kiểm định quan sát được và cũng có thể kết luận được tầmquan trọng của các khác biệt nhỏ trong các nghiên cứu lớn Một cách tiếp cận tốt hơn vàngày càng phổ biến là để báo cáo khoảng tin cậy Mặc dù chúng được đưa ra từ việc tínhtoán tương tự như những kiểm định giả thuyết hoặc giá trị p-value, mô tả kích thước củaảnh hưởng và những điều không chắc chắn

Độ sai lệch của thay đổi điều kiện, những ý kiến sai lầm của Aka: những lời phêbình chỉ ra các giá trị để kiểm định giả thuyết (giả thuyết vô nghĩa) được ưa chuộng, vìxác suất của kết quả của giả thuyết vô nghĩa đưa ra kết quả quan sát được Một thay thếcho phương pháp này được đưa ra bởi suy luận Bayesian, mặc dù nó đòi hỏi việc một xácsuất cho trước

Bác bỏ giả thuyết không tự động chứng minh được giả thuyết thay thế

Như tất cả mọi thứ trong thống kê suy luận nó dựa vào kích thước mẫu, và do đódưới miền giá trị p-value giá trị có thể không được tính

Ngày đăng: 20/11/2016, 17:21

HÌNH ẢNH LIÊN QUAN

Hình 3: Mức ý nghĩa - Tiểu luận môn Công nghệ tri thức: LÝ THUYẾT THỐNG KÊ HỌC  STATISTICS VÀ BÀI TẬP THỎ NÓI DỐI
Hình 3 Mức ý nghĩa (Trang 22)
Bảng 2. Bảng ANOVA - Tiểu luận môn Công nghệ tri thức: LÝ THUYẾT THỐNG KÊ HỌC  STATISTICS VÀ BÀI TẬP THỎ NÓI DỐI
Bảng 2. Bảng ANOVA (Trang 26)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w