Nhìn chung, nghiên cứu có các giai đoạn: o Xác định vấn đề nghiên cứu o Xác định câu hỏi và mục tiêu nghiên cứu o Hình thành phương pháp nghiên cứu bao gồm các vấn đề về đối tượng nghiên
Trang 1CHIẾN LƯỢC PHÂN TÍCH SỐ LIỆU
Mục tiêu
Sau khi học xong bài này, học viên có thể:
1 Xây dựng được sơ đồ phân tích dự kiến các kết quả nghiên cứu
2 Hiểu được các bước tiếp cận phân tích số liệu
3 Lựa chọn được các kiểm định và mô hình thống kê phù hợp với các kết quả nghiên cứu
Giới thiệu
Chúng ta đã biết có những kĩ thuật thống kê chuyên biệt cho các nghiên cứu dịch tễ nhất định Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu của rất nhiều các biến số, rất khó quyết định thao tác nào được áp dụng và áp dụng theo trình tự như thế nào Trong phần này, chúng ta sẽ trình bày một số nguyên tắc chiến lược để phân tích số liệu từ nghiên cứu dịch tễ
1 Xây dựng sơ đồ phân tích dự kiến
1.1 Phân tích theo mục tiêu nghiên cứu
Trong nghiên cứu, việc thu thập và phân tích số liệu đóng vai trò quan trọng và được dẫn đường bởi mục tiêu nghiên cứu Điều này đảm bảo các số liệu được thu thập
và phân tích đáp ứng trả lời tất cả các thông tin mục tiêu nghiên cứu yêu cầu Do vậy, cần phải có sự hiểu biết về các công cụ và kỹ thuật phân tích số liệu
Phân tích số liệu là một quá trình trong việc thực hiện nghiên cứu Nhìn chung, nghiên cứu có các giai đoạn:
o Xác định vấn đề nghiên cứu
o Xác định câu hỏi và mục tiêu nghiên cứu
o Hình thành phương pháp nghiên cứu (bao gồm các vấn đề về đối tượng nghiên cứu, mẫu nghiên cứu, phương pháp thu thập số liệu v.v…)
o Thu thập số liệu
o Phân tích số liệu
o Phiên giải và trình bày kết quả
Trong việc phân tích số liệu, nội dung phân tích cũng gắn liền một cách chặt chẽ với mục tiêu nghiên cứu để đảm bảo kết quả phân tích đáp ứng mục tiêu đề ra 1.2 Câu hỏi phân tích dự kiến
Dựa trên các mục tiêu nghiên cứu, trước khi phân tích, nhà nghiên cứu thường đặt các câu hỏi để xây dựng kế hoạch phân tích/sơ đồ phân tích dự kiến Do đó, không
có một công thức chung cho việc xây dựng sơ đồ phân tích dự kiến cho tất cả các nghiên cứu Ví dụ sau đây sẽ giúp chúng ta cách tiếp cận để xây dựng sơ đồ phân tích phù hợp
Trang 2Ví dụ 1:
Nghiên cứu Thực trạng bệnh lây truyền qua đường tình dục ở gái mại dâm tại Trung tâm Chữa bệnh- Giáo dục- Lao động xã hội tỉnh Hoà Bình năm 2009
Mục tiêu nghiên cứu:
i) Mô tả thực trạng bệnh lây truyền qua đường tình dục ở gái mại dâm tại Trung tâm Chữa bệnh-Giáo dục-Lao động xã hội tỉnh Hoà Bình năm 2009
ii) Mô tả một số yếu tố liên quan đến bệnh lây truyền qua đường tình dục ở gái mại dâm tại Trung tâm Chữa bệnh-Giáo dục-Lao động xã hội tỉnh Hoà Bình năm 2009
Để phân tích, nhà nghiên cứu đặt ra các câu hỏi như sau:
1 Đặc điểm của GMD trong NC này như thế nào? Ví dụ các đặc điểm về tuổi, trình
độ học vấn, tình trạng hôn nhân, nơi hành nghề, dân tộc…
2 Tỷ lệ từng bệnh lây truyền qua đường tình dục ở GMD như thế nào? Ví dụ các bệnh: giang mai, lậu, chlamydia, trichomonas, nấm, sùi mào gà, herpes sinh dục, HIV…
3 Bệnh lây truyền qua đường tình dục phân bố như thế nào trong các nhóm GMD có đặc điểm khác nhau? Ví dụ các đặc điểm: tuổi, tình trạng hôn nhân, dân tộc, thời gian hành nghề, nơi hành nghề, trình độ học vấn…
4 Các yếu tố nguy cơ trong nhóm GMD có đặc điểm như thế nào? Ví dụ các yếu tố: tuổi, thời gian hành nghề, nơi hành nghề, số lượng bạn tình, số lượt bạn tình trong tuần, đặc điểm khách hàng thường xuyên (khách lạ/khách quen), sử dụng bao cao
su, kiến thức về phòng ngừa bệnh lây truyền qua đường tình dục…
5 Mối liên quan giữa các yếu tố nguy cơ với việc mắc bệnh (có mắc/không mắc) lây truyền qua đường tình dục trong nhóm GMD như thế nào? Nói cách khác, những người có yếu tố nguy cơ có nguy cơ mắc bệnh cao hơn người không có yếu tố nguy
cơ hay không?
Thực tế là, các câu hỏi này xuất phát từ mục tiêu nghiên cứu Mục tiêu i) được đáp ứng bằng các câu hỏi phân tích 2 và 3, mục tiêu ii) được đáp ứng bằng các câu hỏi phân tích 4 và 5 Câu hỏi phân tích 1 luôn luôn được đưa ra để mô tả và giới thiệu về đối tượng nghiên cứu, trước khi đi vào phân tích cho các mục tiêu chính
Thêm vào đó, các câu hỏi này cũng xuất phát từ khung lý thuyết của nghiên cứu Điều này là hiển nhiên vì khung lý thuyết nhằm định hướng và thể hiện các mục tiêu nghiên cứu, do đó cũng định hướng cho việc phân tích số liệu
Trang 3Bệnh LTQĐTD:
- Giang mai
- Lậu
- Chlamydia
- Herpes sinh dục
- Trichomonas
- Nấm
- Sùi mào gà
- Viêm âm đạo
- Viêm cổ tử cung
- HIV
Các yếu tố nguy cơ:
- Thời gian hành nghề
- Số lượng bạn tình
- Số lượt bạn tình/tuần
- Đặc điểm khách hàng
- Sử dụng bao cao su
- Kiến thức phòng ngừa
Đặc điểm nhân khẩu học:
- Tuổi
- Dân tộc
- Trình độ học vấn
- Tình trạng hôn nhân
- Địa chỉ sinh sống
- Thu nhập
- Địa bàn hành nghề
Hình 1 Khung lý thuyết ví dụ Như vậy, khung lý thuyết cũng thể hiện được các cấu phần cần phân tích để đảm bảo mục tiêu nghiên cứu Tuy nhiên, ở một số nghiên cứu phức tạp hơn, khung lý thuyết đôi khi mang tính chất khái quát hóa các khái niệm, các vấn đề nghiên cứu, hơn
là liệt kê đầy đủ các biến số trong mỗi nhóm như ở hình 1 Khi đó, nhà nghiên cứu cần dựa vào khung lý thuyết, các câu hỏi phân tích để xây dựng sơ đồ phân tích cụ thể hơn
1.3 Xây dựng sơ đồ phân tích dự kiến
Sau khi tham khảo mục tiêu nghiên cứu, khung lý thuyết và liệt kê các câu hỏi phân tích dự kiến, nhà nghiên cứu có thể phân nhóm các câu hỏi nghiên cứu theo định hướng phân tích: phân tích mô tả hay phân tích suy luận
Phân tích mô tả nhằm mục đích mô tả đối tượng nghiên cứu và những yếu tố nguy cơ liên quan đến vấn đề nghiên cứu
Việc mô tả một cách rõ ràng và chính xác thông tin của đối tượng nghiên cứu giúp cho những người đọc báo cáo kết quả nghiên cứu hiểu rõ hơn đặc điểm của nghiên cứu và dân số nghiên cứu Các thông tin được chọn để đưa ra trong thống kê
mô tả liên quan chặt chẽ đến những thông tin trong thống kê suy luận
Trong khi phân tích mô tả chỉ nhằm mục đích mô tả các đặc tính của đối tượng nghiên cứu, sự phân bố của tình trạng phơi nhiễm và bệnh tật, thống kê suy luận sử
dụng các kiểm định thống kê để chứng minh có hay không có mối liên quan giữa phơi
nhiễm và kết cuộc quan tâm Lưu ý, các kết quả phân tích từ thống kê suy luận chưa
đủ để kết luận về mối liên quan nhân quả, việc kết luận mối liên quan nhân quả giữa
phơi nhiễm và bệnh phải được dựa vào các yếu tố khác được đề cập nhiều trong dịch
tễ học
Trang 4Ví dụ:
Trong ví dụ 1:
Câu hỏi phân tích 1, 2, 3 và 4 thuộc về phân tích mô tả
Câu hỏi 5 thuộc về phân tích suy luận
Như vậy, dựa trên các câu hỏi phân tích, nhà nghiên cứu có thể khái quát thành
sơ đồ phân tích sau:
Câu hỏi phân tích 1
Câu hỏi phân tích 2
Câu hỏi phân tích 3
Mục tiêu
NC 1
Lựa chọn kiểm định
Thống kê phân tích
Thống kê
mô tả
Mô tả 1 biến số
Mô tả 2 biến số
Mô tả 1 biến số
Câu hỏi phân tích 4
Câu hỏi phân tích 5
Mục tiêu
NC 2
Hình 2 Sơ đồ phân tích dự kiến Tóm lại, để xây dựng sơ đồ phân tích dự kiến (hoặc các câu hỏi phân tích dự kiến), nhà nghiên cứu cần tiếp cận theo trình tự như hình 2
2 Lựa chọn các kỹ thuật phân tích
2.1 Phân tích mô tả
2.1.1 Mô tả 1 biến số:
Một trong những vấn đề quan trọng của phân tích mô tả là chọn đại lượng thống
kê để mô tả Điều này tuỳ thuộc vào loại biến số: biến phân loại hay biến định lượng
- Biến số phân loại: sử dụng tỷ lệ (%)
- Biến số định lượng (liên tục): sử dụng các đại lượng đo lường độ tập trung và
sự biến thiên/sự phân tán
o Đo lường độ tập trung: trung bình, trung bị, mode
o Đo lường sự biến thiên/sự phân tán: phương sai, độ lệch chuẩn, khoảng phân vị, khoảng
Lưu ý: Đối với biến số định lượng, việc lựa chọn đại lượng để mô tả còn phụ
thuộc vào phân bố của biến đó Nếu biến có phân bố chuẩn, giá trị trung bình và độ lệch chuẩn được dùng để mô tả đại lượng được thể hiện bởi biến đó Nhưng nếu biến
đó không có phân bố chuẩn thì giá trị trung vị, khoảng (giá trị nhỏ nhất; giá trị lớn nhất) được dùng để mô tả cho biến đó
Trang 5Bảng 1 Lựa chọn đại lượng mô tả 1 biến số
Trình bày số liệu Phân nhóm số liệu
Bảng phân phối tần suất
Có thể dùng % tích luỹ
Bảng phân phối tần suất (sắp xếp theo thứ tự)
Có thể dùng % tích luỹ
Bảng phân phối tần suất (sắp xếp theo tần suất)
Không dùng % tích luỹ
Đồ thị, biểu đồ Histograms
Box-and-Whisker
Biểu đồ cột rời Biểu đồ bánh
Biểu đồ cột rời Biểu đồ bánh
Thống kê tóm tắt
(phân phối bình
thường)
Trung bình
Độ lệch chuẩn
Phân phối không
bình thường
Trung vị Phạm vi (min, max, phân vị)
Không cần thiết
2.1.2 Mô tả 2 biến số
Khi mô tả hai biến số, cần chọn lựa các kỹ thuật được mô tả trong bảng 2
Bảng 2 Lựa chọn đại lượng mô tả mối liên quan giữa hai biến số
Định lượng Phân tán đồ (biểu đồ chấm
điểm)
Hệ số tương quan
Boxplot Case summaries
Phân loại Boxplot
Case summaries Bảng chéo (Crosstabs) Giả định Các quan sát là độc lập
Biến định lượng có phân phối chuẩn
2.2 Phân tích suy luận
2.2.1 Lựa chọn kiểm định
Về nguyên tắc, việc lựa chọn kiểm định thường dựa vào biến số trong câu hỏi nghiên cứu Bước đầu tiên khi thực hiện kiểm định là phân tích câu hỏi nghiên cứu để xem xét các biến số trong câu hỏi, từ đó giúp lựa chọn kiểm định phù hợp
Có hai nhóm kiểm định: kiểm định tham số và kiểm định phi tham số
Kiểm định tham số thường được sử dụng khi biến số phụ thuộc là biến định lượng có phân phối chuẩn
• Nếu biến độc lập là biến nhị phân (ví dụ giới tính, có hai giá trị là nam, nữ) Æ kiểm định được sử dụng khi so sánh sự khác nhau trung bình của biến số phụ thuộc giữa hai nhóm giá trị của biến số độc lập là t-test không bắt cặp
Ví dụ: so sánh lượng calories trung bình trong hai nhóm có và không béo phì
• Nếu biến độc lập là biến phân loại có từ 3 giá trị trở lên (ví dụ: bệnh nặng, bệnh trung bình, bệnh nhẹ) Æ kiểm định được sử dụng để so sánh sự khác nhau trung bình của biến số phụ thuộc giữa các nhóm giá trị của biến số độc lập là phân tích phương sai (ANOVA)
Trang 6Ví dụ: so sánh lượng calories trung binh trong 3 nhóm đối tượng thiếu cân, bình thường và thừa cân
Kiểm định phi tham số thường được sử dụng khi biến số phụ thuộc không phải
là biến định lượng hoặc biến định lượng không có phân phối chuẩn
Kiểm định phi tham số thường được sử dụng nhất trong nhiều nghiên cứu là kiểm định Khi bình phương (chi-square) Kiểm định này được sử dụng khi biến phụ thuộc và biến độc lập đều là các biến phân loại
Bảng dưới đây mô tả nguyên tắc chọn lựa kiểm định phù hợp Nguyên tắc bao gồm:
• Dựa vào thang đo (đặc điểm đo lường) của biến số độc lập và biến số phụ thuộc
- loại biến số (định lượng hay phân loại…)
• Dựa vào các giả định (các yêu cầu) của kiểm định: phân phối của biến số định
lượng, sự giống nhau của các phương sai trong các nhóm
Bảng 3: Lựa chọn các kiểm định
Loại biến số độc lập
Nhị phân Danh định So sánh trước – sau
(trên cùng đối tượng)
Biến số
phụ thuộc
(loại biến
số)
Hai nhóm đối tượng gồm các cá nhân khác nhau
Ba hay nhiều
tượng gồm các cá nhân khác nhau
Trước và sau nghiên cứu trên cùng các đối tượng
thiệp trên cùng các đối tượng
Liên hệ giữa hai biến số
Liên tục
(phân phối
chuẩn)
t-test không ghép cặp Phân tích phương sai t-test ghép cặp Phân tích phương sai
đo lường lặp lại
Hồi qui tuyến tính và tương quan pearson
Danh định χ2 bảng 2 x n χ2 bảng 3 x
n
test McNemar Cochrance Q Hệ số của bảng n x m
(OR, RR…)
Thứ tự
Liên tục
(không có
phân phối
chuẩn)
Kiểm định sắp hạng – tổng Mann-Whitney
Kruskal-Wallis
Kiểm định sắp hạng có dấu
Wilcoxon
Friedman Hệ số tương
quan Spearman
2.2.2 Quy trình lựa chọn kiểm định – ví dụ
Để lựa chọn các kiểm định thống kê cơ bản trở nên dễ dàng hơn với nhà nghiên
cứu, việc phân tích lựa chọn có quy trình khởi đầu từ biến phụ thuộc
Trang 7Hộp 1 Có sự khác biệt hay không? Biến phụ thuộc là biến số định lượng, các
đo lường là độc lập với nhau (không lặp lại)
So sánh giữa hai nhóm
t-test không ghép cặp
Có phân phối chuẩn
So sánh nhiều hơn hai nhóm
Hộp 2 Có sự khác biệt hay không? Biến phụ thuộc là biến số phân loại, các
đo lường là độc lập với nhau (không lặp lại)
3 Chiến lược phân tích
Như vậy, sau khi đã định hướng sơ đồ phân tích, nhà nghiên cứu cần có chiến lược tiếp cận phân tích phù hợp
3.1 Biên tập số liệu
Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích thống kê
Bước 1: Xem sự phân phối của từng biến số để phát hiện các sai lầm có thể
Biến định
lượng
Không có phân phối chuẩn
Phân tích phương sai ANOVA
So sánh giữa hai nhóm
So sánh nhiều hơn 2 nhóm
Kiểm định Mann-Whitney
Kiểm định Kruskal-Wallis
Có ≥25% ô
có giá trị kỳ vọng <5
Fisher’s exact test
So sánh giữa các nhóm
Biến
phân loại Bảng n x m
<25% ô có giá trị kỳ vọng <5
Chi square test
Trang 8- Đối với biến số phân loại: điều này thực hiện bằng bảng phân phối tần suất
để xem rằng các bản ghi đều ở trong các nhóm đã được xác định và tần suất của mỗi nhóm là hợp lí
- Đối với biến số định lượng: kiểm tra phạm vi cần được tiến hành để phát hiện những giá trị nằm ngoài phạm vi mong đợi Histogram cũng có thể
dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp với phần
số liệu còn lại
Bước 2: Tiến hành kiểm tra tính hằng định, để tìm kiếm những trường hợp
mà 2 hay nhiều biến số là không hằng định
Thí dụ, nếu có 2 biến số: “giới tính” và “số lần mang thai” trong bộ số liệu,
chúng ta có thể sử dụng bảng chéo (crosstabs) để chắc rằng không có người nam giới nào có số lần mang thai là một hay nhiều hơn Phân tán đồ (scatter graph) cũng có thể
được sử dụng để kiểm tra tính hằng định của số liệu số; thí dụ chúng ta có thể vẽ phân tán đồ của trọng lượng theo tuổi, trọng lượng theo chiều cao, dung tích sống theo chiều cao Những giá trị bất thường cũng có thể được phát hiện bằng cách này
Kết quả của việc kiểm tra: nếu có sai sót:
- Những sai sót có thể được kiểm tra so với tài liệu gốc Trong một số trường hợp cần phải điều chỉnh lại số liệu
- Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value)
nếu chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi sinh là 45 kg và đã tăng cân 35kg trong thời gian có thai)
Lưu ý: Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng không bị
xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên Một cách chặt chẽ, việc phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá trị cực đoan này Trên thực tiễn, giá trị bằng số (định lượng) thường được chia thành các nhóm trước khi phân tích và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả
Nếu là nghiên cứu bệnh chứng: Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không mắc bệnh bởi vì phân phối của 2 nhóm này có thể hoàn toàn khác nhau
3.2 Mô tả số liệu
Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát
lại Điều này được thực hiện cho 2 mục đích
- Để đảm bảo rằng tất cả các số liệu đều đã được sắp xếp phù hợp
- Để có một cảm giác về số liệu Cảm giác vế số liệu là sự hiểu biết về đặc
tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường Khi thực hiện nghiên cứu bệnh chứng, chúng ta cần phải xem xét số liệu một cách riêng biệt
3.3 Phân loại biến số
Nói chung, sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số: biến "kết cuộc" (outcome), "phơi nhiễm", "gây nhiễu" và "thay đổi tác động" (tương tác)
Trang 9- Biến số kết cuộc và biến số phơi nhiễm: là các biến số trung tâm của nghiên cứu, trong đó:
o Biến số kết cuộc mô tả vấn đề nghiên cứu;
o Biến số phơi nhiễm là biến số mà chúng ta muốn xem xét và ước lượng tác động của nó lên biến số kết cuộc
- Biến số gây nhiễu: là biến số làm biến dạng quan hệ giữa biến số phơi
nhiễm và kết cuộc Chúng ta thu thập số liệu của các biến số gây nhiễu để
loại bỏ tác động của yếu tố gây nhiễu trong khi phân tích
- Biến số thay đổi tác động (biến số tương tác): là biến số làm thay đổi tác
động của biến số phơi nhiễm lên nguy cơ Chúng ta thu thập số liệu của các
biến số thay đổi tác động để xem xét tác động của biến số phơi nhiễm lên
nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác động
Ví dụ:
- Khi xem xét mối liên quan giữa biến số kết cuộc “ung thư phổi” có hai giá trị “bệnh” và không bệnh – “chứng” và biến số phơi nhiễm “hút thuốc lá”(Hình 1), kết quả cho thấy tỷ số số chênh OR=0.89 < 1Æ hút thuốc có thể là yếu tố bảo vệ đối với bệnh ung thư phổi (???)
- Khi phân tích cụ thể theo biến giới tính: phân tích riêng cho nhóm nam và nhóm nữ, OR = 1.98 hoặc 1.99 Æ Con số OR thực ra là > 1 (gần bằng 2)
- Như vậy, rõ ràng biến số giới tính đã làm biến dạng mối quan hệ giữa hút
thuốc lá và ung thư phổi Rõ ràng nếu không loại bỏ sự gây nhiễu của biến
số giới tính, kết quả của chúng ta sẽ bị sai
Hình 1: Minh hoạ yếu tố gây nhiễu
Trang 10Trong hình 2, chúng ta xem xét mối liên quan giữa chỉ số khối cơ thể (BMI) với bệnh nhồi máu cơ tim Kết quả phân tích đầu tiên giữa biến số phơi nhiễm (BMI) và
biến số kết cuộc (Nhồi máu cơ tim) cho thấy OR = 1,5 Æ nghĩa là BMI là một yếu tố
nguy cơ của bệnh Nhồi máu cơ tim, nhưng nguy cơ đó không quá cao
Tuy nhiên khi phân tích cụ thể theo biến giới tính: phân tích riêng trong nhóm
nữ có OR = 2,3 và trong nhóm nam OR = 1,2 Æ như vậy, BMI đúng là một yếu tố
nguy cơ của bệnh NMCT (như kết luận trên) Tuy nhiên mức độ liên quan (hay mức
độ ảnh hưởng) của BMI đến bệnh NMCT ở hai nhóm là khác nhau Mức độ ảnh hưởng của BMI đến NMCT ở nữ là cao hơn ở nam Rõ ràng trong ví dụ này, giới tính không phải làm biến dạng mối liên quan, mà mối liên quan này thay đổi tuỳ theo từng nhóm giới tính
Hình 2: Minh hoạ yếu tố biến đổi tác động (yếu tố gây nhiễu)
Trên thực tiễn, mối liên hệ giữa các biến số có thể phức tạp hơn:
- Thí dụ một biến số có thể là yếu tố gây nhiễu lên mối quan hệ của một yếu
tố phơi nhiễm và kết cuộc, nhưng bản thân nó cũng có thể là biến số phơi nhiễm quan tâm
- Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng làm thay đổi tác động cho một biến số phơi nhiễm khác
- Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò Qua phân tích biến
số này có thể trở thành biến số phơi nhiễm, hoặc nếu nó không trở thành biến số phơi nhiễm, nó có thể được xem là biến số gây nhiễu hay thay đổi tác động
3.4 Rút gọn số liệu
Trước khi bắt đầu phân tích chính thức, có thể cần phân nhóm giá trị của các
biến số
Việc phân nhóm là quan trọng cho các biến số liên tục Ví dụ chúng ta có biến
số BMI với các giá trị 19, 19.2, 19.6, 20, 20.5,… Để đơn giản, chúng ta dựa trên phân nhóm BMI về béo phì và nhóm các giá trị này thành 2 nhóm: BMI<30 và BMI≥30