0236.3650403 (221)

Kiểm định Khi bình phương và Fisher Trong Nghiên cứu khoa học


Nhìn chung thì đề tài hay luận văn của các bạn học viên sau đại học ngành Y Dược cũng quanh đi quẩn lại xoay quanh các biến số quen thuộc và các kiểm định quen thuộc. Và đa số các bạn hay có thói quen (rất không tốt) là chia biến định lượng thành biến định tính. Nhưng khổ cái là không ai tư vấn cho các bạn từ đầu nên ngay từ bước thu thập số liệu, các bạn ý đã thu thập theo kiểu định tính rồi. Kiểu như biến thời gian vô sinh chẳng hạn, các bạn ý không thu thập dưới dạng numeric hay integer mà xếp luôn vào nhóm dưới 24 tháng hay trên 24 tháng. Đến lúc cần dựng model, tìm lại dữ liệu gốc hoàn toàn không còn dữ liệu thô của biến này nữa. Tuy nhiên bài ngày hôm nay mình đề cập tới một vấn đề khác khi hướng dẫn các bác sĩ trẻ và học viên sau đại học viết bài báo hay làm luận văn. Đó là tại sao cùng một bảng contigency 2x2, có người dùng kiểm định Khi bình phương, có người lại dùng Fisher exact, và có người dùng cả hai nhưng không thật sự hiểu mình đang làm gì. Sai lầm phổ biến nhất cho vấn đề này nằm ở cách hiểu bản chất của hai kiểm định. Khi chưa hiểu bản chất, chúng ta rất dễ chọn sai test, diễn giải sai p value, và cuối cùng là viết ra những kết luận không đứng vững về mặt khoa học. Chính vì vậy hôm nay mình sẽ đi chậm lại, viết bằng ngôn ngữ đơn giản nhất có thể, bám sát những nguyên lý kinh điển về kiểm định cho bảng 2x2, để từ đó mọi người thấy rõ mình cần làm gì khác đi từ ngày mai . Chúng ta hãy bắt đầu bằng một bảng số liệu rất quen thuộc. Hai hàng, hai cột, mỗi ô là một con số đếm. Một biến là có hay không một yếu tố nào đó, biến còn lại là có hay không một kết cục nào đó. Nghe thì đơn giản, nhưng chính sự đơn giản này lại khiến nhiều người chủ quan. Rất nhiều bạn sẽ mở phần mềm SPSS lên, bấm ngay vào nút Khi bình phương vì thấy nó quen tên, nhanh, và ra p value ngay lập tức. Ít ai dừng lại hỏi rằng kiểm định này đang so sánh cái gì, và giả định phía sau nó là gì. Cũng ít ai tự hỏi bảng số liệu của mình có thỏa mãn những giả định đó hay không. Và chính từ đây, câu chuyện về Khi bình phương và Fisher exact bắt đầu rẽ sang hai con đường khác nhau.

Để hiểu Khi bình phương, mình luôn yêu cầu mọi người hình dung đến khái niệm số mong đợi, còn gọi là expected value. Khi chúng ta đặt giả thuyết không rằng hai biến hoàn toàn độc lập với nhau, thì từ tổng hàng và tổng cột, chúng ta có thể tính ra mỗi ô đáng lẽ nên có bao nhiêu trường hợp nếu mọi thứ chỉ là ngẫu nhiên. Kiểm định Khi bình phương không hỏi xác suất của bảng số liệu này là bao nhiêu, mà hỏi một câu khác. Nó hỏi rằng sự khác biệt giữa số quan sát được và số mong đợi có lớn đến mức khó có thể giải thích bằng ngẫu nhiên hay không. Nói cách khác, nó đo khoảng cách giữa thực tế và kỳ vọng, rồi quy đổi khoảng cách đó thành một giá trị p. Khi hiểu như vậy, mọi người sẽ thấy ngay vì sao Khi bình phương rất nhạy với cỡ mẫu và rất nhạy với số mong đợi trong từng ô. Chính điểm này dẫn đến nguyên tắc thực hành quan trọng. Khi các ô trong bảng 2x2 có số mong đợi quá nhỏ, kiểm định Khi bình phương trở nên quá lạc quan. Nó có xu hướng cho p value nhỏ hơn thực tế, khiến chúng ta dễ kết luận có liên quan khi thực ra dữ liệu chưa đủ mạnh. Quy tắc kinh điển mà mọi người hay được dạy là nếu có ô nào có số mong đợi nhỏ hơn 5 thì nên tránh Khi bình phương. Dù đây chỉ là quy tắc kinh nghiệm, nhưng nó phản ánh đúng bản chất của vấn đề. Khi số mong đợi quá thấp, giả định xấp xỉ phân bố của Khi bình phương không còn vững nữa, và lúc này chúng ta cần một cách tiếp cận khác cẩn trọng hơn. Từ đây, chúng ta chuyển sang hiểu về Fisher exact. Trước tiên cần hiểu rằng đây không phải là phiên bản cao cấp hơn của Khi bình phương, mà là một câu hỏi hoàn toàn khác. Fisher exact không quan tâm nhiều đến khoảng cách giữa số quan sát và số mong đợi. Nó đặt câu hỏi rằng nếu tổng hàng và tổng cột đã cố định như vậy, thì xác suất để xuất hiện một bảng số liệu cực đoan như bảng mình đang thấy là bao nhiêu. Cực đoan ở đây có nghĩa là thể hiện sự chênh lệch rõ hơn nữa giữa hai nhóm. Khi tính Fisher exact, chúng ta đang cộng xác suất của bảng quan sát được và tất cả các bảng còn cực đoan hơn nó. Chính vì vậy, kết quả của Fisher exact được gọi là xác suất chính xác.

Cách đặt câu hỏi này khiến Fisher exact trở nên rất phù hợp cho những bảng có số lượng nhỏ. Nó không dựa vào xấp xỉ, không cần giả định phân bố liên tục, và vì thế không bị lệ thuộc vào điều kiện mỗi ô phải đủ lớn. Tuy nhiên, cái gì cũng có cái giá của nó. Fisher exact có thể trở nên quá bảo thủ trong những bộ số liệu rất nhỏ. Vì xác suất được tính theo từng bước rời rạc, p value có thể nhảy cóc, khiến chúng ta khó đạt được ngưỡng ý nghĩa ngay cả khi sự khác biệt nhìn bằng mắt là rất rõ. Điều này không phải là lỗi của kiểm định, mà là đặc điểm toán học của nó, và người làm nghiên cứu cần ý thức điều này khi diễn giải kết quả. Hơn nữa, Fisher exact nó tính toán tất cả các khả năng có thể xảy ra với các bảng có thể có nên sẽ tốn rất nhiều tài nguyên tính toán (computational cost), hiểu nôm na là con CPU của bạn sẽ phải gồng mình lên mà gánh ý. Từ góc độ thực hành nghiên cứu, khi thiết kế nghiên cứu, nếu biết trước mình sẽ phân tích các bảng hai nhân hai với cỡ mẫu nhỏ, hãy chuẩn bị tinh thần rằng Fisher exact sẽ là lựa chọn chính. Khi đọc bài báo, đừng chỉ nhìn p value mà hãy nhìn xem tác giả dùng kiểm định gì và dữ liệu của họ trông như thế nào. Khi viết bài, hãy giải thích rõ lý do lựa chọn kiểm định. Những chi tiết này không hề nhỏ, và lại thể hiện sự cẩn trọng của người làm nghiên cứu. Nhưng dù chọn kiểm định gì đi nữa thì chúng ta mới chỉ đang nói về sự liên quan, chứ không thể nói về nguyên nhân. Một bảng có p value rất nhỏ không có nghĩa là chúng ta đã tìm ra cơ chế. Nó chỉ nói rằng hai biến không phân bố độc lập với nhau trong dữ liệu quan sát được. Việc diễn giải quá đà, đặc biệt trong các nghiên cứu quan sát, là một cạm bẫy mà rất nhiều người mới làm nghiên cứu dễ mắc phải. Khi hiểu đúng bản chất của Khi bình phương và Fisher exact, mọi người sẽ cẩn trọng hơn rất nhiều trong từng câu chữ khi viết phần bàn luận. Chúc các bạn học tốt.