Những bất cập của Churchill’s Paradigm trong phát triển Service Quality Measurement Scales

Phát triển thang đo chất lượng dịch vụ theo mô hình Churchill (1979) đang đối mặt với nghịch lý: Các tiêu chí thống kê (như Cronbach’s Alpha) có thể là biểu hiện của sai số đo lường hơn là bằng chứng về độ giá trị thực sự. Bài viết phân tích sâu các vấn đề về định nghĩa khái niệm, sự lạm dụng điểm số chênh lệch (Difference Scores) và bẫy “Tautology” (lặp ngữ nghĩa) thông qua nghiên cứu thực nghiệm tại phòng khám kế hoạch hóa gia đình (Smith, 1999).

Nội dung bài viết

1. Tổng Quan & Lý Thuyết Nền Tảng (Overview & Theoretical Foundations)

1.1 Thông tin định danh bài báo

Tiêu đề gốc: Some Problems When Adopting Churchill’s Paradigm for the Development of Service Quality Measurement Scales.
Tiêu đề tiếng Việt: Một số vấn đề khi áp dụng mô hình của Churchill để phát triển thang đo chất lượng dịch vụ.
Tác giả: Anne M. Smith (Trường Kinh doanh Đại học Glasgow).
Nguồn: Journal of Business Research, 46, 109-120 (1999).

1.2 Bối cảnh học thuật: Sự thống trị của Churchill và SERVQUAL

Năm 1979, Churchill đưa ra một “khuôn mẫu” (paradigm) để chuẩn hóa quy trình phát triển thang đo marketing. Các tác giả của SERVQUAL (Parasuraman et al., 1988) đã áp dụng chặt chẽ mô hình này để tạo ra thang đo 22 biến quan sát nổi tiếng. Tuy nhiên, Smith (1999) lập luận rằng việc tuân thủ máy móc các bước này mà thiếu tư duy phản biện về bản chất dịch vụ đã dẫn đến những sai lệch nghiêm trọng về phương pháp luận.

2. Các Vấn Đề Trong Khái Niệm Hóa và Đo Lường (Conceptualization Problems)

2.1 Định nghĩa phạm vi khái niệm và “Điểm số chênh lệch” (Difference Scores)

(Nội dung MỚI bổ sung): Một trong những tranh cãi lớn nhất khi phát triển thang đo chất lượng dịch vụ theo hướng SERVQUAL là việc sử dụng “Điểm số chênh lệch” (Gap Score = Perception – Expectation). Smith chỉ ra ba vấn đề phương pháp luận chí mạng của cách tiếp cận này:

Vấn đề thống kê: Điểm chênh lệch thường có độ tin cậy thấp hơn điểm thành phần.
Hiệu ứng hào quang (Halo Effects): Người trả lời có xu hướng đánh giá các thuộc tính cụ thể dựa trên cảm nhận tổng quan chung chung, làm lu mờ sự khác biệt giữa các biến.
Vấn đề không phản hồi (Non-response): Bảng câu hỏi quá dài (phải đánh giá cả kỳ vọng và cảm nhận) gây mệt mỏi cho người trả lời.

2.2 Sự nhầm lẫn giữa Quy trình và Kết quả

Các nhà nghiên cứu phê bình rằng thang đo SERVQUAL tập trung quá nhiều vào “Quy trình dịch vụ” (cách phục vụ) mà bỏ qua “Kết quả dịch vụ” (những gì khách hàng thực sự nhận được) và các khía cạnh cấu trúc. Điều này dẫn đến việc thang đo không bao phủ hết miền nội dung (domain of construct) của chất lượng dịch vụ.

3. Phương Pháp Nghiên Cứu Thực Nghiệm (Methodology & Study Design)

(Phần này được chi tiết hóa từ file gốc):

Để chứng minh các luận điểm trên, tác giả đã tiến hành nghiên cứu tại một Phòng khám Kế hoạch hóa Gia đình (Family Planning Clinic) chuyên khoa. Đây là bối cảnh dịch vụ có tính chất nhạy cảm và đòi hỏi sự tin cậy cao.

Quy trình 2 giai đoạn:
- Giai đoạn 1 (Sơ bộ): Sử dụng phương pháp biên bản (protocol) và phỏng vấn sau (debriefing) với 50 người để loại bỏ các biến vô nghĩa.
- Giai đoạn 2 (Chính thức): Khảo sát 250 người đến khám lại (tỷ lệ phản hồi 90% – 200 người tham gia).
Công cụ đo lường: Sử dụng thang đo SERVQUAL (Parasuraman et al., 1991) kết hợp với thang đo sự hài lòng “Delighted-Terrible” (Vui sướng – Khủng khiếp) của Westbrook (1980).
Điều chỉnh thang đo: Một phát hiện thú vị là từ “Delighted” (Vui sướng) không phù hợp với ngữ cảnh y tế (người đi khám bệnh ít khi thấy “vui sướng”). Do đó, thang đo đã được điều chỉnh cực điểm thành “Cực kỳ hài lòng” (Extremely Satisfied).

4. Tinh Chỉnh Thang Đo: Cái Bẫy Của Hệ Số Alpha (Scale Purification Issues)

4.1 Điểm Alpha cao: Dấu hiệu của sự thiếu hụt?

(Luận điểm chuyên sâu MỚI): Trong quy trình Churchill, Alpha > 0.7 là tiêu chuẩn vàng. Tuy nhiên, Smith cảnh báo: Điểm Alpha quá cao (ví dụ > 0.90) có thể là dấu hiệu của thiết kế kém.

Lý do: Khi các câu hỏi quá giống nhau (lặp ngữ nghĩa – tautology), người trả lời sẽ đánh giá chúng y hệt nhau.
Hệ quả: Thang đo trở nên đơn điệu, mất đi tính đa chiều cần thiết để đo lường một khái niệm phức tạp như chất lượng dịch vụ y tế.

4.2 Nghịch lý khi xóa biến: Mất đi những gì người dùng quan tâm

Khi chạy phân tích tương quan mục-tổng thể (Item-to-total correlation) để tăng Alpha, quy trình thống kê đã đề xuất xóa các biến sau:

“Sự riêng tư” (Privacy)
“Sự có mặt của bác sĩ nữ”
“Hình thức của tài liệu”

Vấn đề: Trong kết quả khảo sát định tính, “Sự riêng tư” và “Bác sĩ nữ” là những yếu tố quan trọng bậc nhất đối với bệnh nhân. Việc xóa bỏ chúng chỉ để làm đẹp số liệu thống kê (tăng Alpha) đã làm thang đo mất đi giá trị thực tiễn và khả năng chẩn đoán vấn đề.

5. Bằng Chứng Về Độ Giá Trị (Evidence of Validity)

5.1 Độ giá trị dự báo (Predictive Validity) và Ảo tưởng về sự toàn vẹn

Nhiều nhà nghiên cứu cho rằng nếu thang đo dự báo tốt sự hài lòng tổng thể thì thang đo đó tốt. Smith đã phản bác điều này bằng cách so sánh hai thang đo:

Thang đo A (29 mục – Đầy đủ).
Thang đo B (17 mục – Đã bị cắt gọt theo quy trình Churchill).

Kết quả (Dựa trên Bảng 1a và 1b trong bài gốc): Cả hai thang đo đều dự báo mức độ hài lòng tổng thể tốt như nhau (F-ratio tương đương). Kết luận: Việc thang đo rút gọn dự báo tốt không có nghĩa là nó toàn vẹn. Nó vẫn dự báo được kết quả chung nhưng đã mất đi khả năng đo lường các thuộc tính cụ thể (như sự riêng tư) – những thứ cốt yếu để nhà quản trị cải tiến dịch vụ.

5.2 Hiệu ứng phương pháp và Ma trận MTMM

Tác giả sử dụng Ma trận Đa đặc điểm – Đa phương pháp (MTMM) và phát hiện ra rằng các hệ số tương quan cao giữa các khái niệm (ví dụ: giữa Chất lượng và Sự hài lòng) bị ảnh hưởng nặng nề bởi Hiệu ứng phương pháp (Method Effects).

Cụ thể: Do dữ liệu tại phòng khám có phương sai thấp (hầu hết mọi người đều đánh giá tốt), các hệ số tương quan thực chất phản ánh “sai số đo lường” và “hiệu ứng hào quang” hơn là mối quan hệ thực sự giữa các khái niệm.

6. Hướng Dẫn Ứng Dụng Nghiên Cứu (Academic Implications)

Dựa trên các phân tích trên, khi phát triển thang đo chất lượng dịch vụ, nhà nghiên cứu cần:

Kết hợp Định tính: Không bao giờ xóa biến chỉ dựa trên số liệu Alpha. Phải đối chiếu với dữ liệu phỏng vấn sâu xem biến đó có quan trọng với khách hàng không.
Cảnh giác với Alpha cực đại: Đừng tham vọng đẩy Alpha lên quá cao. Alpha 0.80 với nội dung phong phú tốt hơn Alpha 0.95 với nội dung trùng lặp.
Kiểm soát biến thiên: Lưu ý rằng trong các dịch vụ chất lượng cao (như y tế), dữ liệu thường bị lệch (skewness) về phía tích cực, làm méo mó các kiểm định tương quan.

7. Ứng Dụng Quản Trị Doanh Nghiệp (Managerial Implications)

Đừng tin mù quáng vào các chỉ số tổng hợp: Một chỉ số hài lòng chung cao có thể che giấu những lỗ hổng cụ thể (như quy trình chờ đợi, thái độ nhân viên).
Giữ lại các câu hỏi “hành động được” (Actionable Items): Nhà quản trị cần đo lường những gì họ có thể can thiệp (ví dụ: thời gian chờ, sự sạch sẽ) ngay cả khi các yếu tố này không tương quan mạnh với sự hài lòng chung về mặt thống kê.

8. Các Câu Hỏi Thường Gặp (FAQ)

Tại sao Churchill lại đề xuất xóa các biến làm giảm Alpha?

Churchill hướng tới sự “nhất quán nội bộ” (Internal Consistency). Về lý thuyết thuần túy, các biến trong cùng một nhân tố phải đo lường cùng một thứ. Tuy nhiên, trong thực tế dịch vụ, các yếu tố cấu thành chất lượng (ví dụ: Sạch sẽ và Thân thiện) có thể không tương quan chặt chẽ với nhau nhưng đều quan trọng.

Hiệu ứng hào quang (Halo Effect) ảnh hưởng thế nào đến việc đo lường?

Nó khiến khách hàng đánh giá mọi thứ “tốt đều” hoặc “xấu đều” dựa trên cảm nhận chung. Điều này làm cho các biến quan sát có vẻ tương quan cao (tăng độ tin cậy giả tạo) nhưng lại mất đi khả năng phân biệt các vấn đề cụ thể (giảm độ giá trị phân biệt).

Làm sao để khắc phục vấn đề “Điểm số chênh lệch”? T

Thay vì đo Kỳ vọng (E) và Cảm nhận (P) riêng biệt rồi trừ nhau (P-E), xu hướng hiện đại (như SERVPERF) khuyên nên đo trực tiếp Cảm nhận (Performance-only) để giảm sai số và gánh nặng cho người trả lời.

9. Tài Liệu Tham Khảo (References)

Dưới đây là danh sách đầy đủ tài liệu tham khảo theo chuẩn APA từ bài báo gốc:

Asubonteng, P., McCleary, K. J., & Swan, J. E. (1996). SERVQUAL Revisited: A Critical Review of Service Quality. The Journal of Services Marketing, 10(6), 62-81.
Babakus, E., & Boller, G. W. (1992). An Empirical Assessment of the SERVQUAL Scale. Journal of Business Research, 24, 253-268.
Bagozzi, R. P., & Yi, Y. (1991). Multitrait-Multimethod Matrices in Consumer Research. Journal of Consumer Research, 17(4), 426-439.
Bitner, M. J., & Hubbert, A. R. (1994). Encounter Satisfaction versus Overall Satisfaction versus Service Quality: The Consumer’s Voice. In R. T. Rust & R. L. Oliver (Eds.), Service Quality: New Directions in Theory and Practice. Newbury Park, CA: Sage Publications.
Bolton, R. N., & Drew, J. H. (1991a). A Longitudinal Analysis of the Impact of Service Changes on Customer Attitudes. Journal of Marketing, 55, 1-9.
Brown, T. J., Churchill, G. A. Jr., & Peter, J. P. (1993). Improving the Measurement of Service Quality. Journal of Retailing, 69(1), 127-139.
Campbell, D. T., & Fiske D. W. (1959). Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix. Psychological Bulletin, 56, 81-105.
Campbell, D. T. (1960). Recommendations for APA Test Standards Regarding Construct, Trait and Discriminant Validity. American Psychologist, 15, 546-553.
Carman, J. M. (1990). Consumer Perceptions of Service Quality: An Assessment of the SERVQUAL Dimensions. Journal of Retailing, 66(1), 33-55.
Churchill, G. A. Jr. (1979). A Paradigm for Developing Better Measures of Marketing Constructs. Journal of Marketing Research, XVI, 64-73.
Churchill, G. A. Jr., & Peter, J. P. (1984). Research Design Effects on the Reliability of Rating Scales: A Meta-Analysis. Journal of Marketing Research, XXI, 360-375.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334.
Cronin, J. J., & Taylor, S. A. (1992). Measuring Service Quality: A Reexamination and Extension. Journal of Marketing, 56, 55-68.
Cronin, J. J., & Taylor, S. A. (1994). SERVPERF versus SERVQUAL: Reconciling Performance-Based and Perceptions-Minus-Expectations Measurement of Service Quality. Journal of Marketing, 58, 125-131.
Parasuraman, A., Zeithaml, V. A., & Berry, L. L. (1985). A Conceptual Model of Service Quality and its Implications for Future Research. Journal of Marketing, 49, 41-50.
Parasuraman, A., Zeithaml, V. A., & Berry, L. L. (1988). SERVQUAL: A Multiple-Item Scale for Measuring Consumer Perceptions of Service Quality. Journal of Retailing, 64(1), 14-40.
Parasuraman, A., Berry, L. L., & Zeithaml, V. A. (1991). Refinement and Reassessment of the SERVQUAL Scale. Journal of Retailing, 67(4), 420-450.
Peter, J. P., Gilbert, A. C. Jr., & Brown, T. J. (1993). Caution in the Use of Difference Scores in Consumer Research. Journal of Consumer Research, 19, 655-662.
Smith, A. M. (1999). Some problems when adopting Churchill’s paradigm for the development of service quality measurement scales. Journal of Business Research, 46(2), 109-120.
Westbrook, R. A. (1980). A Rating Scale for Measuring Product/Service Satisfaction. Journal of Marketing, 44, 68-72.
Lưu ý: Danh sách trên là các tài liệu tham khảo cốt lõi được trích dẫn trực tiếp để phục vụ bài giảng. Danh sách đầy đủ nằm trong file gốc.

10. Lời kêu gọi hành động (CTA)

Bài viết này đã cung cấp một góc nhìn phản biện sâu sắc về quy trình phát triển thang đo chất lượng dịch vụ. Để thực sự làm chủ phương pháp luận và tránh các sai lầm tốn kém trong nghiên cứu khoa học, tôi khuyến khích bạn tải về và nghiền ngẫm bài báo gốc với đầy đủ các bảng biểu thống kê chi tiết.

Smith, A. M. (1999). Some problems when adopting Churchill’s paradigm for the development of service quality measurement scales. Journal of Business Research, 46(2), 109-120.

Nguyễn Thanh Phương

Giảng viên Nguyễn Thanh Phương là chuyên gia chuyên sâu về Nghiên cứu khoa học, Ứng dụng AI, Digital Marketing và Quản trị bản thân. Với kinh nghiệm giảng dạy thực chiến, tác giả trực tiếp hướng dẫn ứng dụng phương pháp luận và phân tích dữ liệu chuyên sâu cho người học nên được sinh viên gọi là Thầy giáo quốc dân. Mọi nội dung chia sẻ đều tuân thủ nguyên tắc khách quan, thực chứng và mang giá trị ứng dụng cao, hướng tới mục tiêu cốt lõi: “Làm bạn tốt hơn!