Lựa Chọn Mô Hình PLS-PM: Nền Tảng, Nội Hàm và Ứng Dụng Hướng Dự Đoán – Pratyush Nidhi Sharma và cộng sự

Lựa chọn mô hình PLS-PM đóng vai trò là xương sống trong các nghiên cứu khoa học hiện đại, đặc biệt khi giới học thuật đang chuyển dịch từ việc chỉ giải thích hiện tượng sang khả năng dự báo thực tiễn. Sự chuyển dịch này đánh dấu một bước ngoặt lớn, biến các bài báo nghiên cứu khoa học không chỉ là công cụ kiểm định lý thuyết trên giấy, mà còn là la bàn định hướng cho các chiến lược kinh doanh thực chiến. Lựa chọn mô hình PLS-PM hướng dự đoán là quá trình xác định mô hình có năng lực dự báo dữ liệu ngoài mẫu (out-of-sample) tốt nhất, đồng thời đảm bảo tính nhất quán về lý thuyết cấu trúc.

Nguyên nhân chính gây sai số trong dự báo là hiện tượng quá khớp (overfitting) khi mô hình quá phức tạp, khai thác các mẫu nhiễu đặc thù của tập dữ liệu huấn luyện. Điều này khiến mô hình trông có vẻ rất hoàn hảo trên dữ liệu cũ nhưng lại thất bại thảm hại khi áp dụng vào thực tế mới. Bản chất của overfitting giống như việc học vẹt: mô hình thuộc lòng mọi chi tiết râu ria của bộ dữ liệu gốc thay vì hiểu được quy luật tổng quát. Giải pháp tối ưu nhất là sử dụng các Tiêu chí Thông tin (Information Theoretic Criteria) như BIC và GM khi không có mẫu kiểm chứng (holdout sample), hoặc dùng RMSE/MAD khi sở hữu tập dữ liệu đủ lớn để chia tách. Bằng cách tuân thủ nguyên tắc này, các nhà nghiên cứu và quản trị gia có thể đưa ra các quyết định kinh doanh dựa trên dữ liệu có độ tin cậy cao nhất, giảm thiểu tối đa rủi ro thiên lệch do dữ liệu nhiễu gây ra.

Lựa Chọn Mô Hình PLS-PM: Nền Tảng, Nội Hàm và Ứng Dụng Hướng Dự Đoán - Pratyush Nidhi Sharma và cộng sự

Nội dung bài viết

1. Tổng Quan & Lý Thuyết Nền Tảng (Overview & Theoretical Foundations)

1.1 Thông tin định danh bài báo

Tiêu đề gốc: Prediction-Oriented Model Selection in Partial Least Squares Path Modeling.
Tiêu đề tiếng Việt: Lựa chọn mô hình hướng dự đoán trong Mô hình hóa phương trình cấu trúc bình phương tối thiểu riêng phần (PLS-PM).
Tác giả: Pratyush Nidhi Sharma, Galit Shmueli, Marko Sarstedt, Nicholas Danks, Soumya Ray.
Tạp chí: Decision Sciences (2018). Đây là một trong những tạp chí học thuật uy tín hàng đầu, nổi tiếng với các tiêu chuẩn khắt khe về phương pháp luận, do đó nền tảng lý thuyết được trình bày trong bài báo mang tính định chuẩn rất cao cho giới nghiên cứu định lượng.

1.2 Bối cảnh thực tiễn & Khoảng trống nghiên cứu

Mô hình PLS-PM từ lâu được sử dụng như một phương pháp lý thuyết – giải thích (explanatory modeling) nhằm kiểm định các mối quan hệ nhân quả. Phương pháp này đặc biệt phổ biến trong các lĩnh vực như Hệ thống thông tin quản lý (MIS), Quản trị vận hành và Marketing do khả năng xử lý tốt các mô hình phức tạp với cỡ mẫu nhỏ. Tuy nhiên, trong thực tiễn kinh doanh và nghiên cứu hiện đại, mục tiêu phân tích đang dần dịch chuyển sang dự báo (predictive modeling).

Khoảng trống nghiên cứu cốt lõi nằm ở việc các nhà nghiên cứu sử dụng PLS-PM thường biện minh cho phương pháp này dựa trên quy mô mẫu nhỏ, dẫn đến việc không thể tạo ra tập dữ liệu kiểm chứng (holdout sample) để đo lường độ chính xác dự báo. Việc chia tách một bộ dữ liệu nhỏ (ví dụ: n = 100) thành tập huấn luyện (training) và tập kiểm tra (testing) sẽ làm mất đi sức mạnh thống kê (statistical power). Các tiêu chí truyền thống của PLS-PM như R² hay Q² lại không đủ năng lực để đánh giá chuẩn xác hiệu suất dự báo ngoài mẫu. Hệ quả là giới học thuật đã và đang đưa ra những kết luận sai lệch về khả năng ứng dụng thực tế của mô hình. Ví dụ, một mô hình có thể giải thích rất tốt lý do khách hàng hài lòng trong quá khứ thông qua chỉ số R² cao, nhưng lại hoàn toàn “mù tịt” khi dự báo liệu một khách hàng mới có tiếp tục gia hạn dịch vụ vào tháng sau hay không.

1.3 Hệ thống Lý thuyết nền tảng (Theoretical Foundations)

Bài báo được xây dựng dựa trên Lý thuyết Thông tin (Information Theory), do Akaike (1973) khởi xướng. Lý thuyết này lập luận rằng độ chính xác dự báo của một mô hình có thể được ước lượng không chệch bằng cách thiết lập trạng thái cân bằng giữa “độ phù hợp của mô hình” (model fit) và “tính súc tích” (parsimony/complexity penalty). Khác với các mô hình hồi quy tuyến tính cổ điển luôn cố gắng tối đa hóa sự phù hợp, phương pháp này bổ sung một “hình phạt” (penalty) tương xứng với mỗi biến số được thêm vào. Nó giải quyết bài toán cân bằng độ chệch và phương sai (bias-variance), bác bỏ quan điểm cho rằng mô hình càng phức tạp (nhiều tham số) thì dự báo càng tốt.

Đi sâu hơn vào bản chất, tiêu chí AIC ước lượng sự thất thoát thông tin (phân kỳ Kullback-Leibler), trong khi tiêu chí BIC ước lượng xác suất hậu nghiệm (posterior probability) của mô hình dựa trên nền tảng thống kê Bayes, giúp thanh lọc các cấu trúc dữ liệu thừa thãi một cách khắt khe nhất. Việc áp dụng các tiêu chí này có thể ví như việc vận dụng nguyên tắc “Dao cạo Ockham” (Occam’s razor) trong khoa học dữ liệu: Khi đứng trước nhiều mô hình có năng lực giải thích tương đương nhau, mô hình nào đơn giản nhất, ít biến số rườm rà nhất, chính là mô hình dự báo đáng tin cậy nhất.

2. Khái Niệm Hóa và Cấu Trúc Khái Niệm (Conceptualization)

Trong bối cảnh PLS-PM, việc đánh giá năng lực dự báo được cấu trúc hóa thành hai hệ thống tiêu chí, phản ánh hai triết lý tiếp cận dữ liệu hoàn toàn khác biệt:

Tiêu chí trong mẫu (In-sample criteria): Là các chỉ số được tính toán dựa trên toàn bộ tập dữ liệu mà không cần chia tách dữ liệu. Nhóm này bao gồm các chỉ số PLS-PM tiêu chuẩn (R², Adjusted R², Q²) và các Tiêu chí lựa chọn mô hình dựa trên Lý thuyết Thông tin (AIC, BIC, GM). Ưu điểm tuyệt đối của nhóm này là tận dụng được 100% thông tin từ bộ dữ liệu gốc, cực kỳ phù hợp cho các nghiên cứu khảo sát có chi phí thu thập mẫu đắt đỏ. Điều này đóng vai trò cứu cánh cho các nhà nghiên cứu tiến hành khảo sát trên các tập mẫu khó tiếp cận, ví dụ như phỏng vấn nhóm chuyên gia cấp cao hoặc các bệnh nhân mang bệnh lý hiếm gặp, nơi mỗi một quan sát (observation) đều tiêu tốn rất nhiều ngân sách và thời gian.
Tiêu chí ngoài mẫu (Out-of-sample criteria): Là các chỉ số đo lường lỗi dự báo trên một tập dữ liệu hoàn toàn mới (holdout sample) không được sử dụng trong quá trình ước lượng mô hình ban đầu. Nó mô phỏng lại chính xác bối cảnh thực tế khi mô hình đối mặt với dữ liệu chưa từng “nhìn thấy”. Các chỉ số đại diện bao gồm RMSE, MAD, MAPE và SMAPE. Đây được xem là “tiêu chuẩn vàng” (gold standard) nhưng lại đi kèm rào cản lớn về chi phí và số lượng quan sát tối thiểu. Thông thường, để áp dụng hiệu quả tiêu chí này, bộ dữ liệu cần đủ lớn để có thể chia tách theo tỷ lệ 70/30 hoặc 80/20 mà không làm sụp đổ sức mạnh kiểm định thống kê của mô hình gốc.

3. Quy Trình Thiết Kế Nghiên Cứu & Đánh Giá Tiêu Chí (Research Design Process)

Vì đây là một nghiên cứu phương pháp luận, quy trình thiết kế thay vì phát triển thang đo thông thường được thay thế bằng quy trình Mô phỏng Monte Carlo (Monte Carlo Simulation) để kiểm chứng các tiêu chí. Bằng cách sử dụng hệ thống máy tính lập trình giả lập, các nhà nghiên cứu có thể kiểm soát hoàn toàn “sự thật nền” (ground truth) của dữ liệu. Phương pháp tiếp cận này giúp loại trừ mọi sai số phát sinh từ cách đặt câu hỏi hay tâm lý người trả lời, tập trung 100% vào việc kiểm tra bản chất của thuật toán toán học.

Thiết lập thông số mô phỏng: Các biến độc lập được thao tác bao gồm Kích thước mẫu (50, 100, 150, 200, 250, 500), Kích thước tác động (0.1 đến 0.5), và Hệ số tải nhân tố đại diện cho phương sai trích xuất trung bình – AVE (0.7, 0.8, 0.9). Điều này đảm bảo mô phỏng phản ánh đúng mọi điều kiện thường gặp trong nghiên cứu khoa học thực tế. Việc thiết lập AVE dao động từ 0.7 đến 0.9 cũng phản ánh đúng tiêu chuẩn khắt khe về độ giá trị hội tụ (Convergent Validity) trong các nghiên cứu định lượng đạt chuẩn quốc tế.
Tạo lập dữ liệu: Sinh dữ liệu huấn luyện (training data) từ mô hình tạo lập (data generating model) và tạo tập dữ liệu kiểm chứng với n = 1,000. Tập kiểm chứng khổng lồ này đóng vai trò như một môi trường thực tế ảo để đo lường độ chính xác tuyệt đối.
Ước lượng mô hình: Chạy 8 mô hình cạnh tranh (bao gồm mô hình đúng, mô hình sai lệch, mô hình thiếu và mô hình bão hòa) bằng thuật toán PLS-PM. Cụ thể, mô hình bão hòa (saturated model) chứa mọi đường dẫn có thể có, còn các mô hình sai lệch (misspecified models) chứa các đường dẫn không hề tồn tại trong lý thuyết tạo lập ban đầu.
Tính toán và so sánh: Tổng hợp 18,000 lần chạy để tính toán phần trăm đồng thuận giữa các tiêu chí trong mẫu và tiêu chuẩn vàng ngoài mẫu (RMSE). Con số 18,000 lần lặp này đảm bảo kết quả thu được đạt mức độ ổn định cực đại, xóa bỏ mọi nghi ngờ về yếu tố ngẫu nhiên.

4. Hệ Thống Các Tiêu Chí Đo Lường (Measurement Criteria)

Dưới đây là các tiêu chí đánh giá việc lựa chọn mô hình PLS-PM được lượng hóa và so sánh. Cần lưu ý rằng các tiêu chí mở rộng như FPE (Lỗi dự báo cuối cùng) và HQ (Tiêu chí Hannan-Quinn) cũng được các phần mềm như SmartPLS hỗ trợ xuất ra, nhưng bảng sau tập trung vào các tiêu chí cốt lõi nhất.

(Ghi chú: Để đảm bảo cấu trúc văn bản ổn định khi copy vào Google Docs, công thức toán học cốt lõi của tiêu chí BIC được đặt ở ngay bên dưới bảng, nhằm tránh lỗi vỡ khung bảng).

Tên tiêu chí [Tiếng Việt]	Tên gốc [Tiếng Anh]	Cấu trúc tính toán cơ bản & Đặc tính	Khuyến nghị áp dụng
Sai số toàn phương trung bình căn	Root Mean Squared Error (RMSE)	Dựa trên độ lệch chuẩn của sai số dự báo ngoài mẫu. Lượng hóa sai số thành cùng đơn vị đo lường của biến phụ thuộc.	Ưu tiên số 1 khi có mẫu kiểm chứng (Holdout sample). Đặc biệt hiệu quả khi muốn trừng phạt nặng các sai số dự báo lớn.
Độ lệch tuyệt đối trung bình	Mean Absolute Deviation (MAD)	Trung bình của các sai số dự báo tuyệt đối ngoài mẫu. Mang tính tuyến tính và ít nhạy cảm.	Tốt tương đương RMSE, ít nhạy cảm với dữ liệu ngoại lai.
Tiêu chí Thông tin Bayes	Bayesian Information Criterion (BIC)	Phạt nặng sự phức tạp của mô hình dựa trên hàm logarit kết hợp với kích thước mẫu (xem công thức chi tiết bên dưới). Nhấn mạnh tính hội tụ nhất quán.	Lựa chọn thay thế (substitute) tốt nhất cho RMSE khi cỡ mẫu nhỏ (không có holdout). Đặc biệt khuyên dùng cho các bài báo ISI/Scopus.
Tiêu chí Geweke-Meese	Geweke-Meese Criterion (GM)	Dựa trên Mallow’s Cp với mức phạt phức tạp mạnh mẽ. Cân bằng tuyệt vời giữa độ tin cậy và sự tinh gọn.	Lựa chọn thay thế rất tốt, nhất quán lý thuyết với năng lực dự báo cao.
Hệ số xác định	R² / Adjusted R²	Đánh giá mức độ giải thích phương sai trong mẫu. Càng nhiều biến số, chỉ số này càng tăng giả tạo.	KHÔNG dùng để lựa chọn mô hình PLS-PM hướng dự đoán.
Hệ số dự báo chéo	Stone-Geisser’s Q²	Đo lường dựa trên thủ tục blindfolding. Cơ chế loại bỏ và nội suy từng điểm dữ liệu đơn lẻ.	Năng lực kém hơn BIC/GM, không tối ưu cho mô hình dự báo.
Phần trăm sai số tuyệt đối trung bình	Mean Absolute Percentage Error (MAPE)	Đo lường tỷ lệ phần trăm sai số. Tính toán đơn giản, dễ đọc trên báo cáo.	ĐẶC BIỆT TRÁNH, vì có xu hướng chọn sai mô hình có mức dự báo thấp (underpredict).

Công thức hàm phạt mức độ phức tạp của Tiêu chí Thông tin Bayes (BIC):

$$BIC = n \left[ \ln\left(\frac{SS_{error}}{n}\right) + \frac{p_k \ln(n)}{n} \right]$$

(Trong đó: $n$ là kích thước mẫu, $SS_{error}$ là tổng bình phương sai số, và $p_k$ đại diện cho số lượng tham số độc lập trong mô hình. Có thể thấy, khi $n$ lớn và $p_k$ tăng, giá trị phạt cộng thêm sẽ tăng rất mạnh, buộc mô hình phải duy trì tính súc tích).

5. Các Kịch Bản Mô Phỏng & Góc Nhìn Lựa Chọn Mô Hình (Scenarios & Lenses)

Nghiên cứu thiết lập hai kịch bản đánh giá để kiểm chứng độ chính xác khi lựa chọn mô hình PLS-PM. Đây là bước đột phá nhằm đảm bảo phương pháp luận không bị thiên lệch bởi các điều kiện lý tưởng hóa:

Kịch bản 1 (Mô hình tạo dữ liệu nằm trong tập cạnh tranh): Giả định nhà nghiên cứu sở hữu tất cả các biến số tạo ra dữ liệu thực tế và đã đưa mô hình gốc (Mô hình 5) vào danh sách 8 mô hình cần so sánh. Đây là kịch bản hoàn hảo dùng để thiết lập mốc chuẩn (benchmarking).
Kịch bản 2 (Mô hình tạo dữ liệu bị loại trừ): Phản ánh thực tế nghiên cứu khám phá khi luôn tồn tại một biến ẩn (hidden variable – ξ₄) không thể tiếp cận. Do đó, mô hình gốc không xuất hiện trong tập mô hình cạnh tranh. Trong thế giới kinh doanh, chúng ta hiếm khi nắm bắt được 100% các yếu tố chi phối hành vi người dùng. Kết quả cho thấy năng lực lựa chọn của các tiêu chí thông tin hoàn toàn miễn nhiễm (immune) và không bị suy giảm dù có sự tồn tại của biến ẩn này. Việc chứng minh được tính miễn nhiễm này mang lại sự tự tin rất lớn cho các nhà phân tích khi phải xử lý các tập dữ liệu không hoàn hảo trong đời sống kinh tế thực.

Hai góc nhìn (Lenses) ứng dụng để so sánh các tiêu chí (dựa trên phân loại lý thuyết của Gregor, 2006):

Góc nhìn “Chỉ dự báo” (Prediction-only – P): Mục tiêu duy nhất là chọn mô hình có sai số dự báo (RMSE) thấp nhất, bất chấp mô hình đó có sai lệch lý thuyết hay không. Đây là tư duy của Machine Learning thuần túy. Trong trường hợp này, không có tiêu chí trong mẫu (kể cả BIC hay GM) nào đủ khả năng thay thế RMSE.
Góc nhìn “Giải thích – Dự báo” (Explanation-Prediction – EP): Lựa chọn mô hình PLS-PM có năng lực dự báo tốt nhất nhưng phải đảm bảo điều kiện tiên quyết là nhất quán với lý thuyết nhân quả (correctly specified). Đây mới chính là triết lý thực sự của PLS-PM. Dưới góc nhìn này, BIC và GM đạt tỷ lệ đồng thuận với RMSE lên tới trên 74%, vượt trội hoàn toàn so với các chỉ số tiêu chuẩn của PLS-PM.

6. Phân Tích Kết Quả Mô Phỏng & Tác Động Của Các Yếu Tố Thiết Kế

Hiệu suất của các tiêu chí thông tin trong việc lựa chọn chính xác mô hình dự báo chịu sự chi phối bởi ba yếu tố cốt lõi mang ý nghĩa quyết định đến thiết kế bảng hỏi:

Tác động của Kích thước mẫu (Sample Size): Tại cỡ mẫu nhỏ (từ 50 đến 200 quan sát), mức độ đồng thuận của BIC và GM với RMSE trên tập mô hình đúng đạt đỉnh (đạt 79.9% cho BIC và 82.2% cho GM ở cỡ mẫu 100). Đây chính là “điểm ngọt” (sweet spot) mang ý nghĩa to lớn, vì ở các cỡ mẫu này, việc chia tách dữ liệu để có mẫu kiểm chứng (holdout) là điều bất khả thi. Lý do thuật toán tỏa sáng ở điểm này là vì “mức phạt” (penalty) của công thức toán học hoạt động hoàn hảo nhất để triệt tiêu các mẫu nhiễu ở tập mẫu cỡ trung bình. Khi cỡ mẫu tiến tới 500, các chỉ số trong mẫu giảm dần độ chính xác và nhà nghiên cứu nên chuyển hẳn sang dùng tập holdout. Điều này nhắc nhở chúng ta rằng, không phải lúc nào “dữ liệu càng khổng lồ càng tốt”; thay vào đó, việc chọn đúng công cụ đo lường cho từng giới hạn quy mô mẫu mới là chìa khóa thành công.
Tác động của Hệ số tải nhân tố (Item Loadings / AVE): Chất lượng thang đo càng cao (AVE tăng từ 0.7 lên 0.9), mức độ chính xác của các tiêu chí thông tin trong việc lựa chọn mô hình PLS-PM đúng cấu trúc càng tăng do giảm thiểu được nhiễu đo lường. Điều này chứng tỏ vai trò cực kỳ quan trọng của khâu kiểm định độ tin cậy Cronbach’s Alpha và độ giá trị hội tụ. Ngược lại, khi AVE tăng, độ chính xác của R² và Adjusted R² lại giảm sút.
Tác động của Kích thước tác động (Effect Size): Tín hiệu nhân quả (causal signal) giữa các biến số càng mạnh (đường dẫn β tăng từ 0.1 đến 0.5), các tiêu chí mô hình học máy (BIC, GM) càng dễ nhận diện và ưu tiên cấu trúc lý thuyết chuẩn xác. Ngay cả ở effect size rất thấp (0.1) – tức là mối liên hệ nhân quả rất yếu – BIC và GM vẫn giữ được mức đồng thuận với RMSE cao (lần lượt 71.4% và 73.3%), trong khi R² chỉ đạt 14.8%.

7. Minh Họa Thực Tiễn: Ứng Dụng Vào Mô Hình Danh Tiếng Doanh Nghiệp

Để chứng minh giá trị thực tiễn và không chỉ dừng ở mặt toán học lý thuyết, nghiên cứu tiến hành kiểm chứng 5 mô hình thay thế (alternative models) trên bộ dữ liệu thực tế về Danh tiếng Doanh nghiệp (Corporate Reputation) từ 336 khách hàng của các nhà mạng viễn thông tại Đức. Bối cảnh ngành viễn thông được lựa chọn có chủ đích vì đây là ngành có tỷ lệ rời bỏ của khách hàng (churn rate) cực kỳ cao, khiến năng lực dự đoán sự hài lòng trở thành vấn đề sống còn.

Cấu trúc khái niệm: Mô hình (kế thừa từ Schwaiger, 2004) đánh giá tác động của 4 tiền tố định hình danh tiếng bao gồm: Chất lượng (QUAL), Hiệu suất (PERF), Trách nhiệm xã hội (CSOR), Sự hấp dẫn (ATTR) lên 2 khía cạnh cốt lõi là Năng lực (COMP) và Sự yêu thích (LIKE). Bốn tiền tố này được thiết lập dưới dạng thang đo kết tạo (formative), trong khi hai khía cạnh cốt lõi là phản ánh (reflective). Từ đó tác động đến Sự hài lòng (CUSA) và Lòng trung thành của khách hàng (CUSL).
Quá trình lựa chọn mô hình PLS-PM: Mô hình 1 đại diện cho khung lý thuyết gốc chặt chẽ nhất. Các mô hình từ 2 đến 4 đưa ra các giả thuyết thu gọn, bỏ qua các bước trung gian, trong khi Mô hình 5 là mô hình bão hòa (saturated model) phi logic, kết nối trực tiếp tất cả các tiền tố đến Năng lực và Sự hài lòng. Về mặt học thuật, Mô hình 5 vi phạm trầm trọng quy luật logic nhân quả.
Kết quả: Các tiêu chí trong mẫu của PLS (R², Adjusted R², Q²) và cả tiêu chí ngoài mẫu (RMSE) đều có xu hướng chọn Mô hình 5 (mô hình bão hòa mang tính quá khớp). Bọn chúng dễ dàng bị “đánh lừa” bởi số lượng đường dẫn khổng lồ. Trái ngược hoàn toàn, chỉ có hai tiêu chí GM và BIC ưu tiên lựa chọn Mô hình 1. Điều này khẳng định BIC và GM cung cấp điểm cân bằng hoàn hảo giữa hiệu suất dự báo (predictive performance) và tính chính xác của lý thuyết (correct specification) trong thực tế.

8. Mạng Lưới Quan Hệ Lý Thuyết (Nomological Network)

Năng lực của các tiêu chí thông tin trong việc lựa chọn mô hình PLS-PM chịu sự chi phối bởi các yếu tố cấu trúc sau. Hiểu rõ mạng lưới này giúp các học giả có thể biện luận chặt chẽ trong các buổi bảo vệ luận án:

Tiền tố (Antecedents): Những yếu tố đóng vai trò điều kiện đầu vào như Kích thước mẫu (Sample Size), Chất lượng thang đo (Item Loadings / AVE) và Kích thước tác động (Effect Size) ảnh hưởng trực tiếp đến khả năng định vị mô hình chính xác của BIC và GM. Một thiết kế nghiên cứu sơ sài ngay từ khâu lấy mẫu sẽ làm vô hiệu hóa năng lực của toàn bộ hệ thống tiêu chí này. Khâu làm sạch dữ liệu và tinh chỉnh thang đo ban đầu do đó trở thành xương sống quyết định sự sống còn của khâu dự báo phía sau.
Hậu tố (Consequences): Việc áp dụng thành công các tiền tố này thông qua chỉ số BIC/GM mang lại Hệ quả cốt lõi là Sự cân bằng Giữa Giải Thích và Dự Báo (EP Lens). Nó giúp nhà nghiên cứu chọn được mô hình vừa có sức mạnh dự báo cao, vừa đúng với nền tảng lý thuyết và tuyệt đối loại trừ các mô hình bão hòa vô nghĩa. Đây chính là bằng chứng xác đáng nhất (empirical evidence) để thuyết phục các phản biện tạp chí quốc tế (Reviewers), đặc biệt định giá trị cao khi bạn đang chắp bút xây dựng cấu trúc luận luận cho một bài báo nghiên cứu khoa học chuyên sâu.

9. Những Mặt Hạn Chế Và Khoảng Trống Nghiên Cứu Tương Lai (Limitations & Future Research)

Bất kỳ phương pháp luận nghiên cứu nào cũng tồn tại các điểm nghẽn học thuật. Bài báo chỉ ra 3 khoảng trống lớn cần giải quyết trong tương lai, mở ra cơ hội cho các đề tài Tiến sĩ tiếp theo:

Hạn chế về cấu trúc mô hình: Mô phỏng hiện tại mới chỉ giải quyết các mô hình cấu trúc tuyến tính cơ bản. Năng lực của các tiêu chí dự báo ngoài mẫu chưa được kiểm chứng trên các cấu trúc phức tạp hơn như mô hình thành phần bậc cao (hierarchical component models), biến điều tiết (interaction terms) hay các hiệu ứng phi tuyến. Việc thêm các biến số này sẽ làm thay đổi cấu trúc hình phạt (penalty) của công thức BIC, đòi hỏi sự vi chỉnh tinh tế hơn về mặt thuật toán toán học.
Hạn chế về đo lường dự báo: Đánh giá trong bài báo chỉ dựa trên điểm số thành phần (composite scores) thay vì dữ liệu ở cấp độ từng biến quan sát đơn lẻ (item-level predictions). Việc dự báo chính xác ở cấp độ biến quan sát sẽ mang lại khả năng ứng dụng thực tế cao hơn rất nhiều trong việc dự báo hành vi cá nhân hóa.
Hạn chế về thuật toán so sánh: PLS-PM hiện là chuẩn mực trong nghiên cứu kinh doanh. Tuy nhiên, trong tương lai, cần mở rộng so sánh độ chính xác dự báo của PLS-PM với các phương pháp lập mô hình thành phần khác (composite-based SEM methods) như PLS nhất quán (Consistent PLS), Generalized Structure Component Analysis, hoặc đặc biệt là Mô hình hóa Cấu trúc Phổ quát (Universal Structure Modeling – USM) áp dụng mạng nơ-ron Bayes để rà soát tự động toàn bộ tương tác phi tuyến tính ẩn giấu.

10. Hướng Dẫn Ứng Dụng Nghiên Cứu (Academic Implications)

Với tư cách là nhà nghiên cứu hoặc học giả giảng dạy về phương pháp định lượng, để ứng dụng quy trình lựa chọn mô hình PLS-PM hiệu quả trong việc thiết kế và xuất bản bài báo khoa học, bạn cần thực hiện nghiêm túc các nguyên tắc sau:

Từ bỏ thói quen dùng R² và Q² cho mục đích dự báo: Đa số sinh viên lạm dụng Q² (blindfolding) để kết luận mô hình có năng lực dự báo. Đây là một sai lầm phổ biến mang tính rập khuôn. Nghiên cứu này chứng minh Q² hoàn toàn thua kém BIC và GM trong việc tìm ra cấu trúc mô hình dự báo tối ưu. Hãy mạnh dạn loại bỏ các nhận định chủ quan dựa trên Q² và chứng minh năng lực cập nhật kiến thức phương pháp luận mới nhất của bạn trước hội đồng đánh giá.
Sử dụng BIC và GM cho tập dữ liệu nhỏ: Nếu cỡ mẫu của nghiên cứu n < 200, tuyệt đối không cố gắng trích xuất dữ liệu làm tập kiểm chứng vì sẽ làm suy giảm sức mạnh thống kê (statistical power). Hãy sử dụng toàn bộ dữ liệu để ước lượng, sau đó dùng giá trị BIC hoặc GM để so sánh tính ưu việt của các mô hình. Cách tiếp cận này tiết kiệm nguồn lực tối đa mà vẫn đảm bảo tính hàn lâm khoa học.
Xây dựng nhiều mô hình cạnh tranh: Đừng chỉ chạy một mô hình duy nhất. Đây là tư duy cũ kỹ của kiểm định giả thuyết cổ điển. Hãy thiết lập các mô hình thay thế (alternative models) bao gồm mô hình thiếu biến, mô hình thêm biến trung gian, và dùng tiêu chí Thông tin để chọn ra cấu trúc tối ưu nhất có thể giải thích dữ liệu sinh ra. Quá trình đối chiếu và “chấm điểm” các mô hình này sẽ làm nội dung bài viết nghiên cứu của bạn trở nên sắc sảo và đa chiều hơn rất nhiều.

11. Ứng Dụng Quản Trị Doanh Nghiệp (Managerial Implications)

Trong khoa học dữ liệu kinh doanh (Business Data Science) và Marketing Analytics, ứng dụng lý thuyết này không chỉ nằm ở các con số, mà nằm ở chiến lược phân bổ ngân sách:

Định hình khẩu vị rủi ro dự báo: Khi đánh giá một mô hình dự báo hành vi mua (Ví dụ: Churn prediction – dự báo tỷ lệ rời bỏ), nếu nhà quản trị mang phong cách bảo thủ và muốn “tối thiểu hóa rủi ro tồi tệ nhất” (regret criterion) để không lãng phí ngân sách giữ chân khách hàng một cách mù quáng, hãy ưu tiên sử dụng RMSE. Sai số của RMSE được bình phương lên nên nó “trừng phạt” các lỗi dự báo lệch chuẩn cực kỳ nghiêm khắc. Nếu chiến lược ra quyết định dựa trên quy luật trung bình (law of averages), nhằm nhắm đến số đông đại chúng thay vì các tập khách hàng ngoại lai (outliers), MAD hoặc MAPE là các chỉ số đo lường hiệu quả hơn.
Loại bỏ MAPE trong việc so sánh mô hình: Rất nhiều báo cáo tài chính và kinh doanh sử dụng MAPE vì tính dễ hiểu (hiển thị phần trăm). Tuy nhiên, nhà quản trị cần biết rằng MAPE luôn thiên vị (bias) và ưu tiên chọn những mô hình đánh giá thấp dữ liệu thực tế (underpredict). Hậu quả là doanh nghiệp có thể dự trữ thiếu hàng tồn kho hoặc đánh giá thấp tiềm năng thị trường. Hãy chuẩn hóa sang SMAPE hoặc quay về sử dụng RMSE/MAD khi cần so sánh độ chính xác của các thuật toán.

12. Các Câu Hỏi Thường Gặp (FAQ)

Tại sao mô hình có chỉ số R² cao nhất thường thất bại khi dự báo dữ liệu thực tế ngoài mẫu?

Khác biệt cốt lõi nằm ở hiện tượng quá khớp (overfitting). R² tăng lên mỗi khi bạn thêm một biến mới vào mô hình, khiến mô hình cố gắng ghi nhớ (memorize) các nhiễu ngẫu nhiên trong mẫu hiện tại. Do nhiễu này mang tính đặc thù và không tồn tại trong tập dữ liệu mới, năng lực dự báo ngoài mẫu sẽ sụp đổ hoàn toàn. Càng “thuộc lòng” quá khứ, mô hình càng kém “phán đoán” tương lai.

Việc sử dụng Q² (Stone-Geisser) có được coi là một công cụ dự báo ngoài mẫu (out-of-sample) hợp lệ trong PLS-PM không?

Không hoàn toàn. Q² sử dụng thủ tục blindfolding (loại bỏ và nội suy từng điểm dữ liệu đơn lẻ, thay vì tách toàn bộ một quan sát ra khỏi tập dữ liệu). Do đó, nó vẫn được cấu trúc như một tiêu chí “trong mẫu” (in-sample). Năng lực chọn mô hình của Q² kém xa so với các tiêu chí ngoài mẫu thực sự (RMSE) hoặc các tiêu chí thông tin học máy như (BIC/GM) vì nó không đại diện cho một bài toán dự báo “mù” thực sự (true blind prediction).

Tôi nên ưu tiên Tiêu chí Akaike (AIC) hay Tiêu chí Bayes (BIC) khi lựa chọn mô hình PLS-PM?

Bạn nên ưu tiên sử dụng BIC hoặc GM. Tiêu chí AIC có xu hướng tiệm cận không nhất quán (asymptotically inconsistent) ở các mẫu lớn và có khả năng chọn các mô hình phức tạp hơn mức cần thiết do hệ số phạt của nó quá nhẹ. Trong khi đó, BIC đưa ra một mức “phạt” (penalty) đối với sự phức tạp của mô hình nặng nề hơn rất nhiều, giúp giữ lại các mô hình đơn giản, chuẩn xác lý thuyết và có độ chính xác dự báo cao hơn thực tế.

13. Tài Liệu Tham Khảo (References)

Akaike, H. (1969). Fitting autoregressive models for prediction. Annals of the Institute of Statistical Mathematics, 21(1), 243-247.

Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. In Selected papers of Hirotugu Akaike (pp. 199-213). Springer.

Babin, B. J., Hair, J. F., & Boles, J. S. (2008). Publishing research in marketing journals using structural equation modeling. Journal of Marketing Theory and Practice, 16(4), 279-285.

Becker, J. M., Rai, A., & Rigdon, E. (2013). Predictive validity and formative measurement in structural equation modeling. 34th ICIS, Milan, Italy.

Burnham, K. P., & Anderson, D. R. (2002). Model selection and multimodel inference: A practical information-theoretic approach. Springer.

Evermann, J., & Tate, M. (2016). Assessing the predictive performance of structural equation model estimators. Journal of Business Research, 69(10), 4565-4582.

Geisser, S. (1974). A predictive approach to the random effect model. Biometrika, 61(1), 101-107.

Hair, J. F., Sarstedt, M., Ringle, C. M., & Mena, J. A. (2012a). An assessment of the use of partial least squares structural equation modeling in marketing research. Journal of the Academy of Marketing Science, 40(3), 414-433.

Hair, J. F., Hult, G. T. M., Ringle, C. M., & Sarstedt, M. (2017b). A primer on partial least squares structural equation modeling (PLS-SEM) (2nd ed.). Sage.

McQuarrie, A. D., & Tsai, C. L. (1998). Regression and time series model selection, Vol. 43. World Scientific.

Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6(2), 461-464.

Shmueli, G., Ray, S., Estrada, J. M. V., & Chatla, S. B. (2016). The elephant in the room: Predictive performance of PLS models. Journal of Business Research, 69(10), 4552-4564.

Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical Society, 36(2), 111-147.

14. Lời Kêu Gọi Hành Động

Để nắm vững các bước lập trình thủ công và tính toán Tiêu chí Thông tin (BIC, GM) từ kết quả xuất chuẩn của phần mềm SmartPLS, cũng như thiết lập một lộ trình lựa chọn mô hình PLS-PM bài bản, khách quan và khoa học nhất cho luận án và bài báo quốc tế của bạn, hãy xem xét kỹ phương pháp luận cốt lõi từ chính nhóm tác giả tại tài liệu dưới đây.

Sharma, P. N., Shmueli, G., Sarstedt, M., Danks, N., & Ray, S. (2018). Prediction-oriented model selection in partial least squares path modeling. Decision Sciences.

Nguyễn Thanh Phương

Giảng viên Nguyễn Thanh Phương là chuyên gia chuyên sâu về Nghiên cứu khoa học, Ứng dụng AI, Digital Marketing và Quản trị bản thân. Với kinh nghiệm giảng dạy thực chiến, tác giả trực tiếp hướng dẫn ứng dụng phương pháp luận và phân tích dữ liệu chuyên sâu cho người học nên được sinh viên gọi là Thầy giáo quốc dân. Mọi nội dung chia sẻ đều tuân thủ nguyên tắc khách quan, thực chứng và mang giá trị ứng dụng cao, hướng tới mục tiêu cốt lõi: “Làm bạn tốt hơn!