Sự Không Chắc Chắn Trong Lựa Chọn Mô Hình Và Suy Luận Đa Mô Hình Trong PLS-SEM – Nicholas P. Danks

Lựa chọn mô hình trong PLS-SEM là quá trình đánh giá để tìm ra cấu trúc lý thuyết tối ưu nhất đại diện cho tập dữ liệu thực tế. Trong bối cảnh phân tích dữ liệu ngày càng phức tạp, việc này đóng vai trò then chốt để đảm bảo tính hợp lệ và độ tin cậy của các kết quả nghiên cứu khoa học. Nguyên nhân chính gây ra sai lệch nghiên cứu là sự chênh lệch quá nhỏ giữa các tiêu chí thông tin thô (AIC, BIC). Sự chênh lệch vi mô này dễ đánh lừa các nhà nghiên cứu, khiến họ vội vàng đưa ra kết luận bảo thủ và bỏ qua các yếu tố rủi ro tiềm ẩn trong hệ thống biến số. Giải pháp nhanh nhất và chuẩn xác nhất là sử dụng trọng số Akaike (Akaike weights) để tính toán xác suất tương đối và tạo ra các dự báo trung bình đa mô hình. Phương pháp này mở ra một hướng đi hoàn toàn mới, giúp tối ưu hóa cả tính chính xác và tính toàn vẹn của báo cáo trong cấu trúc PLS-SEM.

Nội dung bài viết

1. Tổng Quan & Lý Thuyết Nền Tảng (Overview & Theoretical Foundations)

1.1 Thông tin định danh bài báo

Việc nắm rõ thông tin trích dẫn sẽ giúp bạn dễ dàng đưa bài viết vào danh mục tài liệu tham khảo theo chuẩn APA:

Tiêu đề gốc: Model selection uncertainty and multimodel inference in partial least squares structural equation modeling (PLS-SEM)
Tiêu đề tiếng Việt: Sự không chắc chắn trong lựa chọn mô hình và suy luận đa mô hình trong mô hình phương trình cấu trúc bình phương tối thiểu riêng phần (PLS-SEM)
Tác giả: Nicholas P. Danks, Pratyush N. Sharma, Marko Sarstedt
Tạp chí: Journal of Business Research 113 (2020) 13-24

1.2 Tóm tắt bài báo (Abstract)

So sánh các cách giải thích thay thế cho các hiện tượng hành vi là trọng tâm của quá trình nghiên cứu khoa học. Việc có nhiều luồng quan điểm và kịch bản cạnh tranh nhau là điều tất yếu khi chúng ta muốn khám phá sâu sắc về các biến số tâm lý học, xã hội học hoặc hành vi người tiêu dùng. Nghiên cứu gần đây đã nhấn mạnh tính hiệu quả của các tiêu chí lựa chọn mô hình theo Lý thuyết Thông tin trong mô hình phương trình cấu trúc bình phương tối thiểu riêng phần (PLS-SEM), một phương pháp đã được phổ biến rộng rãi trong nhiều lĩnh vực quản trị và tiếp thị.

Tuy nhiên, việc chọn một mô hình duy nhất so với các mô hình khác dựa trên các giá trị tiêu chí thông tin thô có thể dẫn đến sự tự tin thái quá (false sense of confidence) vì sự khác biệt trong các giá trị tiêu chí này trên thực tế thường rất nhỏ. Các nhà nghiên cứu thường rơi vào bẫy tâm lý khi thấy mô hình A có điểm AIC thấp hơn mô hình B chỉ vài thập phân, liền lập tức kết luận mô hình A là chân lý duy nhất mà bỏ qua rủi ro sai số chọn mẫu.

Để khắc phục hạn chế này, các nhà nghiên cứu thống kê đã đề xuất sử dụng trọng số Akaike (Akaike weights), tuy nhiên tính hiệu quả thực tiễn của nó vẫn chưa được đánh giá sâu trong bối cảnh PLS-SEM. Nghiên cứu này phân tích toàn diện tính hiệu quả của trọng số Akaike trong các tác vụ so sánh mô hình dựa trên PLS-SEM. Kết quả cho thấy trọng số Akaike bắt nguồn từ tiêu chí BIC và GM rất phù hợp để phân tách các mô hình được chỉ định sai (misspecified models) khỏi các mô hình được chỉ định đúng, và trọng số dựa trên tiêu chí AIC đặc biệt hữu ích cho việc tạo ra các dự đoán trung bình theo mô hình (model-averaged predictions) trong điều kiện có sự không chắc chắn cao.

1.3 Bối cảnh thực tiễn & Khoảng trống nghiên cứu

Quá trình so sánh các mô hình thay thế (alternative models) luôn xuất hiện khi nhà nghiên cứu áp dụng lý thuyết vào bối cảnh mới, bổ sung các biến độc đáo hoặc khi xây dựng cầu nối khái niệm giữa các luồng nghiên cứu để giải thích toàn diện một hiện tượng. Thực tế cho thấy, không có lý thuyết nào là hoàn hảo ngay từ đầu. Đứng trước một tập hợp các mô hình, mục tiêu là xác định mô hình xấp xỉ tốt nhất với quá trình tạo dữ liệu thực tế.

Quá trình này bị cản trở bởi một nghịch lý kinh điển trong giới học thuật: Các mô hình phức tạp (nhiều biến, nhiều đường dẫn) dễ gặp hiện tượng quá khớp (overfit) dữ liệu do khai thác các mẫu giả (spurious patterns) hoặc nhiễu cục bộ trong một mẫu cụ thể. Cụ thể hơn, mô hình càng nhồi nhét nhiều tham số thì chỉ số R² càng cao, tạo ra ảo giác về một mô hình xuất sắc. Nhưng do mang tính đặc thù của mẫu, chúng có khả năng khái quát hóa và nhân bản khoa học cực kỳ kém khi áp dụng vào một quần thể dữ liệu hoàn toàn mới.

Ngược lại, các mô hình tinh giản (parsimonious) có độ khớp tổng thể kém hơn một chút, nhưng lại có cơ hội tái tạo khoa học vững chắc hơn. Khoảng trống nghiên cứu nằm ở việc dù Sharma và cộng sự (2019) đã chứng minh BIC và GM hoạt động tốt trong lựa chọn mô hình trong PLS-SEM, các nhà nghiên cứu vẫn gặp khó khăn vì sự khác biệt giá trị thô giữa các mô hình cạnh tranh là quá nhỏ (thường chỉ chênh lệch vài điểm). Điều này đòi hỏi một thước đo xác suất bổ sung là trọng số Akaike để định lượng chính xác rủi ro và bằng chứng ủng hộ từng mô hình.

1.4 Hệ thống Lý thuyết nền tảng (Theoretical Foundations)

Để thiết lập nền móng vững chắc, bài báo đi sâu vào các khái niệm cốt lõi yếu lược:

Lý thuyết Thông tin (Information Theory): Được phát triển từ nền tảng toán học truyền thông của Claude Shannon, lý thuyết này định lượng lượng thông tin bị mất đi khi sử dụng một mô hình đề xuất để đại diện cho một mô hình quần thể tạo dữ liệu giả định. Các tiêu chí phổ biến bao gồm Tiêu chí Thông tin Akaike (AIC), AIC nhất quán (CAIC), biến thể AIC3 và Tiêu chí Thông tin Bayesian (BIC).
Nguyên lý Parsimony (Occam’s razor – Dao cạo Ockham): Bất kỳ tiêu chí nào cho việc lựa chọn mô hình cũng cần phải giải quyết sự đánh đổi (trade-off) giữa độ khớp của mô hình (model fit) và tính tinh giản (parsimony). Các tiêu chí thông tin áp dụng các “hình phạt” đối với sự gia tăng số lượng tham số, cỡ mẫu, hoặc entropy để ngăn chặn sự phức tạp hóa không cần thiết, giúp hệ thống không bị mắc kẹt vào các biến nhiễu vô nghĩa.

2. Khái Niệm Hóa và Cấu Trúc Khái Niệm (Conceptualization)

Bài báo kiến tạo ba trụ cột lý thuyết quan trọng để đo lường tính hợp lệ:

Khả năng xảy ra của một mô hình (Likelihood of a model): Thay vì chỉ so sánh nhị phân (Đúng/Sai), các giá trị thô của tiêu chí (như AIC, BIC) được chuyển đổi thành khả năng xảy ra tương đối. Nó đánh giá khoảng cách tương đối của một mô hình khi so với mô hình tốt nhất trong tập hợp các mô hình cạnh tranh, từ đó cung cấp một góc nhìn mềm dẻo và thực tế hơn.
Trọng số Akaike (Akaike Weights): Là thước đo tính toán khả năng tương đối dựa trên dữ liệu, được chuẩn hóa trên thang đo từ 0 đến 1. Bằng cách nhìn vào thang đo này, người ta biết được mô hình A chiếm bao nhiêu phần trăm khả năng là “kẻ chiến thắng”. Nó giúp nhà nghiên cứu rút ra suy luận mạnh mẽ hơn (multimodel inference) bằng cách cung cấp thông tin về việc nên dựa vào một mô hình duy nhất hay phải xem xét nhiều mô hình cùng lúc nhằm kiểm soát rủi ro.
Dự báo trung bình mô hình (Model-averaged predictions): Đây là phương pháp tạo ra dự báo tối ưu bằng cách lấy trọng số Akaike nhân với dự báo của từng mô hình trong tập hợp, sau đó cộng lại. Phương pháp tổng hợp (ensembles) này giúp trung hòa sai số cực kỳ ấn tượng, hoạt động tốt nhất khi các phương pháp dự đoán có sự tương quan thấp hoặc âm, đem lại kết quả dự đoán (giảm thiểu chỉ số lỗi RMSE) thấp hơn hẳn so với dự đoán đơn lẻ của bất kỳ một mô hình biệt lập nào.

3. Quy Trình Phát Triển Thang Đo & Nghiên Cứu Mô Phỏng (Scale Development & Simulation Process)

Nghiên cứu này không tạo thang đo khảo sát mới mà tập trung vào phương pháp Mô phỏng Monte Carlo (Monte Carlo Simulation) qua phần mềm R (gói cbsem) để kiểm chứng tính hiệu quả của lựa chọn mô hình trong PLS-SEM qua 27.000 trường hợp dữ liệu được tạo ra một cách giả lập, mô phỏng mọi điều kiện khắc nghiệt nhất ngoài thực địa.

3.1 Nghiên cứu mô phỏng I

Thiết lập mô hình: Bao gồm 7 cấu trúc mô hình cạnh tranh, đều có 5 biến tiềm ẩn (3 độc lập, 2 phụ thuộc), mỗi biến có 4 chỉ báo phản ánh. Cấu trúc này đại diện cho sự đa dạng thường thấy trong nghiên cứu quản trị kinh doanh. Mô hình 5 là mô hình tạo dữ liệu gốc (Data generation model). Mô hình 1, 3, 4, 6 bị chỉ định sai (chứa các đường dẫn không tồn tại trong thực tế). Mô hình 2 được chỉ định đúng nhưng tinh giản (thiếu 1 đường dẫn). Mô hình 7 là mô hình bão hòa (chứa tất cả các đường dẫn cấu trúc có thể có).
Thao tác điều kiện: Việc giả lập được thực hiện trên sáu cỡ mẫu (50, 100, 150, 200, 250, 500); Năm kích thước tác động cấu trúc (γ₂ = 0.1, 0.2, 0.3, 0.4, 0.5); Ba dạng tải lượng chỉ báo (AVE cao: 0.9; AVE trung bình: 0.8; AVE thấp: 0.7) để xem xét phản ứng đa chiều của hệ thống.
Kết quả: Quá trình phân tích thực nghiệm đã phản ánh rõ rệt mức độ của sự không chắc chắn trong lựa chọn mô hình và suy luận đa mô hình trong PLS-SEM. Cụ thể, về sự không chắc chắn trong việc từ chối (rejection uncertainty), AIC, BIC, và GM đều loại bỏ xuất sắc các mô hình sai (trọng số Akaike gán cho mô hình 1, 3, 4, 6 gần bằng 0). Tuy nhiên, về sự không chắc chắn trong lựa chọn (selection uncertainty), khi cỡ mẫu tăng, AIC có rủi ro gán trọng số cao cho mô hình bão hòa (Mô hình 7) do nó nhạy cảm với lượng dữ liệu lớn. Ngược lại, BIC giảm đáng kể trọng số của mô hình bão hòa và ủng hộ mạnh mẽ mô hình tinh giản và mô hình gốc. Dự đoán trung bình theo mô hình cho RMSE là 0.750, cực sát với mô hình gốc (0.749) và vượt trội hoàn toàn so với phương pháp chia đều trọng số ngây thơ (0.785).

3.2 Nghiên cứu mô phỏng II

Thiết lập: Để tăng tính tổng quát cho kết quả, mô phỏng 2 bổ sung đường dẫn γ₄ (giữa ξ₃ và η₂) vào Mô hình 4 và 6 để tăng biến thiên sai lệch; đồng thời tăng độ lớn đường dẫn γ₅ (giữa η₁ và η₂) từ 0.1 lên 0.4 để khuếch đại tác động của các sai lệch tiền đề.
Kết quả: Dù bị can thiệp mạnh, các tiêu chí vẫn từ chối mạnh mẽ mô hình 1, 3, 6. Tuy nhiên, Mô hình 4 nay nhận được một số hỗ trợ giả do sức mạnh dự đoán từ đường dẫn γ₄ tạo ra sự che mắt cục bộ. Tại đây, BIC chứng minh sự ưu việt tuyệt đối khi làm tốt hơn AIC rất nhiều trong việc phạt và loại bỏ Mô hình 4. Các dự đoán trung bình theo đa mô hình (model-averaged predictions) vẫn duy trì mức độ chính xác RMSE (0.599) tương đương mô hình gốc tốt nhất (0.598).

4. Thang Đo Lường Chính Thức (Measurement Scale)

Để minh họa thực nghiệm trên dữ liệu thật, nghiên cứu sử dụng bộ thang đo danh tiếng doanh nghiệp (Corporate Reputation Model) của tác giả Schwaiger (2004) với 5 mô hình thay thế khác nhau nhằm dự báo sự hài lòng của khách hàng (CUSA). Đây là một mô hình nổi tiếng, mang tính chuẩn mực để kiểm thử các thuật toán. Dưới đây là các cấu trúc khái niệm cốt lõi:

Mã Biến (Code)	Khái niệm Tiếng Anh (English Construct)	Khái niệm Tiếng Việt (Vietnamese Translation)
QUAL	Quality	Chất lượng sản phẩm/dịch vụ
PERF	Performance	Hiệu suất hoạt động
CSOR	Corporate social responsibility	Trách nhiệm xã hội của doanh nghiệp
ATTR	Attractiveness	Sự hấp dẫn của doanh nghiệp
COMP	Competence	Năng lực cốt lõi
LIKE	Likeability	Mức độ được yêu thích
CUSA	Customer satisfaction	Sự hài lòng của khách hàng
CUSL	Customer loyalty	Lòng trung thành của khách hàng

5. Mạng Lưới Quan Hệ Lý Thuyết (Nomological Network)

Sự thành bại của quá trình chọn lựa phụ thuộc vào các yếu tố ngoại vi xung quanh mô hình:

Tiền tố (Antecedents): Các điều kiện tiền đề tác động trực tiếp đến độ nhạy bén của tiêu chí thông tin bao gồm Cỡ mẫu (Sample size), Kích thước tác động (Effect size), và Hệ số tải (Loadings). Cỡ mẫu lớn hơn 100 giúp các tiêu chí hoạt động ổn định và bớt dao động ngẫu nhiên. Tải lượng (Loadings) cao làm tăng trọng số nhận diện cho mô hình tạo dữ liệu gốc và giảm sự nhầm lẫn với mô hình tinh giản. Đáng chú ý, kích thước tác động (Effect size) càng lớn lại càng làm tăng trọng số của mô hình tinh giản do sự thay đổi trong phương sai giải thích R².
Hậu tố (Consequences): Quá trình tính toán đa mô hình này trực tiếp tối ưu hóa Độ chính xác dự đoán (Prediction accuracy) cho biến kết quả tiêu điểm. Khả năng từ chối mô hình sai lệch giúp ngăn chặn việc rút ra các kết luận sai lầm về hành vi người tiêu dùng, đồng thời tối thiểu hóa rủi ro thất thoát thông tin trong hệ thống doanh nghiệp.

6. Hướng Dẫn Ứng Dụng Nghiên Cứu (Academic Implications)

Đối với nghiên cứu sinh và giảng viên đại học, việc chọn mô hình phân tích chỉ dựa trên chênh lệch tuyệt đối của tiêu chí thô thường thiếu cơ sở vững chắc và dễ bị phản biện hội đồng đánh giá thấp. Để kiểm soát sự không chắc chắn trong lựa chọn mô hình trong PLS-SEM, bắt buộc phải thực thi tính toán trọng số Akaike theo chuẩn khoa học với 5 bước đơn giản sau (Đã tối ưu hiển thị thuần văn bản để chống lỗi copy):

Bước 1: Xác định giá trị tiêu chí nhỏ nhất (Ví dụ với AIC)
Lấy giá trị nhỏ nhất trong tập hợp mô hình đang đánh giá (Ký hiệu là AIC_min). Việc bóc tách ra giá trị đáy này đóng vai trò như vạch xuất phát chuẩn để đo lường.
Bước 2: Tính độ lệch (Delta)
Tính khoảng cách của từng mô hình i so với mô hình tốt nhất thông qua phép trừ đơn giản:
Δ_i(AIC) = AIC_i – AIC_min
Bước 3: Tính khả năng xảy ra tương đối (Likelihood)
Chuyển đổi điểm số độ lệch thành giá trị khả năng xảy ra dựa trên hàm số mũ tự nhiên (exp):
L(M_i|data) = exp(-0.5 * Δ_i(AIC))
Bước 4: Tính trọng số Akaike (Akaike Weights)
Chuẩn hóa khả năng xảy ra của một mô hình chia cho tổng khả năng xảy ra của tất cả K mô hình. Kết quả sẽ luôn là một số thập phân chạy từ 0 đến 1:
w_i(AIC) = exp(-0.5 * Δ_i(AIC)) / [ Σ exp(-0.5 * Δ_k(AIC)) ]
Bước 5: Dự báo trung bình (Model-averaged predictions)
Tạo dự đoán tổng hợp bằng cách nhân dự báo của mô hình i (ký hiệu là Y_i) với trọng số tương ứng w_i, sau đó cộng lại:
Y_trung_bình = [ Σ (w_i * Y_i) ] / [ Σ w_i ]

Lưu ý cho giới hàn lâm: Giảng viên nên hướng dẫn sinh viên sử dụng tiêu chí BIC và GM để giảm bớt sự không chắc chắn trong việc lựa chọn và từ chối các mô hình sai lệch (misspecified) nhằm bảo vệ lý thuyết trong giai đoạn đầu, nhưng hãy sử dụng AIC khi mục tiêu cốt lõi là tạo ra các dự đoán trung bình đa mô hình cho dữ liệu thực nghiệm (out-of-sample prediction) ở giai đoạn phân tích sâu.

7. Ứng Dụng Quản Trị Doanh Nghiệp (Managerial Implications)

Từ kết quả nghiên cứu chuyên sâu, khi xây dựng các mô hình dự báo kinh doanh thực chiến (như hành vi mua sắm trực tuyến, đo lường sự hài lòng CUSA, dự báo xu hướng thị trường mùa lễ hội), doanh nghiệp không nên tin tưởng tuyệt đối vào một cấu trúc thuật toán duy nhất để rồi chịu rủi ro sập hệ thống.

Thay vào đó, doanh nghiệp nên ứng dụng tư duy suy luận đa mô hình (multimodel inference) bằng cách thiết lập nhiều kịch bản (mô hình) thay thế khác nhau. Sau đó, áp dụng trọng số Akaike để gán tỷ trọng xác suất (dựa trên AIC/BIC) cho từng kịch bản và lấy trung bình dự báo. Điều này giúp các nhà quản trị chiến lược (Manager) loại trừ sự phụ thuộc rủi ro vào các “mẫu giả” (spurious patterns) sinh ra từ sự biến động hoặc nhiễu của tập dữ liệu ngắn hạn mang tính mùa vụ. Kết quả là doanh nghiệp có thể tính toán chính xác hơn chi phí thu hút khách hàng (CAC), giá trị trọn đời (LTV), từ đó ra quyết định đầu tư Marketing và phân bổ ngân sách với sai số (RMSE) được kiểm soát ở mức thấp nhất, đảm bảo dòng tiền được dùng đúng chỗ.

8. Các Câu Hỏi Thường Gặp (FAQ)

Sự không chắc chắn trong lựa chọn mô hình trong PLS-SEM (Model selection uncertainty) là gì?

Là rủi ro chọn sai mô hình cấu trúc do sự khác biệt giữa các điểm số tiêu chí thô (như AIC, BIC) thường rất nhỏ, dễ tạo ra sự tự tin thái quá (false sense of confidence) khi đưa ra kết luận phân tích dữ liệu và tư vấn chiến lược.

Trọng số Akaike (Akaike weights) mang lại lợi ích thực tiễn gì?

Trọng số Akaike chuyển đổi các điểm số thô thành xác suất tương đối (từ 0 đến 1), cho biết chính xác “có bao nhiêu phần trăm bằng chứng” ủng hộ một mô hình thay vì chỉ xếp hạng định tính 1, 2, 3 một cách mơ hồ. Nó là nền tảng toán học cốt lõi để tạo ra các dự đoán trung bình đa mô hình vững chắc.

Nên ưu tiên sử dụng BIC hay AIC trong thực tế phân tích dữ liệu?

Sử dụng BIC (hoặc GM) khi bạn muốn phân tách, từ chối mạnh mẽ các mô hình bị chỉ định sai và ưu tiên tính tinh giản gọn gàng; sử dụng AIC khi mục tiêu cuối cùng là lấy trung bình các dự báo với độ chính xác cao nhất cho tập dữ liệu thực nghiệm mới. Cần linh hoạt kết hợp chứ không nên triệt tiêu lẫn nhau.

9. Tài Liệu Tham Khảo (References)

Aho, K., Derryberry, D., & Peterson, T. (2014). Model selection for ecologists: The worldviews of AIC and BIC. Ecology, 95(3), 631-636.
Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle.
Akaike, H. (1978). A Bayesian analysis of the minimum AIC procedure. Annals of the Institute of Statistical Mathematics, 30(1), 9-14.
Akaike, H. (1979). A Bayesian extension of the minimum AIC procedure of autoregressive model fitting. Biometrika, 66(2), 237-242.
Akaike, H. (1981). Likelihood of a model and information criteria. Journal of Econometrics, 16(1), 3-14.
Ali, F., Rasoolimanesh, S. M., Sarstedt, M., Ringle, C. M., & Ryu, K. (2018). An assessment of the use of partial least squares structural equation modeling (PLS-SEM) in hospitality research.
Anderson, E. W., & Fornell, C. G. (2000). Foundations of the American customer satisfaction index.
Andrews, R. L., & Currim, I. S. (2003). A comparison of segment retention criteria for finite mixture logit models.
Armstrong, J. S. (2001). Combining forecasts. Principles of forecasting.
Bandalos, D. L., & Gagné, P. (2012). Simulation methods in structural equation modeling.
Becker, J.-M., Ringle, C. M., Sarstedt, M., & Völckner, F. (2015). How collinearity affects mixture regression results.
Bozdogan, H. (1987). Model selection and Akaike’s information criterion (AIC).
Bozdogan, H. (1994). Mixture-model cluster analysis using model selection criteria…
Breiman, L. (1996). Heuristics of instability and stabilization in model selection.
Breivik, E., & Thorbjørnsen, H. (2008). Consumer brand relationships: An investigation of two alternative models.
Brown, G., & Yao, X. (2001). On the effectiveness of negative correlation learning.
Burnham, K. P., & Anderson, D. R. (2002). Model selection and multimodel inference.
Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection.
Celeux, G., & Soromenho, G. (1996). An entropy criterion for assessing the number of clusters in a mixture model.
Chica, M., & Rand, W. (2017). Building agent-based decision support systems…
Daryanto, A. (2019). Avoiding spurious moderation effects: An information-theoretic approach.
Dormann, C. F., et al. (2018). Model averaging in ecology: A review…
Geweke, J., & Meese, R. (1981). Estimating regression models of finite but unknown order.
Fornell, C. G., et al. (1996). The American customer satisfaction index: Nature, purpose, and findings.
Hair, J. F., Hollingsworth, C. L., Randolph, A. B., & Chong, A. Y. L. (2017). An updated and expanded assessment of PLS-SEM in information systems research.
Hair, J. F., Hult, G. T. M., Ringle, C. M., & Sarstedt, M. (2017). A primer on partial least squares structural equation modeling (PLS-SEM).
Hair, J. F., et al. (2017). Mirror, mirror on the wall: A comparative evaluation…
Konishi, S., & Kitagawa, G. (2003). Asymptotic theory for information criteria in model selection…
McQuarrie, A. D., & Tsai, C. L. (1998). Regression and time series model selection.
Myung, I. J. (2000). The importance of complexity in model selection.
Nitzl, C. (2016). The use of partial least squares structural equation modelling (PLS-SEM) in management accounting research.
Paxton, P., et al. (2001). Monte Carlo experiments: Design and implementation.
Posada, D., & Buckley, T. R. (2004). Model selection and model averaging in phylogenetics.
Preacher, K. J., & Merkle, E. C. (2012). The problem of model selection uncertainty in structural equation modeling.
Core Team, R. (2019). R: A language and environment for statistical computing.
Raftery, A. E., Madigan, D., & Hoeting, J. A. (1997). Bayesian model averaging for linear regression models.
Ray, S., Danks, N. P., & Velasquez-Estrada, J. M. (2019). seminr: Domain-Specific Language for Building PLS Structural Equation Models.
Reinartz, W. J., Haenlein, M., & Henseler, J. (2009). An empirical comparison of the efficacy of covariance-based and variance-based SEM.
Ringle, C. M., Sarstedt, M., & Schlittgen, R. (2014). Genetic algorithm segmentation in partial least squares structural equation modeling.
Ringle, C. M., Sarstedt, M., Mitchell, R., & Gudergan, S. P. (2020). Partial least squares structural equation modeling in HRM research.
Sarstedt, M., Wilczynski, P., & Melewar, T. C. (2013). Measuring reputation in global markets.
Sarstedt, M., et al. (2016). Estimation issues with PLS and CBSEM: Where the bias lies!
Sarstedt, M., et al. (2019). How to specify, estimate, and validate higher-order constructs in PLS-SEM.
Sarstedt, M., et al. (2020). Beyond a tandem analysis of SEM and PROCESS: Use PLS-SEM for mediation analyses!
Schlittgen, R. (2019). cbsem: Simulation, estimation and segmentation of composite based structural equation models.
Schwaiger, M. (2004). Components and parameters of corporate reputation: An empirical study.
Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics.
Sclove, S. L. (1987). Application of model-selection criteria to some problems in multivariate analysis.
Sharma, P. N., et al. (2018). An empirical and comparative analysis of E-government performance measurement models.
Sharma, P. N., et al. (2019). PLS-based model selection: The role of alternative explanations in Information Systems research.
Sharma, P. N., et al. (2020). Prediction-oriented model selection in partial least squares path modeling.
Shmueli, G., et al. (2019). Predictive model assessment in PLS-SEM: Guidelines for using PLSpredict.
Symonds, M. R., & Moussalli, A. (2011). A brief guide to model selection, multimodel inference and model averaging in behavioural ecology.
Tukey, J. W. (1970). Exploratory data analysis.
Venkatesh, V., et al. (2003). User acceptance of information technology: Toward a unified view.
Vrieze, S. (2012). Model selection and psychological theory: A discussion of the differences between the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC).
Wagenmakers, E. J., & Farrell, S. (2004). AIC model selection using Akaike weights.

10. Tiểu Sử Tác Giả (Author Biographies)

Nicholas P. Danks: Là nghiên cứu sinh tiến sĩ tại Viện Khoa học Dịch vụ thuộc Đại học Quốc gia Thanh Hoa, Đài Loan. Trọng tâm nghiên cứu của ông bao gồm mô hình phương trình cấu trúc, bình phương tối thiểu riêng phần, phương pháp dự đoán và lập trình mô phỏng dữ liệu. Ông đồng thời là đồng tác giả và người bảo trì chính của gói mã nguồn mở SEMinR danh tiếng trên môi trường R.
Pratyush N. Sharma: Là trợ lý giáo sư tại Trường Kinh doanh & Kinh tế Alfred Lerner, Đại học Delaware. Lĩnh vực nghiên cứu của ông chuyên sâu về cộng đồng hợp tác trực tuyến, phát triển phần mềm nguồn mở, tương tác người-máy (HCI) và các phương pháp luận nghiên cứu hệ thống thông tin đặc biệt là mô hình PLS-SEM.
Marko Sarstedt: Là giáo sư chủ nhiệm ngành tiếp thị tại Đại học Otto-von-Guericke Magdeburg (Đức) và Giáo sư thỉnh giảng tại Đại học Monash Malaysia. Nghiên cứu chính của ông là phát triển các phương pháp nghiên cứu và đo lường định lượng nhằm cải thiện ra quyết định quản trị kinh doanh. Ông lọt vào “Danh sách các nhà nghiên cứu được trích dẫn nhiều năm 2019” của Clarivate Analytic và là đồng tác giả của cuốn sách giáo khoa nổi tiếng toàn cầu về PLS-SEM.

11. Kết Luận

Việc lựa chọn mô hình trong PLS-SEM không nên chỉ dừng lại ở việc áp dụng máy móc các chỉ số thông tin thô do rủi ro sai lệch rất nhỏ giữa các mô hình dẫn đến sự tự tin thái quá trong nghiên cứu học thuật. Việc ứng dụng trọng số Akaike (Akaike weights) là công cụ định lượng thực chiến mạnh mẽ nhất giúp các nhà nghiên cứu và quản trị kinh doanh tính toán khả năng tương đối của một tập hợp các mô hình, từ đó tìm ra chân lý sát với thực tế nhất. Bằng cách sử dụng BIC để giảm bớt sự không chắc chắn khi chọn lọc, từ chối mô hình đúng và ứng dụng AIC để cải thiện độ chính xác dự báo trung bình, chất lượng hệ thống phân tích dữ liệu và năng lực ra quyết định quản trị thực tế sẽ mang tính chính xác và tin cậy cao hơn rất nhiều trong dài hạn.

Danks, N. P., Sharma, P. N., & Sarstedt, M. (2020). Model selection uncertainty and multimodel inference in partial least squares structural equation modeling (PLS-SEM). Journal of Business Research, 113, 13-24.

Nguyễn Thanh Phương

Giảng viên Nguyễn Thanh Phương là chuyên gia chuyên sâu về Nghiên cứu khoa học, Ứng dụng AI, Digital Marketing và Quản trị bản thân. Với kinh nghiệm giảng dạy thực chiến, tác giả trực tiếp hướng dẫn ứng dụng phương pháp luận và phân tích dữ liệu chuyên sâu cho người học nên được sinh viên gọi là Thầy giáo quốc dân. Mọi nội dung chia sẻ đều tuân thủ nguyên tắc khách quan, thực chứng và mang giá trị ứng dụng cao, hướng tới mục tiêu cốt lõi: “Làm bạn tốt hơn!