Phương pháp tiếp cận Mô hình phương trình cấu trúc (SEM) với cả Nhân tố và Thành phần – Theo Hwang và cộng sự 2021

Việc mô hình hóa đồng thời cả nhân tố (factor) và thành phần (component) trong Mô hình phương trình cấu trúc (SEM) là một thách thức phức tạp trong nghiên cứu định lượng. Nguyên nhân chính là các phương pháp tiếp cận SEM truyền thống thường chỉ chuyên biệt cho một loại biến (như CSA cho nhân tố, hoặc PLSPM cho thành phần), dẫn đến các sai lệch nghiêm trọng khi ước lượng mối quan hệ chéo. Giải pháp tối ưu và toàn diện nhất hiện nay là Integrated Generalized Structured Component Analysis (IGSCA). Phương pháp này tích hợp thành công các ưu điểm của phân tích thành phần cấu trúc tổng quát (GSCA) và GSCA có kết hợp sai số đo lường (GSCA_M), cho phép ước lượng không chệch các tham số của cả nhân tố và thành phần trong cùng một mô hình duy nhất.

Trong bối cảnh nghiên cứu khoa học dữ liệu và quản trị hiện đại, sự ra đời của IGSCA đóng vai trò như một bước ngoặt, phá vỡ bức tường ngăn cách giữa lý thuyết đo lường truyền thống và mô hình thống kê học máy, cung cấp cho các chuyên gia phân tích một công cụ toàn diện để thẩm định mọi cấu trúc dữ liệu hỗn hợp.

Phương pháp tiếp cận Mô hình phương trình cấu trúc (SEM) với cả Nhân tố và Thành phần – Theo Hwang và cộng sự (2020)

Nội dung bài viết

1. Tổng Quan & Lý Thuyết Nền Tảng (Overview & Theoretical Foundations)

1.1 Thông tin định danh bài báo

Tiêu đề gốc: An approach to structural equation modeling with both factors and components: Integrated generalized structured component analysis
Tiêu đề tiếng Việt: Một cách tiếp cận đối với mô hình phương trình cấu trúc bao gồm cả nhân tố và thành phần: Phân tích thành phần cấu trúc tổng quát tích hợp
Tác giả: Heungsun Hwang, Gyeongcheol Cho, Kwanghee Jung, Carl F. Falk, Jessica Flake, Min Jin Jin, Seung Hwan Lee.
Đơn vị công tác: Đại học McGill (Canada), Đại học Texas Tech (Mỹ), Phòng thí nghiệm Nghiên cứu Cảm xúc và Nhận thức Lâm sàng – Đại học Inje (Hàn Quốc), Đại học Chung-Ang (Hàn Quốc), Bệnh viện Ilsan-Paik – Đại học Inje (Hàn Quốc).
Tạp chí: Psychological Methods (2020).

1.2 Bối cảnh thực tiễn & Khoảng trống nghiên cứu

Khi tâm lý học và nhiều ngành khoa học khác trở nên liên ngành, nhu cầu tích hợp hai biểu diễn thống kê của các khái niệm (nhân tố chung và thành phần) vào cùng một mô hình ngày càng tăng. Ví dụ, các nhà tâm lý học ngày càng quan tâm đến ảnh hưởng của biến dị di truyền hoặc hoạt động não bộ (đại diện bởi các thành phần như gen, vùng não) lên các cấu trúc tâm lý như nhận thức hoặc rối loạn tâm thần (đại diện bởi các nhân tố chung). Sự kết hợp này cũng diễn ra mạnh mẽ trong Quản trị Kinh doanh, khi dữ liệu thứ cấp (objective data) như doanh thu, lượt truy cập (thành phần) được ghép nối với dữ liệu sơ cấp (subjective data) như lòng trung thành, thái độ khách hàng (nhân tố).

Khoảng trống nghiên cứu nằm ở chỗ hai lĩnh vực này phần lớn vẫn loại trừ lẫn nhau, tạo ra rào cản khi cần biểu diễn cả hai trong cùng một mô hình. Các phương pháp SEM dựa trên nhân tố (CSA, PLSc, GSCA_M) sẽ ước lượng thiếu (chệch hướng âm) đối với thành phần. Ngược lại, các phương pháp SEM dựa trên thành phần (PLSPM, GSCA) lại đánh giá thấp hệ số đường dẫn của nhân tố và ước lượng sai hệ số tải của nhân tố. Sự phân mảnh này buộc các nhà nghiên cứu phải thỏa hiệp bằng cách biến đổi sai bản chất của biến số, dẫn đến các sai lầm nghiêm trọng trong việc diễn dịch mối quan hệ nhân quả (causal inference).

1.3 Hệ thống Lý thuyết nền tảng (Theoretical Foundations)

Lý thuyết nền tảng của bài báo xoay quanh việc phân định rạch ròi bản chất đo lường. Đây là bước tiên quyết trước khi chạy bất kỳ mô hình SEM nào:

Mô hình phản ánh (Reflective Model / Common Factor): Biến tiềm ẩn tồn tại độc lập và là nguyên nhân gây ra sự biến thiên của các biến quan sát (effect indicators). Phần dư của các biến quan sát bao gồm sai số đo lường và các yếu tố đặc thù (unique factors). Nếu xóa bỏ một biến quan sát, ý nghĩa khái niệm của biến tiềm ẩn không thay đổi.
Mô hình kết tạo (Composite Model / Component): Biến tiềm ẩn là một hàm tuyến tính tất định (deterministic linear function) được hình thành từ các biến quan sát (composite indicators). Ở mô hình này, các biến quan sát chính là “nguyên liệu” cấu thành nên biến tiềm ẩn. Nếu loại bỏ một biến quan sát, bản chất của khái niệm sẽ bị thay đổi hoàn toàn.

Việc nhận diện sai bản chất của hai mô hình này là nguyên nhân cốt lõi dẫn đến các chỉ số đánh giá độ phù hợp (GoF – Goodness of Fit), hệ số xác định (R²) hay năng lực dự báo chéo (Q²) bị sai lệch, làm giảm tính tin cậy của toàn bộ công trình khoa học.

2. Khái Niệm Hóa và Cấu Trúc Khái Niệm (Conceptualization)

Integrated Generalized Structured Component Analysis (IGSCA) là một phương pháp thống kê tổng quát (general statistical approach) không yêu cầu giả định phân phối chuẩn (distribution-free), cho phép phân tích đồng thời các biến nhân tố (factors) và biến thành phần (components) trong cùng một mô hình cấu trúc. Bằng cách loại bỏ sự phụ thuộc vào phân phối chuẩn đa biến, IGSCA khắc phục được điểm yếu cố hữu của phương pháp Maximum Likelihood (ML) truyền thống khi xử lý dữ liệu bị lệch (skewed data).

Về mặt cấu trúc toán học, IGSCA bao gồm ba mô hình con. (Lưu ý: Các ký hiệu dưới đây được trình bày chuẩn hóa để tương thích hoàn toàn với các phần mềm soạn thảo văn bản):

Mô hình đo lường (Measurement model): Định nghĩa mối quan hệ giữa biến quan sát và biến tiềm ẩn. Phương trình z1 = C1γ1 + ε1 đối với GSCA và z2 = C2γ2 + Du + ε2 đối với GSCA_M. Kết hợp lại, mô hình đo lường IGSCA tổng quát là: z = C*γ + s + ε. Trong đó, C đại diện cho ma trận hệ số tải (loadings), γ đại diện cho biến tiềm ẩn, và ε là sai số đo lường.
Mô hình quan hệ trọng số (Weighted relation model): Thể hiện cách các thành phần hoặc nhân tố được tính toán. Phương trình γ1 = W1z1 và γ2 = W2(z2 – Du). Tổng quát: γ = Wz. Ma trận W chính là các trọng số (weights) chỉ định mức độ đóng góp của từng chỉ báo.
Mô hình cấu trúc (Structural model): Thể hiện mối quan hệ nhân quả (đường dẫn) giữa các biến tiềm ẩn với nhau: γ = B*γ + ζ. Trong đó, B là ma trận hệ số đường dẫn cấu trúc (path coefficients) và ζ là sai số cấu trúc.

3. Quy Trình Phân Tích & Ước Lượng (Estimation Process)

Thay vì sử dụng phương pháp Maximum Likelihood (ML) đòi hỏi phân phối chuẩn đa biến, Integrated Generalized Structured Component Analysis (IGSCA) tích hợp các mô hình con thành một công thức duy nhất: Ψ = A*γ + v + e. Phương pháp này ước lượng tham số bằng cách giảm thiểu tiêu chí bình phương tối thiểu Φ = Σ(e_i’ * e_i) mà không cần giả định phân phối dữ liệu. Sự ưu việt của thuật toán bình phương tối thiểu xen kẽ (Alternating Least Squares) giúp IGSCA hội tụ dữ liệu cực kỳ nhanh chóng và ngăn chặn triệt để tình trạng ma trận hiệp phương sai không xác định định (non-positive definite matrices).

Do đó, nó sử dụng phương pháp Bootstrap (lấy mẫu lại không tham số) để tính toán sai số chuẩn (Standard Errors) và khoảng tin cậy (Confidence Intervals) nhằm kiểm định ý nghĩa thống kê của các hệ số. Bằng cách lặp lại quá trình rút trích ngẫu nhiên hàng ngàn mẫu phụ từ bộ dữ liệu gốc (thường là từ 500 đến 5000 subsamples), mô hình cung cấp các giá trị t-value và p-value cực kỳ chính xác cho cả quy mô mẫu lớn và nhỏ.

4. Đánh Giá Hiệu Suất Qua Các Nghiên Cứu Mô Phỏng (Simulation Studies)

Để chứng minh tính hợp lý và sự vượt trội tuyệt đối của Integrated Generalized Structured Component Analysis (IGSCA), nhóm tác giả đã thiết lập hai nghiên cứu mô phỏng khoa học Monte Carlo cực kỳ chặt chẽ.

4.1 Nghiên cứu mô phỏng 1: Khẳng định tính ưu việt của IGSCA

Sử dụng một mô hình dữ liệu gồm 2 thành phần ngoại sinh và 1 nhân tố nội sinh. Kết quả thực nghiệm xác nhận một thực tế mang tính cảnh báo cho giới học thuật:

CSA và GSCA_M: Ước lượng quá cao (positively biased) các hệ số đường dẫn kết nối giữa thành phần và nhân tố. Hiện tượng này tạo ra các kết luận “ảo” về ý nghĩa thống kê.
PLSPM và GSCA: Ước lượng quá thấp (negatively biased) các hệ số đường dẫn này. Việc này dẫn đến rủi ro bác bỏ sai lầm các giả thuyết nghiên cứu (Type II error).
Kết luận: Chỉ có phương pháp bình phương tối thiểu riêng phần nhất quán (PLSc) và IGSCA mang lại ước lượng không chệch cho tất cả hệ số tải và hệ số đường dẫn.

4.2 Nghiên cứu mô phỏng 2: So sánh chuyên sâu giữa IGSCA và PLSc

Nghiên cứu cấu trúc phức tạp hơn với 3 nhân tố và 3 thành phần. Các yếu tố thực nghiệm được tinh chỉnh gồm: số lượng chỉ báo, độ tương quan, kích thước mẫu và đặc tả mô hình (đúng, thiếu tham số, thừa tham số).

Độ chính xác: IGSCA thể hiện hiệu suất phục hồi tham số tốt hơn PLSc, đặc biệt là các hệ số tải (Sai số tuyệt đối trung bình – MAE luôn nhỏ hơn). Chỉ số MAE thấp hơn chứng tỏ khả năng bám sát giá trị thực tế của quần thể (population values).
Tính ổn định: PLSc gặp vấn đề nghiêm trọng với các giải pháp không hợp lệ (improper solutions) trong tất cả các điều kiện, trong khi IGSCA không hề gặp phải vấn đề này. “Giải pháp không hợp lệ” (như phương sai âm – Heywood cases) là cơn ác mộng của các nhà nghiên cứu vì nó khiến phần mềm không thể xuất ra kết quả phân tích cuối cùng.

5. Thang Đo Lường Chính Thức (Measurement Scale)

Trong bài báo gốc, nhóm tác giả đã ứng dụng IGSCA vào một nghiên cứu thực chứng với quy mô mẫu là 231 người Hàn Quốc: Đo lường mức độ tác động của 9 Gen (đóng vai trò là Thành phần – Components) lên Chứng Trầm Cảm (đóng vai trò là Nhân tố – Factor). Nghiên cứu này minh chứng rõ nét khả năng tích hợp dữ liệu sinh trắc học với thang đo tâm lý học hành vi.

Dưới đây là bảng trích xuất các biến quan sát được sử dụng làm cơ sở đo lường:

A. Thang đo Trầm cảm (Depression) – Cấu trúc Nhân tố (Factor) Được đo bằng thang đo HADS-D (Hospital Anxiety Depression Scale), sử dụng Likert scale (Thang đo 5 đến 7 điểm).

z1: HADS2 (Item 2)
z2: HADS4 (Item 4)
z3: HADS6 (Item 6)
z4: HADS8 (Item 8)
z5: HADS10 (Item 10)
z6: HADS12 (Item 12)
z7: HADS14 (Item 14)

B. Thang đo Gen – Cấu trúc Thành phần (Components) Mỗi gen được định nghĩa là một biến thành phần được hình thành bởi các dạng đa hình nucleotide đơn (SNPs – Composite Indicators). Loại dữ liệu này mang tính cộng gộp (formative nature), không yêu cầu các chỉ báo phải có tương quan nội bộ cao (high internal consistency).

Gen SLC6A4: z8 = rs25531
Gen FKBP5: z9 = rs9296158; z10 = rs3800373; z11 = rs1360780; z12 = rs9470080
Gen ADCYAP1R1: z13 = rs4713916; z14 = rs4713919; z15 = rs6902321; z16 = rs56311918; z17 = rs3798345
Gen BDNF: z19 = rs6265
Gen COMT: z20 = rs4680; z21 = rs4633

6. Mạng Lưới Quan Hệ Lý Thuyết (Nomological Network)

Mạng lưới quan hệ lý thuyết (Nomological Network) là khung xương đánh giá tính hợp lệ cấu trúc (construct validity) của toàn bộ mô hình. Dựa trên kết quả chạy mô hình IGSCA trong nghiên cứu ứng dụng:

Tiền tố (Antecedents – Components): Các biến Gen đóng vai trò là các yếu tố dự báo đầu vào, tồn tại độc lập với bối cảnh nhận thức.
Hậu tố (Consequences – Factor): Mức độ nghiêm trọng của hội chứng trầm cảm (Depression Severity) được đo lường dưới dạng biến hệ quả tâm lý.
Biến kiểm soát (Covariates): Giới tính (Gender), Tuổi (Age), và Chỉ số lạm dụng rượu (AUDIT). Việc đưa biến kiểm soát vào mô hình giúp loại trừ các can nhiễu ngoại lai, đảm bảo mối quan hệ nhân quả (causality) đo được là tinh khiết nhất.

Kết quả IGSCA xác nhận gen thụ thể polypeptide kích hoạt adenylate cyclase tuyến yên loại I (ADCYAP1R1) có tác động dương và có ý nghĩa thống kê đến bệnh trầm cảm (b3 = 0.18, 95% CI = [0.03, 0.30]). Điều này cho thấy người mang alen đột biến ở gen này có thể trải qua mức độ trầm cảm nặng hơn, nhất quán với các tài liệu y sinh học trước đây.

7. Thảo Luận Mở Rộng: Tác Động Của Việc Chỉ Định Sai Mô Hình (Phụ lục 1)

Việc hiểu sai bản chất của biến (nhầm lẫn giữa Thành phần và Nhân tố) dẫn đến sai số hệ thống nghiêm trọng. Điều này thường xảy ra khi nghiên cứu sinh sử dụng mặc định các công cụ phân tích mà bỏ qua bước đánh giá lý thuyết nền tảng. Bài báo đã chứng minh toán học điều này (Appendix 1):

Trường hợp 1: Khi thành phần trong mô hình thực tế bị chỉ định sai thành nhân tố (Áp dụng CSA, PLSc, GSCA_M), hệ số tương quan cấu trúc β có xu hướng bị ước lượng quá cao (tỷ lệ β_f / β > 1). Lỗi phóng đại (inflation bias) này khiến nhà nghiên cứu nghĩ rằng tác động mạnh hơn bản chất thực tế.
Trường hợp 2: Khi nhân tố trong mô hình thực tế bị chỉ định sai thành thành phần (Áp dụng PLSPM hoặc GSCA), hệ số tương quan cấu trúc β có xu hướng bị ước lượng quá thấp (tỷ lệ β_c / β < 1). Lỗi suy giảm (attenuation bias) này che mờ các phát kiến khoa học giá trị.

Điều này một lần nữa khẳng định, nhà nghiên cứu bắt buộc phải sử dụng Integrated Generalized Structured Component Analysis (IGSCA) cho các mô hình hỗn hợp để đảm bảo tính chính xác và bảo vệ tính toàn vẹn của nền tảng lý thuyết học thuật.

8. Thuật Toán Tạo Dữ Liệu Mô Phỏng (Phụ lục 2)

Dành cho các nhà nghiên cứu định lượng muốn tái tạo lại mô phỏng: Dữ liệu được tạo lập dựa trên phương trình ma trận cấu trúc gồm hiệp phương sai, trọng số và các thuật toán hồi quy mô phỏng (cụ thể từ phương trình A2.1 đến A2.4). Thuật toán Monte Carlo đã được tinh chỉnh để thiết lập 1000 mẫu ngẫu nhiên cho từng kích thước thông qua phân phối chuẩn đa biến với giá trị trung bình bằng 0. Quy trình kiểm soát hạt giống ngẫu nhiên (random seed) chặt chẽ này giúp triệt tiêu nhiễu động (noise), đảm bảo mọi kết quả được đánh giá trong môi trường tinh khiết nhất.

9. Hướng Dẫn Ứng Dụng Nghiên Cứu (Academic Implications)

Dưới góc độ người hướng dẫn nghiên cứu, nếu mô hình nghiên cứu của bạn có sự xuất hiện của biến thành phần (Composite/Formative) kết hợp với biến nhân tố (Common Factor/Reflective), tuyệt đối không sử dụng phương pháp CSA truyền thống (thường thấy trên AMOS/LISREL) hoặc PLSPM truyền thống (như trên SmartPLS) vì sẽ gây sai số nghiêm trọng ở các hệ số đường dẫn chéo.

Cách tiếp cận khoa học dành cho Nghiên cứu sinh:

Rà soát lại lý thuyết nền tảng của từng khái niệm (Construct) để xác định rõ nó là Nhân tố (đo bằng thang đo phản ánh Likert) hay Thành phần (được hình thành cộng gộp từ các chỉ báo). Hãy dựa vào tiêu chí: Việc bỏ một chỉ báo có làm hỏng khái niệm đó hay không.
Tích hợp và cài đặt các phần mềm hoặc gói R (R-packages) chuyên dụng hỗ trợ Integrated Generalized Structured Component Analysis (IGSCA).
Không cần bận tâm về kiểm định phân phối chuẩn do phương pháp này là non-parametric (không tham số), giúp tiết kiệm thời gian xử lý outliers (giá trị ngoại lai). Thay vào đó, tập trung chạy Bootstrap ít nhất 1000 lần để đọc giá trị p-value chính xác.

10. Ứng Dụng Quản Trị Doanh Nghiệp (Managerial Implications)

Trong bối cảnh Marketing và Quản trị Kinh doanh, phương pháp Integrated Generalized Structured Component Analysis (IGSCA) là một công cụ phân tích dữ liệu đắc lực, giải quyết trọn vẹn bài toán đo lường hiệu suất kết hợp thái độ của khách hàng.

Ví dụ, khi Marketer muốn chạy mô hình đánh giá “Trải nghiệm khách hàng” (Customer Experience):

Biến Thành phần (Components): Các nỗ lực Marketing tổng hợp (Số tiền chi cho Ads, Số lượng bài PR, Mức độ phủ sóng điểm bán). Đây là các biến độc lập định hình nỗ lực của doanh nghiệp, chúng kết tạo nên một ngân sách Marketing tổng thể.
Biến Nhân tố (Factors): Lòng trung thành thương hiệu, Nhận thức thương hiệu (đo lường bằng cảm nhận của khách hàng qua bảng hỏi đánh giá từ 1 đến 5 sao).

Sử dụng IGSCA giúp doanh nghiệp ước lượng chính xác từng đồng chi phí marketing (biến thành phần) đã tác động chân thực như thế nào đến tâm lý khách hàng (biến nhân tố), tránh việc hệ thống tính toán sai lệch, từ đó tối ưu hóa ngân sách tiếp thị (ROI – Return on Investment). Điều này mang lại lợi thế cạnh tranh cốt lõi (core competency) khi lập kế hoạch chiến lược phân bổ nguồn lực.

11. Hạn Chế Của Phương Pháp & Hướng Nghiên Cứu Tương Lai (Limitations & Future Research)

Như mọi mô hình khoa học, Integrated Generalized Structured Component Analysis (IGSCA) vẫn tồn tại những giới hạn nhất định mà các nhà nghiên cứu cần lưu ý để tránh hiện tượng ngụy biện dữ liệu (data fallacy):

Thiếu chỉ số độ phù hợp tổng thể: Hiện tại, IGSCA chưa cung cấp một chỉ số thống kê (như kiểm định Chi-square trong CSA, hay SRMR tuyệt đối) để đánh giá sự phù hợp tổng thể (overall goodness-of-fit) của mô hình so với dữ liệu. Người dùng buộc phải dựa vào các chỉ số độ phù hợp cục bộ (local fit).
Hạn chế với dữ liệu động (Dynamic Data): IGSCA hiện tại không thể giải thích bản chất động của dữ liệu có tương quan theo chuỗi thời gian (temporally correlated data), điều rất phổ biến trong nghiên cứu kết nối não bộ, y sinh học hoặc phân tích chuỗi thời gian tài chính.
Các vấn đề về Dữ liệu khuyết và Đa cộng tuyến: Phương pháp này chưa tích hợp các thuật toán học máy (như elastic net, ridge, lasso regularization) để giải quyết triệt để vấn đề đa cộng tuyến hay lựa chọn biến tối ưu trong mô hình cực lớn (high-dimensional data). Đồng thời, cần phát triển thêm các thuật toán để xử lý dữ liệu khuyết thay vì chỉ dùng phương pháp xóa bỏ listwise truyền thống làm mất mát thông tin.

Các nghiên cứu tương lai nên tập trung vào việc khắc phục những điểm này, đồng thời phát triển các phần mềm mã nguồn mở (ví dụ: gói R) để mở rộng tính phổ biến của công cụ tới đa dạng cộng đồng sinh viên quốc tế.

12. Các Câu Hỏi Thường Gặp (FAQ)

Sự khác biệt lớn nhất giữa IGSCA và PLSc (Consistent PLS) là gì?

Sự khác biệt lớn nhất nằm ở giả định thiết kế (basic design). Trong khi PLSc yêu cầu cấu trúc mô hình phải rất khắt khe (mỗi chỉ báo chỉ tải lên một nhân tố duy nhất – no cross-loadings allowed), thì Integrated Generalized Structured Component Analysis (IGSCA) ước lượng tất cả các tham số đồng thời thông qua một tiêu chí bình phương tối thiểu duy nhất mà không bị ràng buộc bởi giả định này, đồng thời tránh được tình trạng nghiệm sai (improper solutions) gây gián đoạn quy trình phân tích.

Khi sử dụng IGSCA, tôi có cần quan tâm đến phân phối chuẩn của dữ liệu không?

Không. IGSCA là một phương pháp phi tham số (distribution-free approach). Nó sử dụng thuật toán Bootstrap thay vì giả định Maximum Likelihood (ML) chuẩn hóa, rất phù hợp với dữ liệu nghiên cứu thực tế thường không phân phối chuẩn (non-normal distribution). Đặc tính này cho phép nó xử lý trơn tru dữ liệu khảo sát bị lệch trái hoặc lệch phải.

Phương pháp nào tốt nhất để kiểm tra xem một cấu trúc nên là nhân tố hay thành phần?

Nếu thiếu nền tảng lý thuyết vững chắc, nhà nghiên cứu có thể áp dụng phân tích bộ tứ xác nhận (confirmatory tetrad analysis – CTA) để kiểm tra ý nghĩa thống kê, nhằm đánh giá xem cấu trúc dữ liệu thực tế phù hợp với mô hình nhân tố hay thành phần hơn trước khi đưa vào mô hình IGSCA để xử lý toàn diện.

13. Danh mục Tài liệu Tham khảo (References)

(Để đảm bảo tính chính xác học thuật cao nhất, danh sách tác giả và bài báo gốc được giữ nguyên định dạng chuẩn APA).

Åberg, E., Fandiño-Losada, A., Sjöholm, L. K., Forsell, Y., & Lavebratt, C. (2011). The functional Val158Met polymorphism in catechol-O- methyltransferase (COMT) is associated with depression and motivation in men from a Swedish population-based study. Journal of Affective Disorders, 129(1-3), 158-166.
Anderson, J. C., & Gerbing, D. W. (1984). The effect of sampling error on convergence, improper solutions, and goodness-of-fit indices for maximum likelihood confirmatory factor analysis. Psychometrika, 49(2), 155-173.
Aragam, N., Wang, K. S., & Pan, Y. (2011). Genome-wide association analysis of gender differences in major depressive disorder in the Netherlands NESDA and NTR population-based samples. Journal of Affective Disorders, 133(3), 516-521.
Asparouhov, T., & Muthén, B. (2009). Exploratory structural equation modeling. Structural Equation Modeling: A Multidisciplinary Journal, 16(3), 397-438.
Bandalos, D. L., & Gagné, P. (2012). Simulation methods in structural equation modeling. In R. H. Hoyle (Ed.), Handbook of structural equation modeling. (pp. 92-108). New York, NY: Guilford Press.
Bauer, D. J. (2005). The role of nonlinear factor-to-indicator relationships in tests of measurement equivalence. Psychological Methods, 10(3), 305.
Baumann, K., Albert, H., & von Korff, M. (2002). A systematic evaluation of the benefits and hazards of variable selection in latent variable regression. Part I. Search algorithm, theory and simulations. Journal of Chemometrics, 16(7), 339-350.
Birnbaum, R., & Weinberger, D. R. (2013). Functional neuroimaging and schizophrenia: A view towards effective connectivity modeling and polygenic risk. Dialogues in Clinical Neuroscience, 15(3), 279-289.
Boden, J. M., & Fergusson, D. M. (2011). Alcohol and depression. Addiction, 106(5), 906-914.
Bollen, K. A. (1989). Structural equations with latent variables. New York, NY: Wiley.
Bollen, K. A., & Bauldry, S. (2011). Three Cs in measurement models: Causal indicators, composite indicators, and covariates. Psychological Methods, 16(3), 265-284.
Bollen, K. A., & Diamantopoulos, A. (2017). In defense of causal-formative indicators: A minority report. Psychological Methods, 22(3), 581-596.
Bollen, K. A., Kirby, J. B., Curran, P. J., Paxton, P. M., & Chen, F. (2007). Latent variable models under misspecification two-stage least squares (2SLS) and maximum likelihood (ML) estimators. Sociological Methods and Research, 36(1), 48-86.
Bollen, K. A., & Ting, K. (1993). Confirmatory tetrad analysis. In P. Marsden (Ed.), Sociological methodology 1993 (pp. 147-175). Washington, DC: American Sociological Association.
Bollen, K. A., & Ting, K. (2000). A tetrad test for causal indicators. Psychological Methods, 5(1), 3-22.
Bookheimer, S. Y., et al. (2000). Patterns of brain activation in people at risk for Alzheimer’s disease. New England Journal of Medicine, 343(7), 450-456.
Boomsma, A. (1982). The robustness of LISREL against small sample sizes in factor analysis models. In K. G. Jöreskog & H. Wold (Eds.), Systems under indirect observation: causality, structure, prediction (Part 1, pp. 149-173). Amsterdam, Netherlands: North Holland.
Boomsma, Anne. (1985). Nonconvergence, improper solutions, and starting values in lisrel maximum likelihood estimation. Psychometrika, 50(2), 229-242.
Borsboom, D., Mellenbergh, G. J., & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061-1071.
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105.
Chen, F., Bollen, K. A., Paxton, P., Curran, P. J., & Kirby, J. B. (2001). Improper solutions in structural equation models: Causes, consequences, and strategies. Sociological Methods & Research, 29(4), 468-508.
Cho, G., & Choi, J. Y. (2020). An empirical comparison of generalized structured component analysis and partial least squares path modeling under variance-based structural equation models. Behaviormetrika, 47(1), 243-272.
Cho, G., Jung, K., & Hwang, H. (2019). Out-of-bag prediction error: A cross validation index for generalized structured component analysis. Multivariate Behavioral Research, 1-9.
Cribbie, R. A. (2000). Evaluating the importance of individual parameters in structural equation modeling: The need for type I error control. Personality and Individual Differences, 29(3), 567-577.
Danzo, S., Connell, A. M., & Stormshak, E. A. (2017). Associations between alcohol-use and depression symptoms in adolescence: Examining gender differences and pathways over time. Journal of Adolescence, 56, 64-74.
DeSarbo, W. S., & Cron, W. L. (1988). A maximum likelihood methodology for clusterwise linear regression. Journal of Classification, 5(2), 249-282.
Diamantopoulos, A., & Winklhofer, H. M. (2001). Index construction with formative indicators: An alternative to scale development. Journal of Marketing Research, 38(2), 269-277.
Dijkstra, T. K. (2010). Latent variables and indices: Herman Wold’s basic design and partial least squares. In V. Esposito Vinzi, W. W. Chin, J. Henseler, & H. Wang (Eds.), Handbook of Partial Least Squares: Concepts, Methods and Applications (pp. 23-46). Berlin, Heidelberg: Springer.
Dijkstra, T. K., & Henseler, J. (2015a). Consistent and asymptotically normal PLS estimators for linear structural equations. Computational Statistics and Data Analysis, 81, 10-23.
Dijkstra, T. K., & Henseler, J. (2015b). Consistent partial least squares path modeling. MIS Quarterly, 39(2), 297-316.
Duncan, T. E., Duncan, S. C., & Strycker, L. A. (2006). An introduction to latent variable growth curve modeling: Concepts, issues, and applications (2nd ed.). Mahwah, NJ: Erlbaum.
Durazzo, T. C., et al. (2011). Cortical thickness, surface area, and volume of the brain reward system in alcohol dependence: Relationships to relapse and extended abstinence. Alcoholism: Clinical and Experimental Research, 35(6), 1187-1200.
Edwards, A. C., et al. (2014). The association between depressive symptoms from early to late adolescence and later use and harmful use of alcohol. European Child & Adolescent Psychiatry, 23(12), 1219-1230.
Edwards, J. R., & Bagozzi, R. P. (2000). On the nature and direction of relationships between constructs and measures. Psychological Methods, 5(2), 155-174.
Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7(1), 1-26.
Efron, B. (1982). The jackknife, the bootstrap and other resampling plans. Society for Industrial and Applied Mathematics.
Fleming, C. B., Mason, W. A., Mazza, J. J., Abbott, R. D., & Catalano, R. F. (2008). Latent growth modeling of the relationship between depressive symptoms and substance use during adolescence. Psychology of Addictive Behaviors, 22(2), 186-197.
Flora, D. B. (2018). Statistical methods for the social and behavioral sciences. A model-based approach. Thousand Oaks, CA: Sage.
Friston, K. J. (1994). Functional and effective connectivity in neuroimaging: A synthesis. Human Brain Mapping, 2(1-2), 56-78.
Gałecka, E., et al. (2013). Single nucleotide polymorphisms of NR3C1 gene and recurrent depressive disorder in population of Poland. Molecular Biology Reports, 40(2), 1693-1699.
Gatt, J. M., et al. (2010). Impact of the HTR3A gene with early life trauma on emotional brain networks and depressed mood. Depression and Anxiety, 27(8), 752-759.
Grace, J. B., & Bollen, K. A. (2008). Representing general theoretical concepts in structural equation models: The role of composite variables. Environmental and Ecological Statistics, 15(2), 191-213.
Hair, J. F., Pieper, T. M., & Ringle, C. M. (2012). The use of partial least squares structural equation modeling in strategic management research: A review of past practices and recommendations for future applications. Long Range Planning, 45(5-6), 320-340.
Hariri, A. R., & Weinberger, D. R. (2003). Functional neuroimaging of genetic variation in serotonergic neurotransmission. Genes, Brain and Behavior, 2(6), 341-349.
Hashimoto, H., Shintani, N., & Baba, A. (2006). New insights into the central PACAPergic system from the phenotypes in PACAP- and PACAP receptor-knockout mice. Annals of the New York Academy of Sciences, 1070(1), 75-89.
Henseler, J., et al. (2014). Common beliefs and reality about PLS: Comments on Rönkkö and Evermann (2013). Organizational Research Methods, 17(2), 182-209.
Henseler, J., Hubona, G., & Ray, P. A. (2016). Using PLS path modeling in new technology research: Updated guidelines. Industrial Management and Data Systems, 116(1), 2-20.
Holmes, A. J., Bogdan, R., & Pizzagalli, D. A. (2010). Serotonin transporter genotype and action monitoring dysfunction: A possible substrate underlying increased vulnerability to depression. Neuropsychopharmacology, 35(5), 1186–1197.
Holzinger, K. J., & Swineford, F. (1937). The Bi-factor method. Psychometrika, 2(1), 41-54.
Howell, R. D., Breivik, E., & Wilcox, J. B. (2007). Reconsidering formative measurement. Psychological Methods, 12(2), 205-218.
Hwang, H., Malhotra, N. K., Kim, Y., Tomiuk, M. A., & Hong, S. (2010). A comparative study on parameter recovery of three approaches to structural equation modeling. Journal of Marketing Research, 47(4), 699-712.
Hwang, H., & Takane, Y. (2004). Generalized structured component analysis. Psychometrika, 69(1), 81-99.
Hwang, H., & Takane, Y. (2014). Generalized structured component analysis: A component-based approach to structural equation modeling. New York, NY: Chapman and Hall/CRC Press.
Hwang, H., Takane, Y., & Jung, K. (2017). Generalized structured component analysis with uniqueness terms for accommodating measurement error. Frontiers in Psychology, 8, 2137.
Jarvis, C. B., MacKenzie, S. B., & Podsakoff, P. M. (2003). A critical review of construct indicators and measurement model misspecification in marketing and consumer research. Journal of Consumer Research, 30(2), 199-218.
Jedidi, K., Jagpal, H. S., & DeSarbo, W. S. (1997). Finite-mixture structural equation models for response-based segmentation and unobserved heterogeneity. Marketing Science, 16(1), 39-59.
Jöreskog, K. G. (1970). Estimation and testing of simplex models. British Journal of Mathematical and Statistical Psychology, 23(2), 121-145.
Jöreskog, K. G. (1978). Structural analysis of covariance and correlation matrices. Psychometrika, 43(4), 443-477.
Jöreskog, K. G., & Wold, H. (1982). The ML and PLS techniques for modeling with latent variables: Historical and comparative aspects. In H. Wold & K. G. Jöreskog (Eds.), Systems under indirect observation: Causality, structure, prediction, part I (pp. 263-270). Amsterdam, Netherlands: North Holland.
Jung, K., Takane, Y., Hwang, H., & Woodward, T. S. (2012). Dynamic GSCA (Generalized Structured Component Analysis) with applications to the analysis of effective connectivity in functional neuroimaging data. Psychometrika, 77(4), 827-848.
Jung, K., Takane, Y., Hwang, H., & Woodward, T. S. (2016). Multilevel dynamic generalized structured component analysis for brain connectivity analysis in functional neuroimaging data. Psychometrika, 81(2), 565-581.
Kessler, R. C., et al. (2010). Age differences in major depression: Results from the national comorbidity survey replication (NCS-R). Psychological Medicine, 40(2), 225-237.
Kiers, H. A. L., Takane, Y., & ten Berge, J. M. F. (1996). The analysis of multitrait-multimethod matrices via constrained components analysis. Psychometrika, 61(4), 601-628.
Kim, G., Shin, B., & Grover, V. (2010). Research note: Investigating two contradictory views of formative measurement in information systems research. MIS Quarterly, 34(2), 345-365.
Lee, B. O., Lee, C. H., Lee, P. G., Choi, M. J., & Namkoong, K. (2000). Development of Korean version of alcohol use disorder identification test (AUDIT-K): Its reliability and validity. Journal of Korean Academy for Addiction Psychiatry, 4(2), 85-94.
Lee, S., et al. (2016). Pathway-based approach using hierarchical components of collapsed rare variants. Bioinformatics, 32(17), i586-1594.
Lehmann, M. L., et al. (2013). PACAP-deficient mice show attenuated corticosterone secretion and fail to develop depressive behavior during chronic social defeat stress. Psychoneuroendocrinology, 38(5), 702-715.
Lei, P.-W., & Wu, Q. (2012). Estimation in structural equation modeling. In R. H. Holye (Ed.), Handbook of structural equation modeling. (pp. 164-180). New York, NY: Guilford Press.
Lohmöller, J. B. (1989). Latent variable path modeling with partial least squares. New York, NY: Springer-Verlag.
Lowe, S. R., et al. (2015). Gene-by-social-environment interaction (GxSE) between ADCYAPIR1 genotype and neighborhood crime predicts major depression symptoms in trauma-exposed women. Journal of Affective Disorders, 187, 147-150.
MacCallum, R. C., & Austin, J. T. (2000). Applications of structural equation modeling in psychological research. Annual Review of Psychology, 51(1), 201-226.
MacCallum, R. C., & Browne, M. W. (1993). The use of causal indicators in covariance structure models: Some practical issues. Psychological Bulletin, 114(3), 533-541.
MacCallum, R. C., Roznowski, M., & Necowitz, L. B. (1992). Model modifications in covariance structure analysis: The problem of capitalization on chance. Psychological Bulletin, 111(3), 490-504.
Maydeu-Olivares, A., & Coffman, D. L. (2006). Random intercept item factor analysis. Psychological Methods, 11(4), 344-362.
McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ: Erlbaum.
McQuaid, R. J., et al. (2013). A paradoxical association of an oxytocin receptor gene polymorphism: Early-life adversity and vulnerability to depression. Frontiers in Neuroscience, 7, 128.
Meredith, W., & Tisak, J. (1990). Latent curve analysis. Psychometrika, 55(1), 107-122.
Miettunen, J., et al. (2014). Longitudinal associations between childhood and adulthood externalizing and internalizing psychopathology and adolescent substance use. Psychological Medicine, 44(8), 1727-1738.
Moffitt, T. E. (1993). Adolescence-limited and life-course-persistent antisocial behavior: A developmental taxonomy. Psychological Review, 100(4), 674-701.
Mooijaart, A., & Bentler, P. M. (1986). Random polynomial factor analysis. In E. Diday, et al. (Eds.), Data analysis and informatics, IV. Amsterdam, Netherlands: Elsevier.
Mulaik, S. (2010). Foundations of factor analysis. (2nd ed.). New York: Chapman and Hall/CRC Press.
Muthén, B. O. (1989). Factor structure in groups selected on observed scores. British Journal of Mathematical and Statistical Psychology, 42(1), 81-90.
Nolen-Hoeksema, S. (2004). Gender differences in risk factors and consequences for alcohol use and problems. Clinical Psychology Review, 24(8), 981-1010.
Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). New York, NY: McGraw-Hill.
Oh, S. M., Min, K. J., & Park, D. B. (1999). A study on the standardization of the hospital anxiety and depression scale for Koreans. Journal of Korean Neuropsychiatric Association, 38(2), 289-296.
Patten, S. B., et al. (2016). The association between major depression prevalence and sex becomes weaker with age. Social Psychiatry and Psychiatric Epidemiology, 51(2), 203-210.
Paxton, P., Curran, P. J., Bollen, K. A., Kirby, J., & Chen, F. (2001). Monte Carlo experiments: Design and implementation. Structural Equation Modeling, 8(2), 287-312.
Peper, J. S., et al. (2007). Genetic influences on human brain structure: A review of brain imaging studies in twins. Human Brain Mapping, 28(6), 464-473.
Piccinelli, M., & Wilkinson, G. (2000). Gender differences in depression: Critical review. British Journal of Psychiatry, 177(06), 486-492.
Rasetti, R., & Weinberger, D. R. (2011). Intermediate phenotypes in psychiatric disorders. Current Opinion in Genetics & Development, 21(3), 340-348.
Rhemtulla, M., van Bork, R., & Borsboom, D. (2020). Worse than measurement error: Consequences of inappropriate latent variable measurement models. Psychological Methods, 25(1), 30-45.
Rigdon, E. E. (2012). Rethinking partial least squares path modeling: In praise of simple methods. Long Range Planning, 45(5-6), 341-358.
Rigdon, E. E., Sarstedt, M., & Ringle, C. M. (2017). On comparing results from CB-SEM and PLS-SEM: Five perspectives and five recommendations. Marketing ZFP, 39(3), 4-16.
Ringle, C. M., Sarstedt, M., & Straub, D. W. (2012). Editor’s comments: A critical look at the use of PLS-SEM in “MIS Quarterly.” MIS Quarterly, 36, iii-xiv.
Roman, C. W., et al. (2014). PAC1 receptor antagonism in the bed nucleus of the stria terminalis (BNST) attenuates the endocrine and behavioral consequences of chronic stress. Psychoneuroendocrinology, 47, 151-165.
Romdhani, H., et al. (2015). Pathway-based association study of multiple candidate genes and multiple traits using structural equation models. Genetic Epidemiology, 39(2), 101-113.
Rosseel, Y. (2012). lavaan: An R package for structural equation modeling. Journal of Statistical Software, 48(2), 1-36.
Salat, D. H., et al. (2004). Thinning of the cerebral cortex in aging. Cerebral Cortex, 14(7), 721-730.
Sarstedt, M., et al. (2016). Estimation issues with PLS and CBSEM: Where the bias lies! Journal of Business Research, 69(10), 3998-4010.
Schuberth, F., Henseler, J., & Dijkstra, T. K. (2018). Confirmatory composite analysis. Frontiers in Psychology, 9, 2541.
Sen, S., et al. (2003). A BDNF coding variant is associated with the NEO personality inventory domain neuroticism, a risk factor for depression. Neuropsychopharmacology, 28(2), 397-401.
Sowell, E. R., et al. (2007). Sex differences in cortical thickness mapped in 176 healthy individuals between 7 and 87 years of age. Cerebral Cortex, 17(7), 1550-1560.
ten Berge, J. M. F. (1993). Least squares optimization in multivariate analysis. Leiden, Netherlands: DSWO Press.
Tenenhaus, M. (2008). Component-based structural equation modelling. Total Quality Management and Business Excellence, 19(7-8), 871-886.
Tenenhaus, M., Esposito Vinzi, V., Chatelin, Y.-M., & Lauro, C. (2005). PLS path modeling. Computational Statistics & Data Analysis, 48(1), 159-205.
Treiblmaier, H., Bentler, P. M., & Mair, P. (2011). Formative constructs implemented via common factors. Structural Equation Modeling, 18(1), 1-17.
Vaske, J., et al. (2009). The interaction of DRD2 and violent victimization on depression: An analysis by gender and race. Journal of Affective Disorders, 112(1-3), 120-125.
Velicer, W. F., & Jackson, D. N. (1990). Component analysis versus common factor analysis: some further observations. Multivariate Behavioral Research, 25(1), 97-114.
Wang, K., Li, M., & Hakonarson, H. (2010). ANNOVAR: Functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Research, 38(16), e164-e164.
Wold, H. (1966). Estimation of principal components and related models by iterative least squares. In P. R. Krishnajah (Ed.), Multivariate analysis (pp. 391-420). New York, NY: Academic Press.
Wold, H. (1973). Nonlinear iterative partial least squares (NIPALS) Modelling: Some current developments. In P. R. Krishnaiah (Ed.), Multivariate analysis-III (pp. 383-407). New York, NY: Academic Press.
Wold, H. (1982). Soft modeling: The basic design and some extensions. In K. G. Jöreskog & H. Wold (Eds.), Systems under indirect observation: Causality, structure, prediction, part II (pp. 1-54). Amsterdam, Netherlands: North Holland.
Zobel, A., et al. (2010). DNA sequence variants of the FKBP5 gene are associated with unipolar depression. International Journal of Neuropsychopharmacology, 13(5), 649-660.

14. Lời kêu gọi hành động (CTA)

Việc nắm vững và áp dụng Integrated Generalized Structured Component Analysis (IGSCA) sẽ giúp các nghiên cứu sinh và nhà phân tích dữ liệu tạo ra bước đột phá về tính chính xác trong các mô hình SEM phức hợp, giảm thiểu rào cản đo lường giữa lý thuyết và thực tiễn. Để đi sâu vào các công thức toán học bình phương tối thiểu và tham khảo bộ mã lập trình mô phỏng từ nhóm tác giả, độc giả có thể tải toàn văn tài liệu gốc dưới đây nhằm ứng dụng trực tiếp vào công trình nghiên cứu của bản thân.

[Hwang, H., Cho, G., Jung, K., Falk, C. F., Flake, J., Jin, M. J., & Lee, S. H. (2020). An approach to structural equation modeling with both factors and components: Integrated generalized structured component analysis. Psychological Methods.]