Biểu đồ Scatter Plot (Biểu đồ phân tán) trên SPSS trước khi chạy hồi quy

Trong phân tích định lượng, Biểu đồ Scatter Plot (Biểu đồ phân tán) là công cụ đồ họa biểu diễn các cặp giá trị trên hệ trục tọa độ để kiểm tra mối quan hệ tuyến tính giữa hai biến liên tục. Nguyên nhân chính gây sai lệch mô hình hồi quy thường do dữ liệu vi phạm giả định tuyến tính. Giải pháp nhanh nhất là vẽ biểu đồ phân tán trên SPSS để nhận diện chính xác xu hướng dữ liệu và các điểm dị biệt trước khi thực hiện phân tích chuyên sâu.

Biểu đồ Scatter Plot (Biểu đồ phân tán) trên SPSS trước khi chạy hồi quy

1. Giới thiệu tổng quan về Biểu đồ Scatter Plot (Biểu đồ phân tán)

Trong lĩnh vực nghiên cứu khoa học và phân tích định lượng, việc rà soát dữ liệu trước khi đưa vào mô hình thống kê là bước bắt buộc. Biểu đồ Scatter Plot (Biểu đồ phân tán) đóng vai trò là công cụ kiểm định trực quan đầu tiên để đánh giá giả định hồi quy cốt lõi: tính tuyến tính. Việc bỏ qua bước rà soát này có thể dẫn đến việc áp dụng sai mô hình toán học, từ đó đưa ra các kết luận sai lệch về bản chất của tập dữ liệu.

Biểu đồ Scatter Plot (Biểu đồ phân tán) trên SPSS trước khi chạy hồi quy

2. Khái niệm và bản chất thống kê của Biểu đồ Scatter Plot

Biểu đồ Scatter Plot (Biểu đồ phân tán) là một dạng đồ thị toán học sử dụng hệ trục tọa độ Đề-các (Cartesian coordinates) để hiển thị các giá trị của hai biến số cho một tập hợp dữ liệu.

Bản chất thống kê của biểu đồ này dựa trên việc biểu diễn tọa độ $(X, Y)$ của từng quan sát:

  • Trục hoành (Trục X): Thường đại diện cho biến độc lập (Independent variable) – biến dự báo hoặc nguyên nhân.
  • Trục tung (Trục Y): Thường đại diện cho biến phụ thuộc (Dependent variable) – biến kết quả hoặc bị tác động.

Mỗi điểm trên hệ trục tọa độ tương ứng với một giá trị duy nhất của một quan sát đo lường trên cả hai biến. Quần thể các điểm này tạo thành một “đám mây điểm” (point cloud), giúp nhà nghiên cứu trực quan hóa hình thái phân bố dữ liệu.

Biểu đồ Scatter Plot (Biểu đồ phân tán) trên SPSS trước khi chạy hồi quy

3. Vai trò của Biểu đồ Scatter Plot trong nhận diện mối quan hệ tuyến tính

Biểu đồ Scatter Plot (Biểu đồ phân tán) là công cụ tiên quyết để xác nhận mối quan hệ tuyến tính trước khi chạy phân tích hồi quy (Regression model) và tính toán hệ số tương quan Pearson. Nếu dữ liệu không có tính tuyến tính, việc sử dụng hồi quy tuyến tính sẽ tạo ra sai số thống kê nghiêm trọng, làm mất tính giá trị (validity) của nghiên cứu.

Dưới đây là bảng tổng hợp các dạng quan hệ cơ bản được nhận diện thông qua biểu đồ:

Dạng hình thái trên biểu đồÝ nghĩa thống kêĐặc điểm phân tán của dữ liệuMức độ phù hợp cho Hồi quy tuyến tính
Đám mây điểm hướng lênQuan hệ tuyến tính thuận (Đồng biến)Các điểm hội tụ quanh một đường thẳng dốc lên. X tăng thì Y tăng.Rất phù hợp
Đám mây điểm hướng xuốngQuan hệ tuyến tính nghịch (Nghịch biến)Các điểm hội tụ quanh một đường thẳng dốc xuống. X tăng thì Y giảm.Rất phù hợp
Đám mây điểm phân tán ngẫu nhiênKhông có mối quan hệ (Tương quan bằng 0)Các điểm rải rác không theo bất kỳ quy luật hay hình khối nào.Không phù hợp
Đám mây điểm hình vòng cung/chữ UQuan hệ phi tuyến tính (Đa thức)Các điểm tạo thành đường cong parabol hoặc hình thái phức tạp khác.Vi phạm giả định tuyến tính

4. Hướng dẫn phương pháp vẽ Biểu đồ Scatter Plot (Biểu đồ phân tán) trên SPSS

Để vẽ biểu đồ phân tán trên SPSS một cách chuẩn xác, nhà nghiên cứu cần thực hiện tuần tự các bước sau:

4.1. Khởi tạo và thiết lập biến số dữ liệu

  • Mở tập dữ liệu trên phần mềm SPSS.
  • Tại cửa sổ Variable View, đảm bảo cột Measure của hai biến cần phân tích được thiết lập ở định dạng Scale (Thang đo liên tục: Interval hoặc Ratio).
  • Kiểm tra tính đầy đủ của dữ liệu tại Data View để loại bỏ các giá trị khuyết (Missing values) nếu cần thiết.

4.2. Các bước thao tác kỹ thuật qua công cụ Chart Builder

  1. Trên thanh menu chính, chọn Graphs > Chart Builder.
  2. Trong hộp thoại Chart Builder, nhìn xuống tab Gallery ở góc dưới bên trái, chọn mục Scatter/Dot.
  3. Kéo thả biểu tượng Simple Scatter (biểu đồ đầu tiên) vào khu vực xem trước (Preview area) ở phía trên.
  4. Tại danh sách biến (Variables list), kéo biến độc lập thả vào ô X-Axis? và kéo biến phụ thuộc thả vào ô Y-Axis?.
  5. Nhấp OK để phần mềm xuất kết quả ra màn hình Output.

4.3. Các bước thao tác kỹ thuật qua công cụ Legacy Dialogs

Đối với các phiên bản SPSS cũ hoặc người dùng quen với giao diện truyền thống:

  1. Chọn Graphs > Legacy Dialogs > Scatter/Dot.
  2. Chọn Simple Scatter và nhấp nút Define.
  3. Trong hộp thoại Simple Scatterplot, đưa biến phụ thuộc vào ô Y Axis và biến độc lập vào ô X Axis.
  4. Nhấp OK để tạo biểu đồ.
Biểu đồ Scatter Plot (Biểu đồ phân tán) trên SPSS trước khi chạy hồi quy

5. Hướng dẫn đọc và diễn dịch kết quả Biểu đồ Scatter Plot

Sau khi kết xuất đồ thị, việc đọc biểu đồ phân tán đòi hỏi năng lực diễn dịch thống kê dựa trên ba yếu tố cốt lõi:

5.1. Nhận diện dạng quan hệ: Tuyến tính thuận và Tuyến tính nghịch

Nhà nghiên cứu cần quan sát trục chính của đám mây điểm. Nếu các điểm tạo thành một dải kéo dài từ góc dưới bên trái lên góc trên bên phải, dữ liệu biểu hiện quan hệ đồng biến (tuyến tính thuận). Ngược lại, nếu dải điểm kéo từ góc trên bên trái xuống góc dưới bên phải, đó là quan hệ nghịch biến (tuyến tính nghịch).

5.2. Đánh giá mức độ tập trung và cường độ mối quan hệ

Cường độ của mối quan hệ tuyến tính được thể hiện qua mức độ hội tụ của các điểm dữ liệu:

  • Tương quan mạnh: Các điểm dữ liệu co cụm sát vào nhau, tạo thành một dải hẹp và rõ ràng giống như một đường thẳng.
  • Tương quan yếu: Các điểm phân tán rộng hơn, dải mây điểm phình to, cho thấy mức độ nhiễu cao và độ tin cậy của dự báo biến thiên bị giảm sút.

5.3. Phát hiện dữ liệu dị biệt (Outliers) và cách xử lý cơ bản

Điểm dị biệt (Outliers) là các giá trị nằm tách biệt hoàn toàn so với quần thể điểm chung trên hệ trục tọa độ. Sự xuất hiện của outliers có thể bóp méo đường hồi quy, gây sai lệch hệ số tương quan.

Cách xử lý cơ bản bao gồm việc rà soát lại nguồn nhập liệu để loại trừ sai sót kỹ thuật, hoặc sử dụng các kỹ thuật thống kê (như phân tích standardized residuals) để quyết định giữ lại hay loại bỏ điểm dị biệt này ra khỏi tập mẫu trước khi chạy mô hình hồi quy.

6. Câu hỏi thường gặp (FAQ) về Biểu đồ phân tán trong SPSS

Biến thứ bậc (Ordinal) hoặc định danh (Nominal) có vẽ được Scatter Plot không?

Không phù hợp. Biểu đồ Scatter Plot được thiết kế đặc thù cho biến liên tục (Scale). Với biến định danh hoặc thứ bậc, các điểm dữ liệu sẽ xếp chồng lên nhau thành các đường lưới ngang/dọc, không thể hiện rõ mật độ hay xu hướng tuyến tính. Giải pháp thay thế là sử dụng biểu đồ hộp (Boxplot) hoặc biểu đồ cột (Bar chart).

Cần làm gì nếu Biểu đồ Scatter Plot không cho thấy dạng tuyến tính?

Bạn không thể áp dụng mô hình hồi quy tuyến tính chuẩn (OLS). Nếu dữ liệu thể hiện dạng phi tuyến (ví dụ: hình parabol), bạn phải chuyển đổi dữ liệu (Data transformation) như lấy Logarit tự nhiên, hoặc sử dụng mô hình hồi quy phi tuyến tính (Non-linear regression) để phù hợp với bản chất dữ liệu.

Biểu đồ phân tán có dùng để kết luận quan hệ nhân quả không?

Hoàn toàn không. Scatter plot và hệ số tương quan chỉ chứng minh hai biến có biến thiên cùng nhau trên mặt phẳng tọa độ. Quan hệ nhân quả (Causality) yêu cầu các nền tảng lý thuyết chuyên sâu, kiểm soát biến ngoại lai và thiết kế nghiên cứu thực nghiệm, chứ không thể chỉ dựa vào biểu đồ đồ họa.

7. Kết luận

Tóm lại, Biểu đồ Scatter Plot (Biểu đồ phân tán) không chỉ đơn thuần là một phép hiển thị đồ họa mà là một thủ tục bắt buộc để thẩm định tính hợp lệ của dữ liệu trước khi tiến hành phân tích định lượng chuyên sâu. Bằng việc thực hành thao tác trên SPSS và thấu hiểu nguyên lý phân bố của đám mây điểm, nhà nghiên cứu có thể bảo vệ tính toàn vẹn của mô hình, phát hiện kịp thời các điểm dị biệt và khẳng định cơ sở khoa học cho hệ số tương quan. 

Lên đầu trang