Exploratory Data Analysis (EDA) là gì và quy trình từng bước của EDA

Tomorrow Marketers - Phân tích dữ liệu được định nghĩa là một quá trình làm sạch, biến đổi và mô hình hóa dữ liệu để khám phá thông tin hữu ích cho việc ra quyết định kinh doanh. Trong đó, khám phá dữ liệu (Exploratory Data Analysis - EDA) là một phần quan trọng trong quy trình phân tích dữ liệu, giúp phân tích dữ liệu trước khi đưa ra bất kỳ kết luận nào. Ngoài ra, khám phá dữ liệu cũng giúp đảm bảo chất lượng dữ liệu đủ điều kiện để phân tích và các kết quả đưa ra là đúng và có thể áp dụng trong kinh doanh.

Cùng Tomorrow Marketers tìm hiểu về Exploratory Data Analysis: EDA là gì, bao gồm các công việc/kỹ thuật gì và áp dụng như nào trong bài viết sau nhé!

Đọc thêm: Data Analysis là gì? Quy trình và phương pháp phân tích dữ liệu bạn cần biết

1. Cơ bản về Exploratory Data Analysis (EDA)

Exploratory Data Analysis (EDA) là gì?

Exploratory Data Analysis (EDA), tạm dịch phân tích khám phá dữ liệu, là một bước trong một quy trình phân tích dữ liệu. Ở giai đoạn này, tập dữ liệu sẽ đi qua một số kỹ thuật để hiểu rõ và diễn giải đặc điểm của tập dữ liệu trước khi tiến hành phân tích.

‘Hiểu rõ về tập dữ liệu’ có thể bao gồm rất nhiều công việc, ví dụ như: nắm rõ dữ liệu mô tả tập dữ liệu (kích thước, dạng dữ liệu), thống kê mô tả các biến, xác định mối quan hệ giữa các biến, phát hiện các pattern và xu hướng của dữ liệu, tìm ra những bất thường và ngoại lai trong dữ liệu, đồng thời kiểm tra các giả thuyết ban đầu… Phân tích khám phá dữ liệu (EDA) được hiểu là một phần của phân tích mô tả (descriptive analytics).

Để hiểu rõ về dữ liệu, bạn cần đặt ra các câu hỏi nhằm tìm ra nhiều hướng khai thác và nhiều góc nhìn dữ liệu khác nhau. Từ câu hỏi, bạn sẽ biết cần tập trung vào phần nào trong tập dữ liệu và biết cần xây dựng mô hình nào, nên sử dụng kỹ thuật biến đổi, phân tích và trực quan hóa dữ liệu nào.

Đặt câu hỏi về cơ bản cũng là một quá trình cần sự sáng tạo. Chìa khóa để đặt câu hỏi chất lượng là đầu tiên bạn phải đặt ra thật nhiều câu hỏi. Sẽ rất khó để đặt được câu hỏi chính xác ngay từ đầu bởi bạn chưa nắm rõ các thông tin chi tiết của tập dữ liệu. Mặt khác, mỗi câu hỏi mới sẽ giúp bạn nhìn ra một khía cạnh mới trong dữ liệu và tăng khả năng nhìn ra vấn đề.

Mặc dù EDA có thể được thực hiện ở nhiều giai đoạn khác nhau trong quy trình phân tích dữ liệu, công việc này thường được tiến hành trước khi phát triển một giả thuyết hoặc sau khi mục tiêu phân tích đã được xác định rõ.

2. Vì sao cần khám phá dữ liệu (EDA) trong phân tích dữ liệu?

Ứng dụng của EDA có thể bao gồm:

Hỗ trợ làm sạch dữ liệu với các kỹ thuật xác định các giá trị bị thiếu, sai sót hoặc các điểm dữ liệu bất thường

Là một phần của quy trình làm sạch dữ liệu, phân tích và khám phá dữ liệu bước đầu sẽ giúp phát hiện các vấn đề trong cấu trúc và các điểm dữ liệu trong tập dữ liệu. Bạn có thể khắc phục những vấn đề này bằng cách xử lý, làm sạch lại dữ liệu hoặc thu thập dữ liệu mới.

Nắm rõ đặc điểm, cấu trúc và mô hình của tập dữ liệu

Mapping dữ liệu chính xác giúp bạn đảm bảo dữ liệu được sử dụng ở chất lượng tốt khi chuyển đổi dữ liệu từ nguồn tới cơ sở dữ liệu, trang tính hoặc nhà kho dữ liệu,… Hiểu rõ cấu trúc và mô hình của dữ liệu sẽ giúp hạn chế các lỗi sai có thể xảy ra trong quy trình này.

Phát triển và kiểm chứng các giả thuyết và giả định

Trước khi tiến hành phân tích dữ liệu đầy đủ, bạn cần đảm bảo các giả định hoặc giả thuyết có thể đi tiếp tới bước kiểm chứng. EDA sẽ không cung cấp tất cả thông tin chi tiết nhưng sẽ giúp bạn phát hiện xem bạn có đang tìm ra kết quả phù hợp dựa trên hiểu biết của bạn về dữ liệu hay không. Nếu không, thì bạn biết rằng giả định của mình là sai hoặc bạn đang đặt câu hỏi sai về tập dữ liệu.

Xác định các biến quan trọng nhất và mối quan hệ tương quan giữa các biến, hiểu rõ cách các biến tương tác với nhau và ảnh hưởng của mỗi biến đối với kết quả phân tích

Khi thực hiện bất kỳ phân tích dữ liệu nào, cần xác định tầm quan trọng của các biến dữ liệu và mức độ tương quan giữa các biến đó. Ví dụ, biến độc lập nào ảnh hưởng đến biến phụ thuộc nào?

Xây dựng data model

Trước khi xây dựng cơ sở dữ liệu quan hệ (relational database), bạn cần xác định các đối tượng dữ liệu quan trọng để phát triển mối quan hệ giữa những đối tượng này. Điều này giúp bạn cấu trúc hóa dữ liệu theo sơ đồ, tránh mất thời gian cho những thông tin dư thừa và không liên quan, hạn chế những sai lệch trong kết quả phân tích.

Bên cạnh đó, dữ liệu cũng cần đảm bảo chất lượng nhằm đảm bảo tính chính xác và tối ưu khi đào tạo mô hình dự đoán trong khoa học dữ liệu.

Xác định phạm vi sai lệch của dữ liệu

EDA cũng có thể giúp bạn xác định những dữ liệu nào có thể dẫn đến các lỗi không thể tránh khỏi trong quá trình phân tích sau này của bạn. Việc biết dữ liệu nào sẽ ảnh hưởng đến kết quả giúp bạn tránh được việc chấp nhận các kết luận sai hoặc gắn cho những kết quả phân tích sai lệch một ý nghĩa thống kê.

Xác định các công cụ thống kê và kỹ thuật phân tích thích hợp nhất

EDA cũng giúp bạn xác định được những kỹ thuật và mô hình thống kê nào có thể được áp dụng để phân tích tập dữ liệu. Ví dụ, EDA sẽ giúp bạn trả lời câu hỏi: “Với tập dữ liệu đang có, bạn cần thực hiện phân tích dự báo (predictive analysis) hay cần phân tích cảm xúc (sentiment analysis - kỹ thuật ứng dụng trí tuệ nhân tạo trong việc xử lý ngôn ngữ tự nhiên của con người (NLP) và xác định các đặc điểm cảm xúc thông qua văn bản hoặc lời nói)?

Phát hiện các pattern, xu hướng thay đổi của các biến

EDA hỗ trợ các Data Analyst trong việc xác định các xu hướng một cách nhanh chóng thông qua trực quan hóa dữ liệu bằng nhiều dạng biểu đồ khác nhau, ví dụ box plot và histograms.

Hiểu rõ hơn về đặc điểm mô tả của các biến và tập dữ liệu

Các Data Analyst có thể thực hiện các kỹ thuật EDA để có thêm những dữ liệu mô tả về tập dữ liệu đang có, bao gồm việc khám phá đặc điểm của dữ liệu thông qua 05 chỉ số thống kê mô tả.

Mục tiêu của 05 chỉ số này không phải nhằm khẳng định giá trị của chỉ số thống kê nào là quan trọng hay phù hợp nhất, mà nhằm cung cấp cái nhìn tổng quan về cách phân bổ các điểm dữ liệu trong tập dữ liệu. Từ đây, bạn sẽ có cơ sở để đặt những câu hỏi chi tiết hơn về dữ liệu, chẳng hạn “tại sao dữ liệu được phân phối theo cách này?” hoặc “yếu tố nào có thể ảnh hưởng đến trực quan hóa của những dữ liệu này?”.

05 chỉ số này bao gồm:

The lower và upper quartiles là trung bình dưới và trung bình trên của tập dữ liệu. Hai chỉ số này giúp xác định interquartile range, là phạm vi chứa 50% ở giữa của tập dữ liệu. Xác định hai chỉ số này giúp bạn nắm được phạm vi phân tán của dữ liệu, đồng thời tìm được các giá trị ngoại lai.

05 chỉ số này có thể được trực quan bằng biểu đồ box plot.

3. Các bước trong quy trình khám phá dữ liệu (EDA)

Thu thập dữ liệu

Ngày nay, dữ liệu được tạo ra với khối lượng lớn, dưới nhiều dạng khác nhau, thuộc mọi lĩnh vực của đời sống con người, từ chăm sóc sức khỏe, thể thao, cho tới sản xuất, du lịch,… Mọi doanh nghiệp đều biết tầm quan trọng của việc sử dụng và phân tích dữ liệu trong việc đưa ra quyết định kinh doanh. Điều này phụ thuộc vào việc thu thập dữ liệu cần thiết từ nhiều nguồn khác nhau thông qua khảo sát, mạng xã hội và đánh giá của khách hàng,… Nếu không thu thập dữ liệu đầy đủ và phù hợp, các hoạt động tiếp theo không thể bắt đầu.

Đọc thêm: 05 nguyên tắc thu thập dữ liệu của doanh nghiệp

Xác định tất cả biến dữ liệu quan trọng và nắm rõ đặc tính của những biến đó

Trong giai đoạn bước đầu khám phá dữ liệu, xác định các biến số quan trọng sẽ giúp bạn biết đâu là yếu tố ảnh hưởng lớn đến kết quả. Bước này rất quan trọng đối với kết quả cuối cùng được mong đợi từ bất kỳ phân tích nào.

Làm sạch dữ liệu

Bước tiếp theo là làm sạch dữ liệu, bao gồm các công việc như loại bỏ các dữ liệu có giá trị null, loại bỏ các thông tin không liên quan, xác định các giá trị ngoại lai, biến đổi dạng dữ liệu,…

Đọc thêm: Data Cleaning là gì? Hướng dẫn các bước làm sạch dữ liệu

Xác định các biến tương quan

Tìm ra mối tương quan giữa các biến với phương pháp ma trận tương quan (correlation matrix) sẽ giúp bạn biết một biến có liên quan như thế nào với biến khác.

Chọn đúng phương pháp thống kê mô tả

Tùy thuộc vào dạng dữ liệu (categorical hoặc numerical), kích thước dữ liệu, loại biến và mục đích phân tích, bạn sẽ cần sử dụng các công cụ thống kê khác nhau trong quá trình khám phá dữ liệu.

Trực quan hóa và phân tích dữ liệu

Khi quá trình phân tích kết thúc, các kết luận và phát hiện cần được kiểm tra một cách thận trọng và cẩn thận để có thể đưa ra cách diễn giải và giải thích đúng đắn. Các Data Analyst phải có khả năng cần thiết để phân tích và thành thạo tất cả các kỹ thuật phân tích. Các kết quả thu được sẽ được sử dụng để đưa ra các quyết định trong từng domain khác nhau, ví dụ bán lẻ, chăm sóc sức khỏe, nông nghiệp,…

4. Các dạng kỹ thuật khám phá dữ liệu?

Có ba dạng kỹ thuật khám phá dữ liệu:

  1. Univariate - Phân tích đơn biến
  2. Bivariate - Phân tích hai biến
  3. Multivariate - Phân tích đa biến

Kết quả phân tích có thể được biểu diễn dưới dạng giá trị số hoặc trực quan hóa dưới dạng đồ họa. Từ đây, chúng ta có thể phân loại các kỹ thuật thành hai nhóm: non-graphical và graphical.

4.1. Univariate analysis (Phân tích đơn biến)

Univariate analysis Non-graphical

Phân tích đơn biến về cơ bản là hình thức đơn giản nhất để phân tích dữ liệu. Mục tiêu chính của phân tích đơn biến non-graphical là mô tả, tóm tắt dữ liệu và tìm ra patterns trong dữ liệu, thông qua việc tìm ra các chỉ số thống kê sau:

Univariate analysis Graphical

Một số dạng biểu đồ thường được sử dụng trong phân tích đơn biến bao gồm:

Stem-and-leaf Plots: Dạng biểu đồ này thường được sử dụng để trực quan dữ liệu định lượng ở định dạng rút gọn. Biểu đồ biểu diễn các giá trị trong tập dữ liệu, tách các giá trị thành hai phần: phần gốc (các chữ số ở đầu) và các chữ số còn lại.

Histograms: Histograms biểu diễn tần suất xuất hiện của các giá trị trong tập dữ liệu. Histogram giúp bạn hiểu nhanh về tập dữ liệu, ví dụ như giá trị ngoại lai, xu hướng tập trung của dữ liệu,…

Bar Charts: Biểu đồ cột biểu diễn các biến categorical với các cột tương ứng với giá trị của các biến. Biểu đồ cột có thể được biến đổi thành Multiple or Grouped charts (dạng nhóm các cột thành để biểu diễn một chuỗi thông tin của một giá trị), Percentage Bar Charts (biểu đồ cột mô tả dữ liệu ở dạng tỷ lệ phần trăm).

Box Plots: Box plot biểu diễn sự phân tán của các giá trị dữ liệu. Nhìn vào Box plot, bạn có thể biết các giá trị dữ liệu tập trung chính ở khoảng nào, giá trị lớn nhất, giá trị nhỏ nhất, từ đó xác định được giá trị ngoại lai của tập dữ liệu.

4.2. Bivariate analysis (Phân tích hai biến)

Phân tích hai biến sẽ phân tích hai biến và khám phá mức độ tương quan giữa các biến đó, ví dụ: tuổi của nhân viên có tương quan tới thu nhập hàng tháng của họ không, nếu có là tương quan đồng biến hay tương quan nghịch biến. Dữ liệu được phân tích có thể là các biến dữ liệu dạng số (numerical) hoặc dạng phân loại (categorical).

Bạn nên thực hiện phân tích đơn biến để hiểu rõ mô tả thống kê của các biến trước khi đi tới phân tích hai biến.

Bất kỳ biểu đồ nào có thể biểu diễn hai biến dữ liệu trở lên đều có thể được sử dụng với kỹ thuật phân tích này (ví dụ: biểu đồ đường biểu thị tốc độ theo thời gian).

Bivariate Non-Graphical

Bảng chéo (cross-tabulation): Bảng chéo là bảng hai chiều với một biến được biểu diễn dưới dạng cột, và giá trị tương ứng của biến còn lại được biểu diễn dưới dạng các hàng.

Analysis of Variance - ANOVA: ANOVA là phép thử nghiệm thống kê được sử dụng để mô tả sự khác biệt tiềm năng trong một biến phụ thuộc (continuous data) bởi một biến phân loại (categorical data).

Kỹ thuật này chia các giá trị trong tập dữ liệu thành hai phần: Các yếu tố có ảnh hưởng thống kê, và các yếu tố ngẫu nhiên không có tác động. Phân tích ANOVA có thể giải thích tác động của một biến độc lập đối với biến phụ thuộc. Khi chỉ có một biến phụ thuộc và một biến độc lập, nó được gọi là ANOVA một chiều.

Chẳng hạn, một chủ khách sạn muốn khám phá ảnh hưởng của biến các ngày trong tuần đối với biến giá phòng khách sạn. Một cách cảm quan, giá phòng khách sạn có thể thấp hơn vào các ngày trong tuần để thu hút khách du lịch, trong khi vào cuối tuần, giá phòng khách sạn có thể tăng do nhu cầu tăng. Phân tích ANOVA có thể trả lời câu hỏi liệu ngày trong tuần có thực sự ảnh hưởng đến giá khách sạn hay không.

Bivariate Graphical

Biểu đồ được sử dụng trong phân tích đa biến sẽ biểu diễn trực quan mối quan hệ giữa hai hoặc nhiều biến, bao gồm:

Scatter Plot:Với scatter plot, một biến sẽ được biểu diễn trên trục x, biến còn lại sẽ được biểu diễn trên trục y và biểu đồ sẽ thể hiện mức độ tương quan giữa hai biến số, mô tả tác động của biến y khi biến x thay đổi. Lưu ý, khi sử dụng scatter plot, các biến đều phải là dữ liệu dạng định lượng (numerical data) nhằm có giá trị để biểu diễn.

Hệ số tương quan (correlation coefficient) sẽ là chỉ số đo lường mức độ mạnh yếu của mối quan hệ giữa hai biến số. Correlation coefficient dao động trong khoảng từ -1 tới 1.

Line Chart: Biểu đồ đường minh họa những thay đổi của một biến định lượng (numerical data) theo một biến phân loại (category data). Trục x thường là một khoảng thời gian, trục y là giá trị của biến số định lượng.

Bubble Chart: Bubble charts scatter plots biểu diễn các bong bóng thể hiện giá trị của các điểm dữ liệu trong biểu đồ hai chiều. Dạng biểu đồ này được sử dụng để đánh giá mối quan hệ giữa ba hoặc nhiều biến số. Trong Bubble Chart, mỗi bong bóng tương ứng với một điểm dữ liệu và biểu diễn giá trị của các biến bằng các đặc điểm khác nhau như vị trí trên trục, kích thước bong bóng và màu sắc.

Heat Map:Heatmap là biểu đồ được trình bày dưới dạng ma trận gồm các cột và hàng, với các sắc độ của màu sắc nhằm trực quan mức độ tương quan giữa các biến. Heat map là dạng biểu đồ thường được sử dụng để xây dựng các mô hình Machine Learning.

Đọc thêm: Data Visualization - Cách chọn loại biểu đồ minh họa tốt nhất cho metrics của bạn?

4.3. Multivariate analysis (Phân tích đa biến)

Multivariate Non-Graphical

Machine Learning ngày càng phát triển và thường được sử dụng để phân tích tương quan của đa biến. Một số kỹ thuật phân tích có thể kể tới như:

Kỹ thuật Phân nhóm (Classification) hoặc tích phân cụm (Clustering analysis) thường được áp dụng để phát triển các thuật toán để phân loại dữ liệu đầu vào thành các danh mục hoặc nhóm/cụm có nhiều biến số, đặc điểm, thuộc tính chung.

Điểm khác nhau của hai kỹ thuật này nằm ở việc Classification nhóm các dữ liệu theo các đặc điểm đã được xác định trước (ví dụ: phân loại tập dữ liệu về người dựa trên phạm vi chiều cao được xác định như từ 160cm - 170cm, từ 170 cm - 180 cm và từ 180cm trở lên), trong khi kỹ thuật Clustering analysis thì nhóm dữ liệu dựa trên những giá trị tương đồng mà thuật toán tự đánh giá (ví dụ: liệu chiều cao của một nhóm người ở mức độ trung bình, cao hoặc rất cao).

Mặc dù phân tích dự báo thường được sử dụng trong Machine Learning và AI để đưa ra dự đoán, nhưng loại phân tích này cũng phổ biến và thường được sử dụng trong quá trình tiến hành EDA.

Khi được sử dụng trong EDA, phân tích dự báo không nhằm mục đích khám phá thông tin trong tương lai mà chỉ đơn giản là sử dụng các phương pháp dự đoán dựa trên dữ liệu lịch sử để tìm ra các đặc tính của dữ liệu chưa được khám phá (ví dụ: sử dụng kỹ thuật phân tích hồi quy tuyến tính với dữ liệu hiện có để suy ra các giá trị theo từng khoảng).

Multiple Correspondance Analysis (MCA)

Correspondence Analysis là kỹ thuật trực quan hóa mối quan hệ giữa các categories. Kỹ thuật này được áp dụng khi dữ liệu được phân loại đa thức (multinomial categorical) và được sử dụng nhiều trong các cuộc khảo sát và bảng hỏi.

Kỹ thuật MCA sẽ tách nhóm các đáp viên dựa trên các categories. Nhóm những đáp viên thuộc cùng một category sẽ được trực quan cạnh nhau và ngược lại. n

Kỹ thuật này có ưu điểm là (1) Có thể giải thích cách các tiêu chí phân loại được liên kết với nhau, (2) Có thể giải thích liệu các đáp viên có sự tương đồng với các biến phân loại hay không và (3) Cung cấp hình ảnh trực quan giải thích mối liên kết giữa các categories.

Vậy khi nào nên sử dụng MCA? Kỹ thuật này thường được áp dụng khi không có giá trị bị thiếu hoặc giá trị âm trong tập dữ liệu, tất cả dữ liệu phải có cùng quy mô, dữ liệu phải chứa ít nhất hai cột và tập dữ liệu có nhiều tiêu chí phân loại.

Multivariate Graphical

Biểu đồ được sử dụng trong phân tích đa biến sẽ biểu diễn trực quan mối quan hệ giữa hai hoặc nhiều biến, chủ yếu là Scatter Plot, Bar chart, Boxplot, tương tự với phân tích hai biến. Ngoài ra, phân tích đa biến còn sử dụng một số dạng biểu đồ như:

Multivariate Chart: Đây là dạng biểu đồ được sử dụng để theo dõi hai hoặc nhiều biến đánh giá quy trình có liên quan với nhau. Các biểu đồ cặp (pair plot) được tạo bằng thư viện Seaborn trong Python là một ví dụ điển hình về biểu đồ đa biến, những biểu đồ này giúp trực quan hóa mối quan hệ giữa tất cả các biến số trong toàn bộ tập dữ liệu cùng một lúc.

Quy tắc khi sử dụng các chart này có thể được khái quát như sau:

5. Công cụ thực hiện EDA

Python

Python thường được sử dụng để thực hiện nhiều tác vụ khác nhau trong EDA, ví dụ như tìm các giá trị còn thiếu trong thu thập dữ liệu, mô tả dữ liệu, xử lý các giá trị ngoại lai, thu thập insight từ biểu đồ,… Một số thư viện thường được sử dụng cho EDA có thể kể tới như Matplotlib, Pandas, Seaborn, NumPy, Altair,…

Python được đánh giá là khá đơn giản và dễ sử dụng cho người mới bắt đầu. Bạn có thể tìm thấy nhiều packages trong Python như D-Tale, AutoViz, PandasProfiling,… có thể hỗ trợ tự động hóa toàn bộ quy trình EDA và tiết kiệm thời gian phân tích thủ công.

R

Ngôn ngữ lập trình R thường được các data scientists và các nhà thống kê sử dụng để thực hiện các kỹ thuật thống kê và phân tích dữ liệu. Tương tự Python, R cũng là một ngôn ngữ lập trình mã nguồn mở (open-source) phù hợp cho tính toán thống kê và trực quan dữ liệu. Một số thư viện thường được sử dụng cho EDA có thể kể tới như ggplot, Leaflet, Lattice, Data Explorer, SmartEDA và GGally,…

MATLAB

MATLAB là một công cụ nổi tiếng đối với dân engineers nhờ khả năng tính toán mạnh. Vì vậy, để sử dụng MATLAB cho EDA sẽ yêu cầu bạn cần nắm được một số kiến thức cơ bản về ngôn ngữ lập trình MATLAB.

Tạm kết

Exploratory Data Analysis là một phần rất quan trọng trước khi bạn tiến tới xử lý, biến đổi và phân tích dữ liệu. Tư duy làm việc, xử lý, phân tích dữ liệu để tìm ra các insight ẩn, phát hiện vấn đề, tránh đưa ra các quyết định cảm tính là nội dung chính mà khóa học Data Analysis của Tomorrow Marketers sẽ giúp bạn trang bị. Tham khảo ngay khóa học tại đây nhé!

Link nội dung: https://uws.edu.vn/exploratory-data-analysis-la-gi-a61944.html