Data Engineering - Khóa học kỹ sư dữ liệu

Giới thiệu

Kỹ sư dữ liệu (Data Engineer) là người phát triển, xây dựng, kiểm tra và duy trì các kiến trúc, hệ thống liên quan đến dữ liệu. Đồng thời, họ cũng là người đề xuất và đôi khi đảm nhận việc cải thiện chất lượng dữ liệu. Để hoàn thiện và phát triển nguồn dữ liệu, nhóm những Data Engineer cần cải biến các quy trình thiết lập dữ liệu để thu thập, khai thác, phân tích và mô hình hóa dữ liệu.

Khoá học Data Engineering

Về nhu cầu tuyển dụng, cũng theo thống kê của TopDev năm 2020, Data Engineer đứng thứ 6 trong top các vị trí lập trình nhà tuyển dụng cần nhất tại Việt Nam. Trong nhóm các kỹ năng được mong đợi nhất, Big Data có mặt ở vị trí thứ 2. Mức lương cho vị trí Data Engineer và Big Data Engineer có mặt bằng khá cao so với các vị trí khác (1711$ và 1321$). Đối với thị trường nước ngoài, báo cáo nhân sự Linkedln đề cập rằng tại Mỹ, số lượng chuyên viên Big Data cần đến đã tăng gấp 6 lần so với nhu cầu cách đây 5 năm và sẽ còn tăng nữa trong vòng 5 năm tới.

Đầu ra sau khi hoàn thành chương trình

Sau khi học xong, học viên có cơ hội: Gia nhập các công ty phần mềm ở lĩnh vực

Data Engineer, Big Data Engineer của Việt Nam như FPT Software, Vietel, VinID, QAI,…

Yêu cầu đầu vào đối với học viên

Trong trường hợp chưa có đầy đủ các kiến thức điều kiện, các bạn cần học thêm các môn học sau trong chứng chỉ điều kiện của chương trình Data Engineer:

(Các bạn click vào link để đọc thêm các thông tin chi tiết về môn học).

Đối tượng học

Phù hợp với mọi đối tượng, đặc biệt với các học viên đã có các kiến thức về lập trình Python cơ bản, hệ điều hành Unix/Linux, có kiến thức về cấu trúc dữ liệu và giải thuật.

Học viên học xong có năng lực gì?

Chương trình học

Môn 1: Các hệ cơ sở dữ liệu

Các hệ cơ sở dữ liệu là môn học đầu tiên và cơ bản giúp các bạn bước đầu trở thành một Kỹ sư dữ liệu. Môn học cung cấp cho sinh viên lý thuyết thiết kế cơ sở dữ liệu quan hệ cũng như các khía cạnh khác nhau của lập trình cơ sở dữ liệu quan hệ trong SQL server.

Mục tiêu:

Môn 2: Giới thiệu về Kỹ thuật Dữ liệu

Phần đầu của môn học giúp học viên có cái nhìn tổng quan, sâu sắc hơn về công việc cũng như các định hướng phát triển sự nghiệp cho các kỹ sư dữ liệu.

Tiếp đó, chúng ta sẽ tìm hiểu về kiến trúc kho dữ liệu (data warehousing) mẫu và mô hình hóa chiều dữ liệu(dimensional modelling). Một data warehouse (kho dữ liệu - DWH) là một hệ thống được dùng để lưu trữ thông tin cho việc phân tích và báo cáo

Ngoài ra môn học cũng sẽ cung cấp các kiến thức về mô hình cơ sở dữ liệu phi tuyến tính (NoSQL). Cơ sở dữ liệu NoSQL là Cơ sở dữ liệu được xây dựng dành riêng cho mô hình dữ liệu và có sơ đồ linh hoạt để xây dựng các ứng dụng hiện đại. Cơ sở dữ liệu NoSQL được công nhận rộng rãi vì khả năng dễ phát triển, chức năng cũng như hiệu năng ở quy mô lớn.

Ở phần cuối của bài học, chúng ta sẽ học cách thu thập và khai thác dữ liệu trên các website với Python (Scrapy, Splash, Selenium). Web scraping đề cập đến việc trích xuất dữ liệu từ một trang web. Thông tin này được thu thập và sau đó xuất thành định dạng hữu ích hơn cho người dùng (có thể là bảng tính hoặc API).

Mục tiêu:

Môn 3: Dữ liệu lớn với Spark

Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như chúng ta đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.

Trong môn học này các bạn sẽ được tìm hiểu đầy đủ về cả hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark - hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.

Mục tiêu:

Môn 4: Kỹ thuật dữ liệu trên AWS

Amazon web service còn gọi có tên gọi tắt (AWS) là một trong những nền tảng dịch vụ đám mây an toàn. Khả năng tính toán lẫn lưu trữ dữ liệu được tích hợp trọn vẹn nhằm mục đích giúp doanh nghiệp có thể ngày càng mở rộng và phát triển nhanh chóng. Giải pháp đám mây thường được dùng để xây dựng hầu hết những ứng dụng phức tạp nhưng vẫn mang đến sự linh hoạt và khả năng xử lý tuyệt vời. Đặc biệt là mức độ bảo mật của nền tảng đám mây này được đánh giá gần như tuyệt đối.

Trong môn học này các bạn học viên sẽ được cung cấp các kiến thức ở mức độ cơ bản về dịch vụ đám mây và cách các dịch vụ đó được cung cấp trên Amazon Web Service cũng như các dịch vụ liên quan đến dữ liệu và cơ sở dữ liệu như Amazon RDS, Amazon DynamoDB/DocumentDB. Chúng ta cũng sẽ đi sâu vào các tác vụ về AWS Data Pipeline như AWS Database Migration Service (DMS) - một dịch vụ có chi phí thấp và giúp di chuyển cơ sở dữ liệu sang AWS một cách dễ dàng và bảo mật, AWS Glue - dịch vụ phi máy chủ giúp chúng ta chạy và giám sát một cách trực quan các quy trình ETL chỉ với một vài cú nhấp chuột, và AWS Redshift - có thể truy vấn và kết hợp hàng exabyte dữ liệu có cấu trúc và bán cấu trúc trên data warehouse.

Mục tiêu:

Môn 5: Đồ án cuối khóa - Kỹ thuật Dữ liệu

Hoàn thành môn học, học viên sẽ biết cách kết hợp các kiến thức về dữ liệu để tạo ra một sản phẩm/hệ thống về thu thập, xử lý và quản lý dữ liệu. Từ đó học viên sẽ tiếp tục hoàn thiện được các kỹ năng của mình liên quan đến kỹ thuật dữ liệu.

Học viên có thể chọn 1 trong 3 option sau:

Option 1: Làm đồ án tốt nghiệp

Đối với các học viên theo học chương trình biên soạn, học viên sẽ được hướng dẫn chọn làm đề tài/khóa luận với các mentor hướng dẫn trực tiếp.

Option 2: Đi thực tập tại doanh nghiệp

Đối với các bạn học viên có nguyện vọng thực tập tại các doanh nghiệp, FUNiX sẽ hỗ trợ kết nối các bạn với các doanh nghiệp để chuẩn bị CV và phỏng vấn vào thực tập. Nếu được doanh nghiệp nhận, học viên cần chủ động tìm hiểu và vận dụng các kiến thức đã học hoàn thành mục tiêu thực tập.

Option 3: Thi lấy chứng chỉ của AWS thuộc môn 5 - Đồ án cuối khoá

Đối với các bạn học viên có nhu cầu ôn thi và lấy các chứng chỉ của AWS:

Môn 6: Trở thành lập trình viên chuyên nghiệp

Mục tiêu của môn học là giúp các bạn học viên lấp những lỗ hổng về kiến thức và kỹ năng mềm nhằm nâng cao tỉ lệ học viên pass phỏng vấn vào doanh nghiệp mà mình mong muốn.

Trong phần đầu tiên, chúng ta sẽ bắt đầu với cách cài đặt IDE và các tiện ích đi kèm, các kỹ năng cần thiết để phát triển khả năng viết code, tư duy giải quyết vấn đề, công cụ quản lý phiên bản Git và cách sử dụng phương pháp quản lý công việc Kanban với Trello.

Tiếp đó, trong phần thứ hai, chúng ta sẽ được học các kiến thức nền tảng về kỹ thuật phần mềm như quy trình xây dựng phần mềm, vẽ lưu đồ và quy trình, UML Diagram với draw.io.

Ở phần ba, bạn sẽ được tìm hiểu về các nền tảng Free Hosting mà bạn có thể sử dụng để triển khai dự án của mình, công cụ Shell và giao diện dòng lệnh, kiến thức cơ bản về mô hình Agile.

Mục tiêu môn học

Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:

Nắm được các kỹ năng để trở thành một lập trình viên hoàn thiện

Hiểu quy trình xây dựng phần mềm

Hiểu về phương thức phát triển phần mềm Agile

Biết cách viết CV và sẵn sàng cho phỏng vấn

Link nội dung: https://uws.edu.vn/khoa-hoc-data-engineer-a59594.html