Bài viết chuyên sâu

Data engineering cho người trái nghề

Data engineering cho người trái nghề

by Admin Dathoc -
Number of replies: 0



Mình nghĩ bạn có thể join 1 hoặc hai khóa học, xong cần có những chỉ dẫn để các bạn, nhất là các bạn trái nghề hoàn thiện những kỹ năng sau.

Đây là quan điểm của cá nhân mình sau những trải nghiệm.

Các bạn khác bổ sung để có đường đi nước bước tốt hơn.

Đường hướng chung (nếu những gợi ý dưới là TA vậy bạn cần học TA rồi hãng sang DS):



1. Bạn cần làm việc và tập làm việc trên Linux/Ubuntu. Vì nó sẽ cho bạn những trải nghiệm khác với Windows, cái mà bạn mở mắt ra đã nhìn thấy. Và sẽ giúp bạn nhiều trong quá trinh học DS sau nay

(trên mạng dạy rất nhiều: Google câu lệnh thường dùng Ubuntu, CentOS là r)

2. OOP – lập trình hướng đối tượng. Học Java – ít nhất 1 tháng

3. Bạn rất cần học lập trình cho THU THẬP, BIẾN ĐỔI, áp dụng thuật toán để DỰ ĐOÁN dữ liệu, và cuối cùng là MÔ PHỎNG HÌNH ẢNH/ĐỒ THỊ, và mình gợi ý ngôn ngữ để sau này bạn chuyên dùng nhiều, va chạm nhiều: Python & Scala

Nếu ko thể học đc Python, thì học Scala. Và hiện có rất nhiều khóa miễn phí để học 2 ngôn ngữ này

https://www.youtube.com/watch?v=CmorAWRsCAw&list=PLeo1K3hjS3uuASpe-1LjfG5f14Bnozjwy

https://www.youtube.com/watch?v=DzFt0YkZo8M

4. Vấn đề lo ngại nữa là ko có máy mạnh: năm 2019 rồi, bạn ko cần phải trang bị máy mạnh, AWS AMI có hết máy cho bạn rồi. Chỉ cần bỏ tiền thuê thôi, đâu đó: $0.008/giờ



Cụ thể:

👉A. THU THẬP

– Bạn cần biết các kiểu thu thập: stream, batch, manually, auto… qua các công cụ: Nifi, Kafa, Flume, Sqoop

– Cần biết thu thập data từ internet, từ iot, từ thiêt bị vận hành, từ camera, từ đài phát thanh

– Cần biết kiểu data nào phù hợp với kiểu lưu dữ liệu nào: file, binary, text, video, images

– Cần biết môi trường để lưu nó: hdfs, ntfs, document db, row db, column db

– Cần biết lọai kiểu DB nào thì tốt cho lưu và lấy ra kiểu gì cho tốc độ, và tốn ít lưu trữ nhất

– Cần biết áp dụng tool thông thường để lấy dữ liệu qua website, internet: webdriver là một ví dụ

.

.

.

👉B. BIẾN ĐỔI

– Trước khi đưa dữ liệu vào các thuạt toán (mà bên Data Scientist – DS đưa cho chúng ta) bát buộc chúng ta phải biến đổi: kiểu như tùy thuật toán mà có dạng dư liệu đặc trưng, hoặc

– Làm sạch dư liệu: cắt ảnh, cắt sound, chỉnh câu trong text, phân loại câu, tìm danh từ, động từ….Mỗi loại data có kiểu/tool riêng để xử lý.

– Biến đổi sâu:

Về Ảnh:

https://www.facebook.com/KoolJ.InDaHouse/posts/10156133682280079

Về Text:

https://www.facebook.com/KoolJ.InDaHouse/posts/10156133686175079

Về Sound:

https://www.dsprelated.com/freebooks/sasp/Preprocessing.html

– Chỉnh, kiểm tra dữ liệu thiếu, ko đúng…

– Cần hiểu và áp dụng kiểu dữ liệu nào cho THUẠT TOÁN phân tích gì. Hãy hiểu về các kiểu loại dữ liệu đã: liên tục, catalog..

VD: link


– Có nhiều thuật toán mới từ DS đưa sang, và cần confirm lại dữ liệu họ cần là gì. Và biến đổi phù hợp.

– Tất nhiên ko thể dùng MS SQL, hay Oracle DB để biến đổi cả tỷ bản ghi. Nó sẽ có những công nghệ chuyên biệt để biến đổi, vd: Spark Dataframe

– Tất nhiên ko thể chạy trên ntfs thông thường, mà nó phải đưa trên các hệ db clustering

– Việc query 1 luồng là thông thường cac dev web đang làm. Song nó có những distribute query, vậy các tool có thể làm đc cái đó. Mời bạn Google nhé.

.

.

.

👉C. DỰ ĐOÁN

– Đôi khi nhiệm vụ của DE, là apply data và thuật toán tư DS cấp và đưa ra những dấu hiệu bất thường, và thông báo cho DS.

– Cũng có thể áp dụng ngay thuật toán sẵn có của 50 năm về trước, hay Google, IBM, với data của bạn

– Nó có thể là timeseries, hoặc logistics regression ai cũng biết. Song nó cũng có thể là một thuật toán do bên DS nghĩ ra

– Cái chính là bạn cần biết một số thông số, và ngưỡng hoàn hảo để xem dữ liệu với công thức đầu ra có phù hợp không. Nếu không phù hợp chạy những dữ liệu lớn hơn. Làm sạch lại dữ liệu.

– Việc đưa data vào ngồi chờ và xem xét output

.

.

.

👉D. MÔ PHỎNG HÌNH ẢNH/ĐỒ THỊ

– Cần biết với mỗi kiểu, dạng data việc đưa lên đồ thị, vẽ ra như thế nào?… qua Tableau, Power BI, hay treen browser là Canvas.js?

– Học cách áp dụng vẽ lên đồ thị những biểu đồ cần thiết, vd: Tính tổng tăng dần, báo cáo quý, dự đoán timeseries….

.

.

.

👉E. Tạo ứng dụng thương mại từ nghiep DE

– Cần học thêm:

1. Dựng ứng dụng web tĩnh: học HTML, CSS, JQuery – ít nhất 1 tháng

2. Học Javascript chuyên sâu – ít nhất 1 tháng

3. Học 1 ngôn ngữ serverside, a gợi ý Go – ít nhất 1 tháng

4. Học phát triển ứng dụng mobile: React Native – ít nhất 1 tháng