Bài viết chuyên sâu

Xu thế mà các bạn "data analyst" hoặc học việc "data analyst" hay bị LẦM TƯỞNG

Xu thế mà các bạn "data analyst" hoặc học việc "data analyst" hay bị LẦM TƯỞNG

by Admin Dathoc -
Number of replies: 0
#koolj_dataengineering

V/v suy nghĩ lại một số công việc data analyst hay sql-data-visulizer hoặc tương đương của một số bạn từ kinh tế, hay chuyên viên phân tích từ sql (ms sql, oracle, sap, crm...) sang visualizer (tableau, power bi)

.
.
Vùa qua mình có mở một số lớp về bóc tách dữ liệu và phần nào khai phá kinh nghiệm cho các bạn chuyên kinh tế và mong muốn làm dữ liệu và mô phỏng nó theo cách bạn muốn.

Và mình đúc kết một số xu thế mà các bạn "data analyst" hoặc học việc "data analyst" hay bị LẦM TƯỞNG tưởng nhầm, hoặc tưởng sẽ làm như thế là ok, chạy nuột. Nhưng thực ra không phải như thế. Cụ thể là những điểm sau:

.

.

.

🎯1. Các bạn DA, đặc biệt là mới làm, lầm tưởng là cứ từ power bi hay tableau và dùng sql chọc vào mssql hay sap hay oracle ...là xong? Không đưọc đâu ạ. Các bạn mình biết họ ko làm như thế. Bạn chỉ đc làm như thế khi và chỉ khi cái db mà bạn đagn chọc vào nó đã làm sẵn clean sạch cho bạn. Lúc đó các tool bạn đang dùng mới hiệu quả. Và việc bạn chọc sql để biến đổi, sẽ có thể mất hàng giờ, hàng tuần time để làm. Vậy cần hiểu là:

- Dữ liệu các bạn đang dùng sql chọc là dữ liệu chưa được biến đổi gọn, chưa đưọc giảm bớt việc duyệt từ nhiều bảng, chưa đưọc tinh giảm từ hàng tỷ bản ghi xuống còn vài trăm ngàn bản ghi

- Dữ liệu các bạn thường thấy qua sql vào view luôn đc trên các công cụ visualizer là loại đã đc tinh giảm. Vậy các bạn cần tạo ra những pipeline để làm tinh giảm dữ liệu

- Pipleline chuyên biệt nhất là: hàng giờ, hàng phút, bạn

+ dùng service để chuyển (chuyển có thể dùng tool tích hợp: flume, sqoop, kafka, nifi...) những update ghi chép từ db gốc sang một db lake của bạn (ví dụ của tôi chỉ là csv, hoặc parquet);

+ tiếp đến là bạn viết những service biễn đổi ngay tại đó hoặc ngay tại lúc data đc chuyển về (bài học có dạy)

+ ngôn ngữ bạn dùng có thể là python, java, scala xong... 99% ng ta sẽ suggest bạn cần dùng kèm với Spark Dataframe. Vì sao vì nó sẽ làm hộ bạn multithread xử lý biến đổi data và load đọc nhưng file hàng chục trăm ghi dễ trong 1 nốt nhạc.

+ dữ liệu linh tinh quá và nhiều bạn dùng bot để xử phân loại (bot cũng đã dạy trong lớp học) (rasa bot là một gợi ý)

+ sau đó bạn đưa sang một bảng gồm dữ liệu đã làm sạch. Khi đó powerbi, hoặc tableau hay R mới phát huy
.
.
🎯2. Các bạn DA lầm tưởng là, việc biến đổi dữ liệu sẽ trong câu sql của các bạn và nó sẽ update live cho bạn qua tool như tableau và powerbi. Họ sẽ live nếu các dữ liệu đẹp của bạn live. Vậy làm thế nào để live dữ liệu thô, chuyển đổi nó live, và live dữ liệu đẹp qua tableau, powerbi, hoặc R

- Power BI, Tableau hay R nếu service tự cập nhật nó sẽ đọc đi đọc lại service đó để update data. Vậy việc của b là build service riêng, 95% dùng sql. Vậy bạn build một db riêng sau khi đã làm cái (1)

- Để live từ db gốc, từ post comment mạng xã hội, từ db khác... về lake data của bạn, cần series các tool tích hợp và service bạn cần viết. Vừa lấy log, vừa batch stream từ db. Ngòai tool sẵn, cái khó qua bắt buộc cần team hỗ trợ và bạn tự viết.

- Service biến đổi cũng có thể chuyển nó thành live, bot thành live vậy các db để visualizer bạn sẽ ko sợ là nó sẽ ko tự update cho b

.

.

.

🎯3. Các bạn DA lầm tưởng là xử lý dữ liệu 2GB, 200GB thì ... tableau, power bi hay R sẽ làm đc?oh NO

- Như đã nêu Spark đã làm tinh gọn những kiểu đọc đa luồng, đọc batch và lưu trên ram để xử lý nhanh. Vậy bạn nên tận dụng nó. Nếu ko

- B dùng R, python, java, .net không thì bạn sẽ phải tự build đa luòng, lưu mem ....quản lý những cái đó tôi chưa thấy ai xuất sắc cả.

🎯4. Các bạn DA lầm tưởng là khi biến đổi dữ liệu sẽ có tool sẵn, dịch vụ sẵn cho bạn? Ko bạn phải tự viết các tool này. Thế mới có những khoá học dạy bạn cách biến đổi

- Ko có những tool có sẵn với từng loại data đặc thù: data comment post khác với log bán hàng; data log trans giao dịch ngân hàng, khác với data confirm xe cộ vận tải đi lại; vô số cái khác ... cho nên DA cần một pp tự làm biến đổi cho mình. Khi đó Spark là cách tiếp cận ngắn nhất và nhanh nhất.

🎯5. Các bạn DA lầm tưởng là khi bóc tách 1 câu các bạn sử dụng duyệt?Nope hiện tại chúng tôi dùng bot

- Phỏng vấn 10 bạn trong các lớp, thì 9 b dùng duyệt tuần tự để tìm mẫu text nó là content gì trong list của bạn. Bạn thử dụng bot và cho nó mẫu tự nhận biến sẽ hay hơn nhiều

- Phỏng vấn 10 bạn cách truy vấn dữ liệu nhanh: 9 bạn nêu phải tuàn tự theo bảng quan hệ và chỉ mục từ cột cần tìm. Ko hiện chúng tôi sẽ chỉ mục tất cả những từ khoá chúng tôi cần tìm, và để nó lên hàng thứ 1 của mỗi cột. Cho nên việc với tới text này từ 1 hàng có 100 chỉ mục cột nhanh hơn 1 cột có 100 chỉ mục hàng

.

.

.

🎯6. Các bạn DA lầm tưởng là khi dùng R, python là sẽ chỉ chọc dữ liệu và sẽ dự đoán hoặc máy học các dữ liệu của bạn. Song các bạn nên hiểu là 95% công sức là bạn phải clean data đó theo mẫu dữ liệu để vào các mô hình. Vậy DA đang thiếu rất nhiều kỹ năng clean.

- Vâng xin nhắc lại time để các bạn dựng pipeline biến đổi rất mất time

- Bạn phải duyệt đi duyệt lại để tìm những biến dị và update thuật toán biến đổi

- Bạn phải dựa vào tổng và hiệu của những thành phần đã biến đổi so với tổng nếu càng sát càng tốt

- Bạn cần xem và kiểm tra sau biến đổi bằng mắt xem bao nhiêu % là ok

Chúc các fans biến đổi dữ liệu đc như ý.

Gluk!



----------------------

Để học ngắn hạn, và hiểu rõ hơn những pipeline data chúng tôi đang hàng ngày làm thế nào, mời bạn tham gia các khoá học và ghi danh qua:

https://forms.gle/9gKHUsfZLHVpPwso9