Bài viết chuyên sâu

Bàn về các danh mục nghề con trong Nghề: Phân tích dữ liệu - Data Analytics

Bàn về các danh mục nghề con trong Nghề: Phân tích dữ liệu - Data Analytics

by Admin Dathoc -
Number of replies: 0

Bàn về các danh mục nghề con trong Nghề: Phân tích dữ liệu - Data Analytics

#koolj_dataengineering
#DA
#job
#knowledge

Xa xôi ở Mỹ ở Đức ...hay Úc châu các bạn được học hành làm các nghề ra sao, xong ở đây mình xin chia sẻ một số những phân nghề con, trong nhóm nghề Data Analytics mà ở Việt Nam đang rất cần các bạn tìm hiểu rộng hơn để:

- Nhận biết nghề tốt hơn
- Bổ sung kiến thức nghề tốt hơn
- Biết trải nghiệp có thể chuyển đổi nghề tương lai của bạn.

Mình viết theo kiểu ngắn ngọn, gạch đầu dòng để mọi ng dễ tiếp thu - theo kinh nghiệm cá nhân.

1. Nghề phân tích dữ liệu các báo cáo tài chính, và tình hình kinh doanh tổ chức, công ty:

- Mục tiêu: đơn giản xem tình hình tài chính cty tổ chức là lành mạnh, cty kinh doanh làm ăn có lãi. Có thể là nơi mình đầu tư.
- Ràng buộc: có lẽ chỉ có ng trong nội bộ cty tổ chức mới biết. Và sẽ luôn có tay trong để đối thủ biết bạn đang dự kiến làm gì dựa vào các chỉ số dự báo (indicator). Data có hết cho b rồi.
- Các chỉ số dự báo: Các loại bảng tổng kết tài sản đang có, kinh doanh... Các loại cân đối kế toán. Chỉ số ROI, chỉ số tỷ lệ khấu hao, chỉ số rủi ro thanh khoản...
- Các yếu tố ảnh hưởng: Nội ngoại, vd: Xem xét biến động nhân tài con người/vốn/tài sản ra vào công ty. Các quyết định kinh doanh. Thiên tai. Luật Quốc gia sở tại. Qouta được cấp để buôn bán theo Luật. Thu nhập các cá nhân quan trọng đầu tư. Bệnh tật sức khoẻ các nhà đầu tư. Sở thích nhà đầu tư.
- Kỹ năng bạn cần: Kế toán, quản trị hành chính, nghe ngóng thông tin, quan hệ (các kiểu loại để nghe ngóng thông tin tốt/xấu). Xem xét biến động nhân tài ra vào công ty

2. Nghề phân tích dữ liệu dự đoán giá cả: các giao dịch tài chính, chứng khoán, giấy tờ có giá.... theo lịch sử lẫn theo real-time
- Mục tiêu: đơn giản xem họ - nhà đầu tư theo sóng nào. Từ lịch sử dự đoán giá lên xuống tương lai.
- Ràng buộc: nội bộ cty tổ chức mới biết. Việc của bạn là chạy các chỉ số dự báo (indicator) sẵn có. Data có hết cho b rồi.
- Các chỉ số dự báo: Timeseries, hồi quy tuyến tính, hồi quy dịch chuyển... cho tới MACD, CCI, RSI, SAR, BB..... rất nhiều
- Các yếu tố ảnh hưởng: Nội ngoại, vd: Xem xét biến động trong quá khứ nhiều tháng nhiều năm để so sánh với cái hiện tại. Realtime cần quan sát lịch sử trước đó vài phút vài giờ
- Kỹ năng bạn cần: Dự đoán giá lên xuống các giấy tờ có giá. Tool công cụ có hết rồi. Chỉ cần bạn hiểu các chỉ số làm gì. Phát hiện giao dịch mua bán quá nhiều lần, hoặc số lượng quá nhiều, hoặc nhiều lần giá thấp, nhiều lần giá cao. Đôi khi tự đặt gia quy định cho mình.
.
.
.
3. Nghề phân tích dữ liệu dự đoán gian lận: các giao dịch tài chính, chứng khoán, giấy tờ có giá theo real-time
- Mục tiêu: đơn giản xem họ - nhà đầu tư đang giao dịch có ... trái luật không. Tiền họ đâu để đầu tư. Tiền đó có bị trưng dụng chỗ khác không. Giấy tờ họ đầu tư có còn ở hiện tại không. Cái gì đang thế chấp.
- Ràng buộc: nội bộ cty tổ chức mới biết. Việc của bạn là chạy các chỉ số dự báo (indicator) sẵn có. Data có hết cho b rồi.
- Các chỉ số dự báo: Timeseries, hồi quy tuyến tính, hồi quy dịch chuyển... cho tới tỷ trọng nợ, tỷ trọng thanh khoản nhanh, tỷ lệ chi tiêu so với thu nhập...của cá nhân đang giao dịch, hay giấy tờ có giá họ có..... rất nhiều
- Các yếu tố ảnh hưởng: Nội ngoại, vd: Xem xét biến động trong quá khứ nhiều tháng nhiều năm để so sánh với cái hiện tại. Realtime cần quan sát lịch sử trước đó vài phút vài giờ
- Kỹ năng bạn cần: Phát hiện gian lận. Tool công cụ sẵn có nhiều xong cần phát triển thêm tool riêng biệt. Cách kiểm tra nhanh tiền trong ví nhà đầu tư cũng như giấy tờ có giá họ đang giao dịch có đc thanh khoản không. Thông thường ông nọ đứng tên ông kia... rồi giấy tờ nọ mang tên ghi danh nhưng/hoặc chưa sẵn có.. là những lỗi thường thấy để không cho phép họ giao dịch. Hoặc giao dịch mua bán quá nhiều lần, hoặc số lượng quá nhiều, hoặc nhiều lần giá thấp, nhiều lần giá cao. Đôi khi tự đặt gia quy định cho mình.

4. Nghề phân tích dữ liệu thống kê: thông tin mạng xã hội cho mục đích: điều tra tội phạm, xu thế mua bán, tình hình du lịch, nhu cầu về một mặt hàng
- Mục tiêu: đơn giản nhận biết ai đang làm gì và nói về cái gì
- Ràng buộc: thông tin mọi nơi, và mở cho bạn
- Các chỉ số dự báo: Timeseries, hồi quy tuyến tích, hồi quy dịch chuyển...
- Các yếu tố ảnh hưởng: Nội ngoại, vd: Xem xét biến động trong quá khứ nhiều tháng nhiều năm để so sánh với cái hiện tại. Realtime cần quan sát lịch sử trước đó vài phút vài giờ.
- Kỹ năng bạn cần: Thu thập dữ liệu, tổng hợp, bóc tách phân loại

5. Nghề phân tích dữ liệu máy học nhận diện hình ảnh, video, clip cho việc xác định danh tính người, thói quen, nghiệp vụ đặc biệt, bóc tách chữ trên ảnh, chuẩn đoán bệnh, thống kê, dự báo
- Mục tiêu: phân tích ảnh, âm thanh 2d, 3d, xem xét khả năng nhận diện tương tự theo mẫu
- Ràng buộc: cần có công nghệ hỗ trợ: gpu là tối ưu nhất cả phân tích, training lẫn thực thi nhân diện. Dữ liệu đa phần không có nhãn
- Các chỉ số dự báo: Tỷ lệ vượt ngưỡng cho phép, tỷ lệ quá đúng, quá sai so với mẫu. Độ thích hợp dữ liệu với thuật toán. Độ tin cậy dữ liệu với kết quả. Thuật toán máy học: mạng học sâu. Đa phần là dữ liệu không có nhãn.
- Các yếu tố ảnh hưởng: Thời gian nhận diện thực tế so với mô hình vừa tạo. Lượng dữ liệu cho 1 phân lớp. Ngoại cảnh: ánh sáng tiếng ồn. Chữ đè, màu sắc không rõ nhiễu.
- Kỹ năng bạn cần: Làm sạch ảnh, tạo gờ, phân mảng màu, nhận diện hình khối, tạo mô hình cho dữ liệu đang có, chuyển hoá kỹ thuật qua gpu, tạo mô hình với lượng data đủ theo tiêu chuân.
.
.
.
6. Nghề phân tích dữ liệu máy học cho nhận dạng cảm xúc, xu thế, thói quen...của con người trên văn bản, hình ảnh, âm thanh
- Mục tiêu: Tạo quy luật và định nghĩa từ điển để xác định: cảm xúc trên từ điển đã thiết lập: từ điển điểm trên mặt người, từ điển nhóm từ ngữ
- Ràng buộc: Việc tạo từ điển là mất thời gian
- Các chỉ số dự báo: <tương tự 5>
- Các yếu tố ảnh hưởng: <tương tự 5>
- Kỹ năng bạn cần: <tương tự 5>

7. Nghề phân tích dữ liệu máy học âm thanh, huớng gió, hình ảnh vệ tinh, vật chất trong thiên nhiên.. dự báo khí tượng, dự báo thời tiết
<tương tự 5>
- Các yếu tố ảnh hưởng: độ nhạy các sensor iot, số lớp thiết bị bóng thám không, thiết bị đo đạc vật chất trong hướng gió, hình ảnh chuẩn, ko nhiễu từ vệ tinh. Mây nhiều.

8. Nghề phân tích dữ liệu học sâu cho việc: tự động hoá, tự điều khiển, chuẩn đoán bệnh, thiên tai
- Mục tiêu: Tối ưu hoá thuật toán đang có để thực hiện hoạt động tự động tiếp theo hiệu quả nhất
- Ràng buộc: Rất nhiều yếu tố biến thiên bên ngoài các yếu tố đã dự trù trong các phương pháp máy học. Xem https://en.wikipedia.org/wiki/Deep_learning#Errors
- Các chỉ số dự báo: Bạn áp dụng kỹ thuật máy học/học sâu nào sẽ có các chỉ số riêng của nó. Tham khảo kỹ thuật học sâu: https://en.wikipedia.org/wiki/Deep_learning#Applications
- Các yếu tố ảnh hưởng: Một mô hình dnn thành công tức là nó không có yếu tố ảnh hưởng. Hay nói cách khác các nguy cơ để fail là zero. Chỉ có điều đi tới đich các thử nghiệm được chấp nhận bao nhiêu % là thành công
- Kỹ năng bạn cần: Training data thành thục gấp nhiều lần hơn so với máy học. Lượng dữ liệu cho học sâu cũng cần lớn hơn và đa đặc tính để triệt tiêu các yếu tố biến thiên không dự đoán
.
.
.
9. Nghề phân tích dữ liệu học sâu cho việc: dự đoán tru trình sống của chuỗi vi sinh, quá trình thẩm thấu chất cho y học, dược

- Mục tiêu: Ví dụ như vụ virus vừa rồi. Chưa tìm ra vật chủ. Mục tiêu là từ mã gen từ mẫu tính toán xem trùng khớp qua mạng học sâu (dnn) để phát hiện ra trăm ngàn mẫu ... đâu là vật chủ Covid19. Tương tự như việc có bệnh, phát hiện các mẫu dược phẩm thẩm thấu qua máy học học sâu sẽ nhanh hơn viêc xét nghiệm từng loại.

- Ràng buộc: Vì có nhiều biến thiên, và phải dùng các bộ mô hình cho đầu ra có độ xác thực cao + kèm với năng lực tính toán của DNN nên sẽ nhanh hơn. Thiếu điều kiện, vẫn cần xét nghiệm qua manually

- Các chỉ số dự báo: Chỉ số xác thực mẫu là sai lệnh với bộ gen. Thời gian. Số lượng mẫu

- Các yếu tố ảnh hưởng: Thiếu điều kiện, vẫn cần xét nghiệm qua manually. Năng lực tính toán dnn

- Kỹ năng bạn cần: Tool và công cụ có hết rồi. Quan trọng là mô hình dnn thuộc quyền sở hữu các tổ chức nghiên cứu. Bạn phải là member hoặc quyền hạn mới có được

10. Nghề phân tích dữ liệu học sâu cho sinh trắc học, xác định yếu tố phân biệt cá thể

- Mục tiêu: Ví dụ xử lý PHÂN BIỆT CÁ THỂ qua vân tay, mống mắt, mẫu máu.

- Ràng buộc: Vì có nhiều biến thiên và xác suất cao nên lượng data train khác với máy học. Cần nhiều hơn. Cần luyện nhiều vòng đời hơn. Vì thế có các mô hình riêng từng loại (vân tay, khuôn mặt, giọng voice). Kết quả sẽ rất cao. Sẽ không có kết quả fail hoăc thấp dưới 98%

- Các chỉ số dự báo: Chỉ số xác thực mẫu là sai lệnh. Thời gian. Số lượng mẫu

- Các yếu tố ảnh hưởng: Thiếu điều kiện, khả năn bóc tách và sâu tới đâu, sau dấu phẩy bao nhiêu con số, các đặc tính thuộc tính nhiễu được khử sạch. Năng lực tính toán dnn

- Kỹ năng bạn cần: Tool và công cụ kèm thuật toán có hết rồi. Quan trọng là mô hình dnn thuộc quyền sở hữu các tổ chức nghiên cứu. Bạn phải là member hoặc quyền hạn mới có được
.
.
.
11. Nghề phân tích dữ liệu học sâu cho phục chế ảnh, âm thanh, phim ảnh... tái tạo 3D đồ vật, kiến trúc
<updating>

Còn bạn, bạn đang làm nhánh nghề nào trong các nghề trên??
.
.
.
----------------------------
Mời bạn newbie trong nghề, newbie trái nghề....

Để học dài hạn, mời fans qua: dathoc.net

Để học ngắn hạn và thực hành LIVESTREAM: 1 thầy 7 trò 5 buổi, mời fans qua: dathoc.net/botreg

Xem kiến thức gì, sách vở gì bạn hổng bạn có thể bổ sung tại đây: dathoc.net/skill