Bài viết chuyên sâu

Vài góp ý trong việc sử dụng cloud: Azure, AWS, Google, IBM làm phân tích dữ liệu.

Vài góp ý trong việc sử dụng cloud: Azure, AWS, Google, IBM làm phân tích dữ liệu.

by Admin Dathoc -
Number of replies: 0

#koolj_dataengineering

Xin phép admin

------------------------

[Múa rìu qua mắt thợ] Vài góp ý trong việc sử dụng cloud: Azure, AWS, Google, IBM làm phân tích dữ liệu.


Ghi chú 1: Dưới đây bài viết này là trải  nghiệm cá nhân. Chỉ cá nhân thôi. Và hy vọng nó phù hợp và giúp các Nhà hoạch định làm phân tích dữ liệu, cũng như các bạn thành viên đang có xu thế cloud hoá công việc phân tích dữ liệu, cũng như các bạn đang chuyển nghề sang nghề phân tích dữ liệu ...nhìn công việc phân tích dữ liệu trên cloud trên một cái nhìn, một góc nhìn đầy đủ hơn. Hy vọng anh chị em bóc tách ra được nhiều cái để sử dụng cloud tốt hơn, tránh chi phí tiêu tốn nhiều, gây rủi ro sau này. Bài viết cũng không đánh giá xấu tốt cái gì, chỉ đơn giản nêu trải nghiệm cá nhân. Vậy nó có thể đúng với chỗ này, và sai với chỗ khác.


Ghi chú 2:

Tiếp theo là, anh em viết bài này không dựa trên PR của tổ chức nào "thuê" cả. Tự anh em thấy cần viết cần chia sẻ là viết thôi ạ.


Đối tượng phù hợp: Các bạn mới làm quen phân tích dữ liệu muốn đi sâu hơn, đang lăm le lựa chọn cloud. Các bạn đã và làm phân tích dữ liệu trên cloud được 1-2 năm, muốn đi sâu hơn 5-10 năm. Các Nhà hoạch định dự án phân tích dữ liệu lớn trên cloud.

.

.

🎯1. Kết luận số 1: Cloud là một phần mềm dễ gây NGH.I.ỆN người dùng

Hậu quả: bạn xem các zoai sử dụng chất gây ngh.i.ện thế nào rồi, nó sẽ không để bạn yên, nó sẽ bắt bạn lần sau dùng nữa và dùng nữa, không từ bỏ được. Khiến bạn phải dành các nguồn lực cho chất ngh.i.ện đó.


Đúng là cloud có nhiều cái chỉ nháy mắt cái là làm được. Nó tối ưu tới mức chức năng các bạn muốn can thiệp vào. Nó tối ưu tới từng công đoạn các bạn muốn làm nhanh cũng có thể đáp ứng được.

Ví dụ:

- Tôi vẫn dùng authen sms và email qua Google Firebase

- Tôi 100% dùng ngrok, vì nó chống ddos, che ip, che domain, che...các kiểu (theo tôi được biết) và hoạt náo data của bạn trên toàn cầu. Tuy hơi chậm chút

- Tôi vẫn dùng server cloud của X vì nó quá rẻ và băng thông Bắc Nam Việt Nam rất tốt, toàn 60 mb/s


Xong các bạn cần lưu ý: Cloud đơn giản là một phần mềm mở rộng và nó mong muốn nhiều người sử dụng rồi sau đó thu tiền của họ. Khá tiện khi bạn thấy chi phí ban đầu NHỎ, và đã giải quyết nhiều khúc mắc. Xong về lâu dài nó sẽ làm bạn, KHÔNG DÙNG NÓ KHÔNG ĐƯỢC.


Kết quả: Việt Nam đang cloud hoá ở mức...sơ đẳng nhất là: cho thuê máy chủ, thuê hosting thôi. Chưa tối ưu. Điều đó không hẳn là các "sếp" các ông to viễn thông Việt Nam chưa đụng đâu các bạn ạ. Chỉ vì họ đang nhìn thấy doanh nghiệp tiềm năng khách hàng của hộ, tổ chức đang "quản trị chi phí quá tốt". Họ, khách hàng, tổ chức "tối ưu" chi phí quá tốt, qua cách là: cũng ko cần tin học hoá cao. Vì họ cho rằng cao sẽ tốn tiền. Cộng thêm nữa họ ngại học CNTT. Bây giờ, tháng 3, năm 2021, anh chị em có thể kết luận giống như tôi: Nó, cloud, tốn thật mà!

.

.

🎯2. Kết luận số 2: Cloud là phương tiện tiết kiệm, làm nhanh hơn cho THỨ TỰ THỰC THI xử lý công việc phân tích dữ liệu

Hậu quả: sẽ làm nhân viên, cá nhân LƯỜI đi ở một số công đoạn phân tích....hoặc họ KHÔNG CẦN BIẾT các công đoạn đó làm gì, trong khi chỉ việc ấn nút.

Phản biện: Vậy anh muốn cái gì ở đây? như thế mới là thế kỷ 21 chứ. Máy phục vụ con người mà.


Chính xác cloud làm chúng ta "làm nhanh" một số tác vụ và kể cả ..anh chị em trong nghề KHÔNG HỀ CÓ KIẾN THỨC về phân tích dữ liệu cũng làm được. Tôi lấy ví dụ:

- Tổ chức nọ thuê bạn sinh viên thực tập A mới ra trường làm 3 task hàng ngày: E ấn nút 1 để đưa ảnh lên AWS S3, e ấn nút 2 để kích hoạt AWS Segmaker training, em ấn nút thứ 3 để AWS Rek; và xem kết quả cuối.


Vậy nói như trên, bạn tưởng tượng Google, IBM, Azure cũng làm tương tự. Vậy dẫn tới là: bạn chỉ là cái máy để bấm nút, còn các công việc còn lại cho máy học, tự động, tự dự đoán của cloud xử lý. 


Chắc chắn là, họ, nhân viên tổ chức sẽ không tưởng tượng cách làm công đoạn một số chỗ đó ra sao. Dẫn tới nhân viên theo xu thế là LƯỜI đi. Dẫn tới tổ chức dựa quá nhiều vào cloud và ...có thể trong tương lai các dịch vụ sẽ chiếm luôn sức nặng nghiệp vụ và bắt buộc chúng ta phải dùng nó. Bài toán dùng hệ điều hành Windows trong các tổ chức hành chính công là điển hình. Giờ khó và không thể thay đổi được. Và cứ hàng năm chúng ta mất khá lớn chi phí cho nó.


Kết quả: Nhưng không, tôi chứng kiến thấy một số bạn Giám đốc các tổ chức nhỏ thông minh lắm. Toàn bắt nhân viên tự làm những cái tương tự cloud đang làm kia. Điều đó tốt. Xong những bạn dev trong trường hợp này PHẢI ĐỦ GIỎI để không lại gây rủi ro về lỗi phần mềm cho anh Giám đốc kia đang chi trả lương cho họ.

.

.

🎯3. Kết luận số 3: Cloud là một quy trình tự động, và nó sẽ PHÌNH TO CHI PHÍ khi phải xử lý dữ liệu trung và lớn; khi xử lý ra vào quá nhiều. 

Hậu quả: sẽ làm chi phí của tổ chức đội lên. Vậy bạn nên dùng cloud khi bạn...không qua tâm lắm chi phí

Phản biện: Chúng tôi có thể kiểm soát chi phí.


Vâng tôi nêu các ví dụ:

- Các bạn Honda Vĩnh Phúc, sau một hồi tính toán và trải nghiệm nào AWS nào Tableau, xong cuối cùng các bạn lại chuyển về... mua server, máy chủ, thuê chỉ thuê IP ngoài để view board.

- Bên taxi G7, cứ mỗi tháng phải chi 400 triệu vnd cho công việc điều hướng dẫn đường taxi và bản đồ; rồi thuê nhân viên trực. Họ cũng đã nghĩ tới cloud và bot voice; xong cuối cùng họ tự phát triển bản đồ; dịch vụ dẫn đường; rồi bot trả lời khách.


Về mức độ xử lý và mật độ xử lý tôi đưa đơn giản là: cỡ triệu giao dịch/giây; và tb/giây. Vậy cho mình hỏi các fans của group liệu có bao nhiêu công ty và tổ chức có mức độ cần xử lý như vậy. Nếu giả sử các bạn có đi. Vậy cơ sở hạ tầng sắm thế nào cho đủ. Kinh phí chưa có. Đơn giản bạn tính một server 8gb ram, cpu 4 lõi chỉ có thể xử lý 600 giao dich 250kb qua internet/giây thôi ạ. Vậy cần bao nhiêu server để xử triệu giao dịch/giây bạn tự tính. 


Và các ông lớn AWS, Google, IBM, Azure ..đều bảo các bạn là: tôi cho các bạn lưu trữ miễn phí, và hosting $100k thoải mái xử lý trong năm đầu tiên


Kết luận: bạn có thể thử nghiệm năm đầu với cloud. Xong 90% các doanh nghiệp (tôi đoán - và tôi đã gặp) lại rút về thuê mua server của vnpt để xử lý nội bộ.


🎯4. Kết luận số 4: Cloud rất tiện và rất tối ưu khi bạn hạch toán bài toán: dùng tới đâu chi phí tới đó 

Điều này rất đúng. Bản thân nhiều tổ chức mới startup, đã startup, lớn, nhỏ và đặc biệt các tổ chức cần phân tích đa quốc gia qua internet; các bài toán đầu tư ngoài lãnh thổ; các bài toán không cần bảo mật sở hữu thông tin; các bài toán xử lý thông tin không nhạy cảm....rất thích kiểu sử dụng tới đâu chi phí tới đó.


Và phải nói thêm: nó rất tốt cho startup, những bạn chỉ có 1 laptop và 1 ly cafe; không có trụ sở; không có máy chủ; không có tên miền. Bạn chỉ cần ấn 1 nút các thứ đó có hết cho bạn với điều kiện bạn pay một chút chút. Và càng rẻ hơn nếu pháp lý doanh nghiệp của bạn là rõ ràng. Có khi cloud là $0 với bạn khi bạn đủ điều kiện trên.


Kết luận: dùng tới đâu chi phí tới đó khi bạn tính toán, và dữ liệu nhỏ. Khi bạn tính toán, biến đổi dữ liệu trung và lớn nó sẽ là vấn đề. Điển hình các bạn doanh nghiệp tôi làm việc khi sử dụng và tính toán trên cloud >$2-4k/tháng là họ thấy là tốn rồi.


🎯5. Kết luận số 5: Cloud luôn luôn có CHỨC NĂNG LƯU DATA CUẢ BẠN sang nơi khác

Hậu quả: khi data đưa lên đó được, đơn giản và nhẹ nhàng sao lưu; và sẽ lại được nhẹ nhàng bán cho bên thứ 3 nếu họ có nhu cầu

Phản biện: ah..để backup anh; ah để hỗ trợ anh chị khi ..quên pass


Ví dụ 1:

- Tôi bàng hoàng khi các bạn của tôi họ làm các dịch vụ kiểu: Chốt đơn; tức là cứ click vào dòng comment fb của bạn nào là...ra số điện thoại hay thông tin cá nhân. Tôi hỏi họ lấy data nhạy cảm người Việt ở đâu. Họ bảo họ mua fb. Quá tuyệt!

- Trường hợp khác, tôi đã thay đổi cơ chế login ssh, và chỉ sử dụng chuỗi rsa để login (tôi thề). Xong một ngày đẹp trời tôi quên mất pass của chuỗi rsa đó. Theo tưởng tượng của tôi là cần recover lại máy thời gian trước đó. Hoặc tồi tệ nhất là reset máy. Tôi hỏi hỗ trợ, bạn hỗ trợ ý đưa luôn ra một cổng ssh mà tôi chỉ cần...pass của admin máy đó là vào đc. Quá tuyệt! Bạn hỗ trợ làm tôi hết bàng hoàng này sang bàng hoàng khác. Thay đổi hẳn suy nghĩ vận hành máy desktop của tôi.


Vậy hai ví dụ trên minh chứng cho bạn rất rõ việc: khe hổng dữ liệu cũng như cloud (như các sếp nói) nó bảo mật mà... nào là nó tiên tiến và có chuẩn này chuẩn kia... abc. Không bạn ạ! Tất cả đều dựa trên NHU CẦU MUA BÁN DATA. Nơi nào cần cái gì, sẽ có nơi đó bán. Quan trọng là bạn có chịu chi hay không thôi.


Kết luận: Bạn nên dùng cloud theo kiểu có hợp đồng và quy định bảo mật thông tin rõ ràng với bên đang cho thuê cloud. Cam kết xử lý pháp lý khi có dấu hiệu (bạn phát hiện) dữ liệu bị phát tán.


🎯6. Kết luận số 6: Cloud luôn có những công nghệ MỚI NHẤT và thử nghiệm tuyệt vời cho người mới vào ...bất cứ NGHỀ nào, xong bạn cần biết kiến thức công nghệ thông tin cơ bản.

Hậu quả: nếu bạn mới tiếp cận thì...nó sẽ tốt. Xong khi team của bạn hiểu cơ bản hoặc đã làm quen với ứng dụng Windows, đã quen với vào ra internet, đã quen với việc tạo trang web, đã quen với việc đưa nội dung lên trang, giám đốc bạn quen với Tiếng Anh.


Ối zời ơi: lại nói vấn đề Tiếng Anh. Có một số giám đốc 9x cậy mình có nhà ở VinHomes, có GL300, nên...mặc kệ. Thôi để Tiếng Anh nhân viên nó làm. Để tin học nhân viên nó làm. Rất hay. Cũng đúng vì họ đã VỀ ĐÍCH rồi. Cần gì cập nhật nữa.


Ôi thế sao các ông lớn cloud vẫn đang cập nhật. Vì đơn giản họ suy nghĩ khác mình. Vì đơn giản họ càng ngày càng mong muốn tốt hơn, duy trì sâu hơn với người dùng. Tiện lợi hơn với người dùng. Còn anh em giám đốc nhà ta: thôi mình lo cho gia đình nhà ta thôi; con cháu nhà khác mặc kệ.


Ví dụ:

- Có bạn 8x hỏi tôi: ôi anh ơi chồng em ngại làm công nghệ mới lắm. Tôi trả lời: a giờ 50 rồi vẫn làm và vẫn thay đổi vì...đơn giản công nghệ thay đổi mình phải thích ứng.

- Có bạn 9x hỏi tôi: anh ơi e suy nghĩ làm phân tích dữ liệu không rõ học ngôn ngữ A hay B. Tôi trả lời: e cứ làm học hết những cái e nhìn thấy đi. Nhất là các bài viết. Nó bảo e dùng ngôn ngữ gì e học cái đó. Sau này e phục vụ người khác e mới thấy các ngôn ngữ đó cái nào mới tốt.


Kết luận: Cái thay đổi là tùy từng não người rồi. Không làm hô biến được.


🎯7. Kết luận số 7: Cloud luôn có những công nghệ LUÔN CẬP NHẬT, và khiến bạn và team luôn PHẢI đổi mới và đi theo. Cái sau rẻ chi phí hơn cái trước.

Hậu quả: nếu bạn mới tiếp cận thì...nó sẽ tốt. Xong khi đi cả năm, hai năm với cloud bên X, bạn sẽ thấy họ thay đổi kiến trúc. Khiến bạn cũng phải thay đổi theo.


Chắc chắn là như vậy. Vì nó, cloud, là hàng hoá để bán, nên nó cần luôn làm mới. Đôi khi hàng hoá đó được thay đổi theo giây, phút. Bạn sẽ thấy chóng mặt nếu bạn không đáp ứng kịp. Vậy nó sẽ không sao nếu tổ chức bạn nhỏ và ít người, chi phí thay đổi không cao. Xong nếu tổ chức lớn, rộng, nghiệp vụ đang làm...sẽ KHÓ THAY ĐỔI. Sẽ khó cập nhật.


Thực tế tôi thấy: nhiều tổ chức thay đổi logo nhanh lắm; xong hỏi họ if else excel..họ cũng không biết. Hay là..chúng tôi luôn phải dạy họ công thức tính hay tính cộng trừ trên excel như thế nào. Hay là những bạn lập trình viên chuyển nghề không hiểu lỗi lập trình vì... không biết tiếng Anh.


Kết luận: cần học Tiếng Anh ngay thôi.

.

.

Vài quan điểm.


Còn bạn, nhờ bạn phản biện các trường hợp sử dụng cloud bên tổ chức bạn nhé, để giúp các fans của group thấy bài toán toàn cảnh hơn.

Gluk!