Bài viết chuyên sâu

10 Quan niệm sai lầm PHỔ BIẾN hoặc còn lần chần với các newbie làm về dữ liệu.

10 Quan niệm sai lầm PHỔ BIẾN hoặc còn lần chần với các newbie làm về dữ liệu.

by Admin Dathoc -
Number of replies: 0


10 Quan niệm sai lầm PHỔ BIẾN hoặc còn lần chần với các newbie làm về dữ liệu.
Mở rộng hơn cho Data Analylist, Big Data engineering.
.
.
.

Nay 2020, tổng kết lại một số quan điểm sai lầm với những người mới bắt đầu hoặc, tập tễnh.... lam DATA vào forum hỏi.

Và mình cũng không phải chuyên gia, chẳng có bằng cấp gì cả. Nhưng mình được cái có nhiều cơ hội làm với data của các tổ chức lớn.

Bỏ qua các kỹ năng Tiếng Anh, gõ 10 ngón, kỹ năng gỡ nút vấn đề, trình bày, ....kỹ năng ngồi 1 phút nói phét và tiền tự về vài tỷ 1 ngày....

Vậy nếu là phổ biến thì phải nói tới:
.
.
.
1. Em có bằng này bằng nọ, lý thuyết 1-2-3. Xong sản phẩm cụ thể, bài làm cụ thể .... e chẳng có gì cả: đặc biệt lứa những bạn 98 -2k:

Có thể bạn BEST về học lý thuyết nhưng thực hành và sp bạn lại không có <--- Bạn sẽ luôn luôn bị gọi là những con vẹt khi làm thực tế. Và sẽ bị không chốc thì muôn cũng bị reject khỏi những người phỏng vấn bạn, những người xung quanh làm việc với bạn. Hoặc bạn sẽ chỉ được coi là a giúp việc trong gia đình lớn.

👉Vậy giải pháp là: cần chứng tỏ sp đã làm, bài tập đã có của bạn ít nhất 60% match với những gì ...công ty khác đang làm, hoặc nhu cầu công ty đang cần.
.
.
.
2. Ngại và 100%...không thể học với một chủ đề mới ngôn ngữ mới - đặc biệt lứa 93-90x:

...họ nghĩ là họ đã già? họ nghĩ là có gia đình và... bắt đầu thấy thân hình nặng nề rồi??

Tôi u50 vẫn tiếp tục học mới và học hỏi online hàng ngày.

Data Analyst, e chỉ thuộc lý thuyết và vài câu SQL. Ah thế có nghĩa là e xong việc phân tích? E thuộc thuật toán, ah có nghĩa em là master trong nhóm? E thạo tiếng Anh? nghĩa là e ok với KH nước ngoài????

Sếp giao: Em ơi vẽ vời đẹp đẹp cho a một GUI website...vứt lên đâu đó và để a demo khách hàng <--- chắc chắn ko phải chuyên môn của bạn. Bạn không làm. Vậy bạn sẽ tèo với chính team đó.

Sếp giao: E ơi đi uống rượu với ông A ông B khách hàng mới sang. Bạn ngại!!! <--- vậy bạn cũng tèo.

Sếp giao: E check hộ anh con server nó chạy chậm..... Bạn không chuyên!!! <--- vậy bạn cũng tèo.

👉Vậy giải pháp là: cần chứng tỏ ở môi trường nào bạn cũng chơi được: frontend, backend, Devops.
.
.
.
3. E muốn làm data, nhưng lại vào các công ty... không chuyên data

Luôn khuyên các bạn là:
- Bạn muốn có tiền thì nên đứng vào chỗ tiền đi qua nhiều
- Bạn muốn có việc, nên đứng vào chỗ việc chảy qua lại nhiều
- Bạn muốn có data, nên đứng vào chỗ nơi nhiều data chảy qua

👉 Vậy: hãy gạt bỏ các công ty về nghiên cứu, khảo sát. Mà hãy vào những nơi đang động đậy về:
- Truyền thông truyền hình
- Mạng viễn thông
- Vận chuyển, logistic
- Bán lẻ /bán buôn và hàng hoá bán giao dịch triệu gg/ngày
- Bênh án
- Tội phạm
- Dân số
.
.
.
4. Em muốn làm data những mới, cái đẹp, cao siêu... nhưng coding e không biết
Rất rất nhiều bạn vào công ty làm và... chỉ chờ cuối tháng đợi lương.
Đây luôn là những ung nhọt mà Nhân sự cũng như Giám đốc rất khó chịu
Và khi họ bảo bạn nghĩ ra hướng mới, làm như...làm đẹp như người ta thì bạn... ngại sáng tác, vì 3-4 năm năm cố hữu bạn thấy như hiện tại đã tốt rồi chỉ vì....
- Đổi mới thì bạn phải học.... thiết kế
- Cho hệ thống cao cấp hơn chuẩn mực hơn thì.. bạn và team sẽ có thể phải làm lại, tạo lại... vậy coding không thể tránh khỏi.
- Hoàn toàn có thể đi thuê. Xong như thế bạn phải có một trình độ hiểu những gì những người làm thuê viết. Vậy vẫn phải học coding.

👉 Vậy cần thay đổi quan điểm: data mỗi lúc mỗi khác. Sáng bạn vừa lấy, chiều đã thay đổi. Mô hình không luôn đúng mọi lúc. Hệ thống cũng cần thay đổi. Vậy hãy tự học thêm: lập trình. Tự học tạo lấy tiện ích, hệ thống của chính tổ chức để 2-3 ... 10 năm thay đổi cái cũ
.
.
.
5. Em muốn làm trên Exel, CSV editor, JSON editor.... SQL query, hay mở bằng ...notepad những task dữ liệu cỡ 20-30 GB

Bạn thân mến những cái bạn đang làm về DATA và đang viết code từ cấp học phổ thông tới Đại học thậm chí sau Đại học... những cái đó là LÝ THUYẾT.
Cả nghĩa đen lẫn nghĩa bóng.
Đặc biệt ở VN, nơi chưa nổi trội nhiều các công việc quản trị dữ liệu lớn.

Cụ thể:
- Cơ bản cơ sở dữ liệu 3 chuẩn <--- dữ liệu lớn, dữ liệu vừa ko dùng tới những cái này. Những cái này bị phá vỡ.
- 90% học sinh sinh viên, bạn đc dạy (ở VN) code trên Visual Studio, Eclipse, NetBean.... và không thể áp dụng những cái đó cho tạo ứng dụng Dữ liệu lớn hay rộng hơn..... Ứng dụng trí tuệ nhân tạo
- Bạn được dạy SQL query để làm truy vấn, biến đổi ... và tới khi đi làm cho tổ chức, bạn phát hiện ra khi biến đổi cả tỷ bản ghi bạn chờ rất lâu cỡ 2-3 ngày thậm chí 1 tuần chưa tính toán xong. Thậm chí hệ thống treo.
- Bạn muốn thực hành và chuyển đổi cả chục GB dữ liệu trên ổ cức 4-5 TB của bạn và bạn phải chờ ....1-2 tuần.

👉 Vậy cần đọc thêm học thêm về:
- Clustering programming
- Column data storage
- Distributed querying
- Workload multithreád programming
.
.
.
6. Em muốn công ty cho e .....việc về Data
Lại nhắc lại: rất rất nhiều bạn vào công ty làm và... chỉ chờ cuối tháng đợi lương.
... và chờ công ty giao việc data.. tôi mới làm

👉 Đổi lại
- Tự động hỏi và tự chuyển đổi thu thập. Ví dụ sếp bảo: Không biết đối thủ thế nào, tình hình kinh doanh tháng vừa qua... Hoặc sếp chưa hỏi, đã phải biết chọc vào các loại kho dữ liệu của cty, các phân khu chi nhánh mà tự động lấy về. Rồi tổng hợp trưóc đễ sẵn. Khi sếp hỏi thì đưa ra.
- Không phải chờ tới cuối năm cuối kỳ khi hỏi các thứ liên quan về việc bán... ví dụ, mật ong, mới đưa ra các dự báo kiểu như: bao nhiêu ng xem sp qua web, qua mobile... bao nhiêu click vào mật ong thô hay mật ong sáp? Có bao nhiêu khen chê sp này trên mạng? Ship hàng trong toàn tháng vừa qua bao nhiêu trả lại, bao nhiêu thành công? Vì sao trả lại??

Chẳng nhẽ giao việc bạn mới làm???
Và làm bằng cách nào? Như thế sẽ làm bạn hoàn toàn khác biệt với... những người còn lại.
.
.
.
7. Em muốn tạo chuẩn mới, thuật toán mới cho ...data của tổ chức

Rất hoan ngênh các bạn tham gia tạo những chuẩn mới và thuật toán mới. Xong khi tạo xong nhìn lại anh em lại thấy thực ra nó là cơ bản của các thuật toán đã có, thập chí đã đc thực thi và áp dụng và đã đc thương mại.
Nói thế không có nghĩa không có đất cho bạn sáng tạo.
Bạn cứ sáng tạo, những cần hiểu là bên cạnh bạn... thằng không tên mang tên THỜI GIAN đang giết bạn.

👉 Vậy:
- Chỉ cần bạn làm và áp dụng tốt những thuật toán đã có đã được rồi
- Như NVIDIA nêu, bạn có lẽ không có đủ dữ liệu để tạo mô hình; ví dụ cỡ 2-3 triệu ảnh học sinh VN bạn mới có thể có một mô hình xác định chuẩn đoán tuổi hoặc giới tính về sinh vien học sinh VN. Vậy nên tạm dùng và dựa vao đó train ... BỔ SUNG vói số ít dữ liệu của bạn.
- Trong các công việc về NLP. Nhiều người đặt câu hỏi là: Tại sao Google, Microsoft, IBM, AWS chưa có những dịch vụ sát sườn về âm lẫn tiếng của Việt Nam. Chỉ đơn giản là thực sự ngữ pháp của chúng ta khó hơn họ nghĩ. Họ có thể tạo ra các sp nền tảng đơn giản như: đổi âm thành từ, tổ hợp từ... nhưng khi hiểu và dịch đúng nghĩa..... <--- toàn ra kết quả không đạt. Do vậy bảo vệ tên tuổi họ không làm.
- Tại sao bạn TQ làm ảnh nhận diện chính xác cao thế. Mà ở VN có những công ty làm 5-10 năm không dám đưa ra sp nhận diện 100%. Và không dám bán: Sản phẩm chấm công; hay Sản phẩm kiểm soát Học sinh trường tiểu học. Vì đơn giản nhận diện luôn sai 1-2%. Và bạn có hiểu nếu sai 1-2% thì sẽ thiệt hại hế nào ko?
+ Có thể bạn đó vào cty mà không ai biết và lấy trộm đồ
+ Có thể nhân viên đó suốt 1 năm bị tính nhầm lương
+ Có thể ai đó quên mất trẻ đi trên xe hoặc xuống xe ôtô như vụ Gateway.
... tóm lại để 1-2% xảy ra rủi ro nó rất cao. Gần như cả tổ chức không thể bù đắp.
.
.
.
8. Ban ý làm 70 dòng code, tạo được mô hình nhận diện. Đây e cũng làm trong 1 ngày có được nhận diện giới tính, tuổi ở tổ chức mình
Một phần câu trả lời từ ý 7 trên.
Có rất nhiều thiên tài hiện nay chỉ cần 50-70 dòng code có thể kiếm tới cả trăm triệu đồng trong 1 năm.
Mình không khuyên các bạn làm kiểu đó. Vì đối với data cần sự chuyên sâu tích luỹ kiến thức transform và nền tảng lưu trữ và thu thập.
Thêm nữa là cần sự thích ứng với công cuộc đời sống của khách hàng. Vì không nhu cầu nào giống nhu cầu nào.
NVIDIA khuyên bạn nên thuê máy để tạo model riêng. Vậy thực ra công việc là ... thu thập dữ liệu chứ không phải coding nhiều. Và ngồi chờ ra model.
Sẽ là không phù hợp nếu chúng ta cứ lấy mô hình nơi khác về và dựa vào đó phỏng đoán. Từ cả việc nhận diện biển số, lẫn nhận diện khuôn mặt, rộng ra là tuổi giới....

👉 Vậy nên là:
- Nếu có thực lực các bạn cứ tự thu thập tự trên
- Nếu không có thực lực thì train kèm model chuẩn của Thế Giới
- 1 ngày công sẽ chỉ là như bao ngày khác nếu không phải là sự tích luỹ của cả năm cộng lại.
- Còn code 70 dòng và ra nhận diện đúng trong 1 ngày <-- thì nên cho bạn này làm thủ tướng Nưóc nhà.
.
.
.
9. E lấy mô hình, chuẩn, dữ liệu.... của người khác, rồi thực hiện app cho business nhà ta.
Nhắc lại:
NVIDIA khuyên bạn nên thuê máy để tạo model riêng. Vậy thực ra công việc là ... thu thập dữ liệu chứ không phải coding nhiều. Và ngồi chờ ra model.
Sẽ là không phù hợp nếu chúng ta cứ lấy mô hình nơi khác về và dựa vào đó phỏng đoán. Từ cả việc nhận diện biển số, lẫn nhận diện khuôn mặt, rộng ra là tuổi giới....

Nếu bạn đang làm với CPU và OpenCV thực ra mới chỉ là tập sự cho việc computing visioning
Nếu bạn mong muốn công nghiệp với nghề nhận diện vậy bạn phải dùng CUDA và OpenCV trên CUDA, và qua GPU xử lý infere.

👉 Vậy:
- Cần phải tự tạo dữ liệu riêng cho đặc thù tổ chức môi trường và tạo ra chuẩn mô hình cho đặc thù đó.
.
.
.
10. E muốn code chỉ 75 dòng thôi, nhưng bán phải được doanh thu 3-4 triệu/ngày
👉 Chỉ tóm lại:
- Còn code 70 dòng và và bán doanh thu 3-4 triệu/ngày <-- thì nên cho bạn này làm thủ tướng Nưóc nhà.

.
.
.
====================================
Vậy còn chần chờ gì không tự học thêm, học miễn phí online, có phí tại dathoc.net.

Welcome!!!