Blog

Luận về nghề nghiệp computing vision, Việt language nlp

Luận về nghề nghiệp computing vision, Việt language nlp

by Admin Dathoc -
Number of replies: 0

#koolj_deepimage



Chắc 23h đêm, mùa đông nữa, nên chắc bạn nào cũng êm ấm chăn đệm rồi. Hoặc nằm ôm mèo, ôm phone chơi điện tử hoặc lướt tiktok


[Luận về nghề nghiệp computing vision, Việt language nlp]


1. Về các công việc và nghiệp xử lý ra quyết định trên ảnh

Gần đây mình nhận khá nhiều các việc kiểu như:

- Anh anh giúp e xử lý dự án này gấp gấp theo thuật toán A, ứng dụng B tách câu, cảm câu

- Anh anh giúp e làm demo SVM, BRNN

- Anh anh a xem có lớp computing vision cho 1 tháng đi

- Anh anh em muốn tạo RL Stock predicting

- Anh anh em muốn tạo botchat Việt


☝️Điểm lưu ý 1: Rồi các bạn ý sẵn sàng bỏ ra 10 triệu, 20 triệu để học. Trong 5-10 ngày, thực sự mình thấy những kiến thức đó là quá sức với các bạn đang gồng gánh. Chợt suy nghĩ là: Tại sao các bạn không chỉ đơn giản search Google xem các Nơi khác nó dạy học và bao lâu để thấm để ngấm. Rồi hãng quyết định đi vào một nơi mà nó cũng khá đồ sộ và nhiều kiến thức... xong chỉ muốn nhét vào não trong 5-10 ngày.


☝️Điểm lưu ý 2: Trong các thời gian tôi trao đổi với các học viên, tôi thấy các bạn ý thiếu TRẦM TRỌNG các kiến thức sau như:

- Các lệnh operation của linux

- Cơ bản của OOP: ví dụ khai báo lớp, thừa kế, đặt cấu tử, sinh đa hình

- Tới mức tôi coding mẫu nguyên rồi chỉ làm theo thôi cũng... không được

- Một số bạn rất ngộ nhận: bạn ý làm xong mô hình và chạy băng băng. Xong cái khách hàng cần là ứng dụng chạy cho nó bạn ý lại không biết làm. Thôi bạn ý lại mất.


☝️Điểm lưu ý 3: Gần như các bài toán đã xử lý tâm đắc nhất các học giả, đặc biệt là các anh Hùng Trung Hoa (nói ko chơi) họ thực sự giỏi khi build những model về vision chuyên biệt luôn. Nhì tới là các anh tài Ấn độ, hay Isarel gì đó. Họ luôn đưa ra những hình mẫu và tính đúng đắn mẫu đó 100%. Vậy với các anh sinh viên, nông dân cần học theo thì đơn giản: các bạn lại search Google cho mình với bất cứ những thắc mắc của các bạn. Nhưng không các bạn lại thích muốn hỏi cơ. Ví dụ những câu hỏi đơn sơ thế này:

- Anh ơi em chạy như ảnh này và lỗi hộ em cái (Bố anh cũng ko hiểu e đang bị cái gì với những câu hỏi thiếu đầu đuôi dữ kiện thế này)

- Anh ơi e dịch C thế này tại sao sai (nhìn lỗi biết ngay bạn thiếu file .h - vì lỗi của bạn báo thế). (Ôi sao bạn không phát hiện ra)

- Anh ơi em đổi sang máy khác thì lại bị thế này, thế kia (Đơn giản em chạy lại đúng môi trường thôi, nó định nghĩa là môi trường ảo để làm những công việc đó)

- Anh ơi em không hiểu sao nó không iterate đc vòng lặp này; anh ơi e ko hiểu tại sao e loop qua key-value ko thấy gì (ôi đơn giản bạn debug thôi - còn debug thế nào thì Truờng đại học phải dạy bạn chứ- nếu bạ tự vọc thì nên Google xem dubug cùng tên ngôn ngữ của bạn)


☝️Điểm lưu ý 4: Một lớp ảnh vision, có thể phải mất tới 500 ảnh tới 100k ảnh mới coi là một lớp ổn định.

Huống hồ chúng ta luôn gặp bài toán, vd: có 9k lớp khác nhau, xong mỗi lớp chỉ có 1 ảnh

Hay là: có 14 lớp, xong có tới 15 k ảnh (cũng dồi dào)

Bước tiếp phải nghĩ tới làm giàu dữ liệu. Xong rất nhiều bạn hăm hở Google colab. Mình chỉ nghĩ coab chỉ là nơi để test và thử. Còn chạy trăm chạy ngàn cái vector trên đó... có lẽ không ai mong muốn cả. Vậy đơn giản bàn dành tiền mua những máy xử lý gpu nhỏ để thử trước: Jetson Nano, Xavier ... có thể là điểm khởi đầu. Cũng chưa tới chục triệu đâu nếu bạn chọn thời điểm mua đúng.

Còn đối với các con card trên thị trường:

+ 4tr một con 1660

+ 25tr một con 3080

Bạn cũng ko thể nhanh hơn 3 ngày cho một mô hình cỡ 20k-100k ảnh mà cho máy chạy vật lý chạy suốt. Hay 300k câu hay nói của người Việt cho bạn dịch hoặc tìm lỗi. Còn thuê cloud, ôi chắc lại 700k vnd/giờ/ngày. Không tiền nào đỡ được


☝️Điểm lưu ý 5:

Có bạn lại thắc mắc, ôi mình xử ảnh 4k, 1080 training băng băng.

Sorry bạn Nvidia Cuda chắc mới tới chuẩn 350x350 các ảnh training, yolo suất sắc nhất khi đưa ảnh vào cỡ 640. Còn nếu 1080 hoặc 4k chắc bạn phải có những hệ thống dữ liệu máy lớn để train. Vì chuyên gia sẽ khuyên bạn không nên sử dụng gpu để train cả trăm ngàn ảnh 1080 hoặc 4k với hoang phí như vậy. Nó sẽ phải hdfs hoặc lõi meso để sử dụng với thuật toán tính toán dữ liệu tập trung trên đa node. Bài toán này là thông thường cho ảnh viễn thám, vệ tinh....


Tức là tóm lại: chưa bao giờ thấy computing vision nó tốn thế này

.

.

.

2. Về các công việc và nghề nghiệp luyện câu từ tiếng Việt


☝️Điểm lưu ý 1: Không rõ đã bạn nào đã xử lý một bộ ngôn ngữ: ví dụ bàn toán tìm sai từ câu; hay ví dụ bài toán dịch song ngữ đi. Tôi đoán các mô hình của các bạn cũng phải mất: 500mb tới 1 gb data. Vậy theo tư duy anh em sẽ load nó lên ram để chạy những task realtime như:

- Chỉnh câu sai đi

- Sinh câu mới đi, theo cách viết phóng viên X đi

- Thêm nữa, lại là tiếng Việt

Vậy cứ tính máy server của bạn ram khoẻ, cpu khoẻ, vậy cũng sẽ tốn GB ram rồi. Vậy với 1 model cho 1 phóng viên là 1GB. 10 phóng viên là 10GB ram. Vậy với môt toà báo hay tổ chức làm về AI về ngôn ngữ chắc ko đủ tiền để thuê server như vậy


☝️Điểm lưu ý 2: Lại là bài toán phục vụ nhu cầu gì

- Với nhu cầu tách câu từ, phân loại từ, nhận diên từ: các anh tài Việt có cỡ 100-200 git trên internet

- Với bài toán sentiment câu Việt, có khoảng 20 git

- Với bài toán sinh câu tự nhiên, tóm lược câu Viet, có cỡ 2 git

- Với bài toán hiểu câu Việt và dịch đúng: hình như có 3 giải pháp, xong không đưa lên git nào.

- Và tuyệt nhiên không thấy anh tài Việt nào đi sâu hơn nghề sửa ngữ pháp tiếng Việt. Bản thân bạn thấy điều này với ng Việt còn khó nghĩa là dùng deep network

Tôi có một bác bạn, gọi là bác vì bác phải tuổi bố tôi rồi. Bác cầm chịch khoảng 200 tờ báo Việt. Bác bảo: hiện giờ bác đã đi gõ cửa những ông lớn như Viettel, Mobiphone, FPT... xong không ông nào có giải pháp hỗ trợ rà soát bài viết Việt trước khi đăng bài cho các tờ báo của bác. Báo bảo: mỗi phó tổng biên tập mỗi ngày họ phải rà bằng mắt cỡ 800 bài. Xong giờ chưa có giải pháp các ông lớn. Chờ các bạn startup. Chờ các anh tài đất Việt.


☝️Điểm lưu ý 3: Độ khó của ngữ pháp Việt.

Trước đây mình đã phân định 10 loại ngữ pháp sửa câu khá khó, và cũng ko đưa ra được nguyên tắc chỉnh lý. Vậy phải làm cơ chế transform. Một trong nhiều cơ chế transform ai đã nêu nhiều trong các forum máy học gần đây là bạn sử dụng mô hình BART, và để nhiều mẫu để convert ngược ra câu đúng.

VD về bộ 10 kiểu ngữ pháp khó tiếng Việt: https://docs.google.com/document/d/1yebY2BmpDlGKTnwoSqdGlLAQYqS7k6qgWA23oq8vfc0/edit#heading=h.votuwhknl3ra

Hiện chưa có giải pháp. Chờ các anh tài đất Việt


☝️Điểm lưu ý 4: Để training bộ ngữ pháp Việt: A e mất 3 ngày với tốc độ batch 5, cho 50 epoches với card Nvidia 2080 ti. Tức là nếu bạn bỏ ra cỡ 30 triệu bạn mới có thể áp dụng NLP và trải nghiệm nó. Năm 2019 Nvidia có ra bạn Jetson Xavier NX, chỉ có tầm 10tr thôi (về VN cỡ 15 củ) cũng chỉ bằng 2/3 card 2080 rồi. Xavier là cỗ máy tính con có thể song song 2 phần vision và nlp. Còn 2080 ti chỉ là card vga, cần con máy 15 củ nữa mới chạy được. Vậy bạn hoàn toàn trong tầm tay để trải nghiệm.


☝️Điểm lưu ý 5: Nếu bạn ngại coding, vậy bạn nên thử simpletransformers.ai, xong cần máy khoẻ để thử. Vậy a em thôi đừng nhậu nhẹt nữa, tiết kiệm từ giờ để trải nghiệm nhiều món đồ chơi GPU cho AI trải nghiệm thực tế nhiều hơn.


☝️Điểm lưu ý 6: Thương mại giải pháp

Tôi lại có 2 người bạn khác. Một cũng đã trải nghiệm 8 năm cho voice Việt. Một cũng có time 5 năm. Xong tới giờ bảo họ thương mại giải pháp thế nào: các bạn đều lắc đầu: thôi anh em lại đi bán hàng online hoặc làm software outsourcing cho qua ngày (chính xác là AI outsourcing). Rất khó thương mại!


Tóm lại, vẫn thấy nlp ngôn ngữ chưa bao giờ tốn tiền và thời gian như vậy.

1654 words