[Data mining Fab]
#koolj_dataengineering
Phần tiếp cho việc "xay lúa" Fab ra xiền cho các ace thích lấy data để kiếm xiền một cách...theo pháp luật!
Theo wikipedia.org/wiki/Luật_An_ninh_mạng_Việt_Nam
Theo luatvietnam.vn, về xâm phạm đời tư
👉 Ace không được lưu giữ, trao đổi, mua bán thông tin riêng tư --> hien a e đang xào nấu toàn tt public -> ok
👉Ace không được tuyên truyền tt vi phạm Luật & Hiến pháp VN --> ae ko làm cái này
(còn gì thiếu, chưa rõ bà con cho biết thêm - de a e sua chua)
Nhà nhà người người dưới cái nắng 40 độ đua nhau ra bãi biển, đồng cỏ, đồi núi...còn a e mình biết đa số đang miệt mài với việc mining, việc "xay lúa" Fab ra .... một ý nghĩa nào đó.
🎯 Giải thích một số ảnh kèm, hnay nêu một kỹ thuật đi sâu vào nhu cầu thực thu của ace luanh quanh "mắm tôm" với Fab.🎯
Đây cũng là trải nghiệm ae làm nhiều.
Bạn có thể tìm thấy ít (1-2%) nhu cầu thực sự của post chính
Bạn có thể tìm thấy kha khá (20-30%) những gì fans like hoặc comment trên post (như post trước đã nêu)
Bạn có thể tìm thấy 90% đúng các nhu cầu thực sự fan đang cần o các... live stream videos.
-> Đây là một sự thực.
Song mỗi ngày có cả ngàn clips đưa lên từ các mẹ bỉm sữa bán ...tất tật đủ thứ.
Xong sau 1 ngày đêm, a e lấy đc 20k nhu cầu -> cũng ổn đấy chứ
Các ảnh đính kèm:
👉1. Ảnh đang lấy comment từ một video có 5k comments. Mỗi bài này mất khá lâu. Cỡ 10-20 phút. <--- chắc phải tối ưu dài dài
👉2. Thuật toán lấy các comment: tiếp tục click view more comment tới khi nào hết thì thôi. Click tới đâu, lưu tới đó.
👉3. Thuật toán lấy các comment: 3 bước. Để comment luon là gắn với 1 uid. Và được dồn vào 1 bản ghi, ae phải làm 2 nhóm mảng song song: 1 nhóm mảng là lưu từ đầu, 1 nhóm mảng là lưu những cái đang showmore hiện tại. Cứ thấy cái nào trùng sẽ dồn comment của uid đó lại.
👉4. Thuật toán lấy các comment: lưu lên couchbase
👉5. Chi tiết một record đã lưu comment dồn. Như a vậy a e chỉ việc lưu 1uid trong 1 session bán hàng, và tất tật comm của uid đó
👉6. 1 ngày có 20k uid mua bán đc lưu -> tôi nghĩ như thế này ok với trình...cào cào này. Ko thể so được với việc có token. Có thể 30 giây bạn có đc số lượng này.
👉7. Gói 90tr bản ghi khi ở dạng gzp = 600 MB. Ổn đó chứ.
👉8. Mong đợi client UI cuối. <---- song cần tinh chỉnh nữa, thay đổi thêm
Mong góp ý từ fans gần xa!
==============================
🎯 Bài viết phục vụ khóa học
👉Tổ chức:
- 1 lớp LIVESTREAM từ 5-8 bạn, buổi tối từ 7h, 9h. Mỗi buổi 1h 15 phút. Bắt đầu từ 27/4
- Không cần bạn biết coding hay tiếng Anh. Chỉ cần kỹ năng Excel, xem nhận biết tin tức, tập hợp phán đoán kết quả
- Donation: dathoc.net/donation
500k vnd/ bạn (đã giảm 70% hỗ trợ khó khăn mùa dịch Covid19, học phí đã từ 2015 là 1tr500k vnd qua livestream)
👉Đăng ký: https://forms.gle/9gKHUsfZLHVpPwso9
Hosted by: dathoc.net/cv