Bài viết chuyên sâu

8 kỹ năng của quyển sách Data Crawl Professional

8 kỹ năng của quyển sách Data Crawl Professional

by Admin Dathoc -
Number of replies: 0

Vâng gửi lớp BotCrawl,
#koolj_dataengineering

Mình phân ra những case cho các bạn tiếp thu 8 kỹ năng của quyển sách Data Crawl Professional nhé.

🎯0. Cơ bản:
- data_basic_xxxx
- lưu ý input: thiết kế step trong xls, thiết kế loop
- lưu ý output: trong folder report, file được đặt tên với từ khoá saveallarray
- hiệu năng: ko sợ động từ JS class từ html, bạn có thể chạy cả tỷ lần với in/out khác nhau trong 7-8 dòng Excel. Kết hợp readCSV hàng cột cho động hơn.

🎯1. Crawl cho ảnh + profile facebook
- data_getseed
- lưu ý input: kết hợp searchframe và stringseed để ra những phối hợp. Sẽ sinh ra seed để đọc từ đây
- lưu ý output: file gooimg_done, gồm những cái đã lưu là tên ảnh, và link ảnh, folder impfb4 là nơi lưu ảnh
- hiệu năng: ko sợ động từ JS class từ html, chạy cả nghìn dòng, và chạy lại cũng ko sợ lặp vì sẽ check qua gooimg_done để duyệt những item đã lấy.

🎯2. Crawl JSON forum data
- data_forum
- lưu ý input: tương tự như getseed
- lưu ý output: đôi khi Google ko cho lây json output, recheck lại từ custome search

🎯3. Crawl Tiktok
- dathoc_gettiktok
- lưu ý input: tương tự như getseed, đã định nghĩa sẵn bound của link videofile
- lưu ý output: vậy sẽ trả ra trong gooimg_done list file mp4. Bạn cần trình download để lấy file này. Hoặc dùng aria2c (https://aria2.github.io/) để lấy

🎯4. Crawl comment, post từ Google
- dathoc_gettiktok (thủ thuật tương tự)
- Xem các test4-5-6-7 để làm theo

🎯5. Crawl đơn hàng text từ FB livestream
- dathoc_getvideocomm
- lưu ý in/out: cần có list chủ các video. Bot sẽ tự vào từng video bóc tách comment đang có. Vậy có những live mà chủ video disable, sẽ ko lấy đc. Vậy cần chạy multi session để lấy chiều livestream trong ngày cùng lúc.

🎯6. Crawl voice TV
- sử dụng ai_voiceTV
- lưu ý in/out: cần bật voice app để speech2text

🎯7. Crawl tin mới, ý ới mọi nơi khác nhau
- Kết hợp dathoc_basic_gettable_loop và gettiktok

🎯8. Crawl geolocation map một vùng
- dathoc_addtoll.xls (lấy latlong từ một huyện/phường)
- dathoc_getherelll.xls (lấy địa chỉ từ series latlong)
- lưu ý in/out: Chạy project NodeJS host_gps, đua key bạn đăng ký Google Map Api, Here api để chạy vào file database/model/User.js. Kiến trúc là lấy các huyện phường xã, dùng addtoll để lấy ra latlng. Sau đó gethrell để lấy ra địa chỉ, địa danh

🎯9. Crawl 10-20 session
- Chạy các case trên với run2.xml. Default là 10 session. Bạn có thể tăng thêm.
- Lưu ý: mỗi luồng sẽ chiếm của bạn cỡ 100MB, vậy cần tính toán số lượng định nghĩa trong run2.xml để chạy cho phù hợp với cấu hình

Các bạn thử với gói mới nhất hera_wcrl3_may3 ... nhé.
Có gì chưa hiểu alert mình,

============================
Để học và thực hành LIVESTREAM: 1 thầy 7 trò (chuyên gia sale, marketing, kinh tế không biết code, không biết Tiếng Anh) qua mạng, mời bạn vào Khoá BotData - với những kỹ năng nêu trên- thông tin tham khảo chi tiết, đăng ký ghi danh, donation qua:
Dang ky: https://forms.gle/9gKHUsfZLHVpPwso9

Để tham khảo sách vở sẵn có, mời bạn:
SÁCH TÀI LIỆU THAM KHẢO
🎯Sách tài liệu cho Kỹ sư kiểm tra kiểm thử phần mềm, software tester:
https://dathoc.net/booktest
🎯Sách tài liệu cho DA engineer - Data Analyst, Data Analytics Engineer - Kỹ sư phân tích dữ liệu kinh doanh:
https://dathoc.net/bookda
🎯Sách tài liệu cho DE, Bigdata engineer - Kỹ sư phân tích, khai thác dữ liệu lớn:
https://dathoc.net/bookbig
🎯Sách tài liệu cho AI, ML, DL - Kỹ sư gia công Trí tuệ nhân tạo, máy học, học sâu - Kỹ sư vẽ bản đồ:
https://dathoc.net/bookml
🎯Sách tài liệu cho DA Visualizer - Kỹ sư trình bày dữ liệu :
https://dathoc.net/bookvis

Hosted by: dathoc.net/cv