Bài viết chuyên sâu

DA - Project Crawling

DA - Project Crawling

by Admin Dathoc -
Number of replies: 0

#koolj_dataengineering

#freelancer

#crawl

Đấy, ví dụ một số bạn ngồi không, trong nắng 38 độ C tại Hà Nội, giữa gió covi trong 4 bức tường, khi đang mong muốn học và làm tại Nhà parttime về DADe. Vậy mình có đề xuất làm này, xong các bạn nào có trình độ tương đương có thể welcome nhé. Hoặc bạn tự gánh luôn cả dự án cũng được. Hai người thì 50:50, 1 người thì cả 100%

Đây không TUYỂN DỤNG chỉ để guideline cho các bạn mới vào nghề có thể setting dự án DA DE với các đối tác khác tại VN.

.

.

👉A. Yêu cầu đề bài:

👉1. Về Bất động sản: Crawl được dữ liệu từ website; tập hợp khoảng 50 website diễn đàn bđs trên google.

VD 1 tin như sau:

      "content": "Quỹ căn CĐT và chuyển nhượng giá tốt nhất Sun Grand City Thụy Khuê cập nhật T8/\u003cb\u003e2021\u003c/b\u003e. LH: 0989898***. Quỹ căn CĐT và chuyển nhượng giá tốt nhất Sun.",

      "contentNoFormatting": "Quỹ căn CĐT và chuyển nhượng giá tốt nhất Sun Grand City Thụy Khuê cập nhật T8/2021. LH: 0989898***. Quỹ căn CĐT và chuyển nhượng giá tốt nhất Sun.",

      "title": "Nhà đất bán, bán nhà tại Hà Nội, diện tích: 100 - 150 m2",

      "titleNoFormatting": "Nhà đất bán, bán nhà tại Hà Nội, diện tích: 100 - 150 m2",

      "formattedUrl": "https://nhadattot.com.vn/nha-dat.../dt-tu-100m2-den-150m2",

VD tin 2:

      "content": "Hot! bán lại hơn 10 căn biệt thự Vinhomes Greenbay Mễ Trì cập nhật 14/6/\u003cb\u003e2021\u003c/b\u003e. LH: 0915906***. Hot! bán lại hơn 10 căn biệt thự Vinhomes Greenbay Mễ.",

      "contentNoFormatting": "Hot! bán lại hơn 10 căn biệt thự Vinhomes Greenbay Mễ Trì cập nhật 14/6/2021. LH: 0915906***. Hot! bán lại hơn 10 căn biệt thự Vinhomes Greenbay Mễ.",

      "title": "Nhà đất bán, bán nhà tại Hà Nội, giá: > 30 tỷ | Trang 10",

      "titleNoFormatting": "Nhà đất bán, bán nhà tại Hà Nội, giá: \u003e 30 tỷ | Trang 10",

      "formattedUrl": "https://nhadattot.com.vn/nha-dat.../gia-tren-30-ty.../p10",

      "unescapedUrl": "https://nhadattot.com.vn/nha-dat.../gia-tren-30-ty-0pn/p10",

.

.

👉2. Crawl từ fak.eboc.k: Crawl từ các group bất động sản/ từ profile cá nhân của các môi giới. 

Có thể lấy bài đăng (post) và link bài viết từ group. Xong cần tên group và user đăng ký vào group đó mới lấy được. fak.eboc.k sẽ tính lượt request. Thông thường 5-10 request cần nghỉ 5-10 phút.

+ Vậy nếu lây trên trang chính. Tốc độ sẽ không cao - 10-30 bài trên mặt trang/phút.

+ Nếu view và đi sâu bên trong (nội dung đầy đủ hơn). 3-5 bài/phút

👉3. Mining dữ liệu: như trên mô tả -> xác định nhà chính chủ dựa trên các từ khoá câu từ, chuỗi câu.

Và dựa trên thuật phán đoán của vispacy (https://github.com/trungtv/vi_spacy), ví dụ

Đầu vào loại "bán đất lẻ" là các câu từ:

- Bên mình đang có vài hecta

- Anh chị sang ngắm

- Mua xôi 5000

Đầu ra:

Tin 1 sau thuộc bán đất lẻ: "Đang có vài hecta đất cho thuê theo lô"

Tin 2 sau thuộc bán đất lẻ: " Sang ngắm anh chị thấy bộ quần áo rất hợp"

Tin 3 sau thuộc bán đất lẻ:  "Xôi mua 5000 vnd một xuất"

👉4. Storing:

 - có lưu trữ theo địa điểm (tp/ quận/ huyện/ phố). Nếu trong bài đăng có đề cập. Nếu ko lưu theo tỉnh thành.

  - Dữ liệu sắp xếp theo: loại hình Mua / Bán. Loại đất: nhà/ đất / chung cư / biệt thự (căn cứ theo keywords trong bài đăng)

  - lưu đc đường dẫn trỏ về fb đăng tin

-----> Có thể làm được. Sẽ lưu sang csv, thành các cột như yêu cầu: cột tỉnh/huyện/đia chỉ, cột mua/bán, cột loại đất

👉5. Hiệu năng hệ thống:

-----> Như đã nêu trên:

+ Trong fak.eboc.k group: trải nghiệm của mình trung bình cỡ 5/10 tin/phút

+ Với web mà view được: 10-500 tin/phút.

+ Thuật toán tự động nhận dạng nhà đất chính chủ với độ chính xác: hiện bên mình đang dùng vispacy (https://github.com/trungtv/vi_spacy) với từ điển câu chữ cho trước ---> để đoán câu data post đó thuộc loại gì. Vậy cái này sẽ mở bên bạn cần đưa loạt nhóm từ, câu chữ; hệ thống sẽ tự động train; và tự động filter trong lần crawl tiép theo. Tuỳ thuộc cụm từ, câu đưa vào

.

.

👉B. Hình thái sản phẩm chuyển giao và khuyến cáo tài nguyên chạy crawl:

- Gói phần mềm crawl (file jar, chạy trên cmd) + Hướng dẫn doc/video

- Gói phần mềm setup api nhận dạng (docker api nodejs) + Hướng dẫn doc/video

- Mỗi session sẽ ngốn ram 400 mb. Vậy nếu chạy nhiều session sẽ phụ thuộc ram có bao nhiêu.

- IP của nơi đang chạy nên thay đổi 1 ngày một lần

- Với web có thể cấu hình tốc độ crawl

- Riêng với fak.eboc.k, cần user id thuộc group đó. Và có thể bị mất bất cứ lúc nào. Không set được tốc độ crawl

Có thể xem mẫu các loại trải nghiệm bên mình đã từng làm: https://www.youtube.com/watch?v=lLDrUuw1RHc&t=267s

.

.

👉C. Cấu hình

- Bên khách sau khi mua hệ thống, sẽ tự chạy hệ thống trên tài nguyên của khách hàng

- Sau đó khách tự cấu hình như sau - nếu khó khăn bên mình sẽ hỗ trợ

- Cấu hình tốc độ multisession trên web crawl: qua file text

- Cấu hình website link: qua file text

- Cấu hình group fak.eboc.k link, userid, password (của bên khách hàng): qua file text

- Cấu hình từ khoá keyword để nlp lọc: qua file text 

- Cấu hình tự động bật tắt khi máy tính/server khởi động lại

.

.

👉D. Chi phí dự tính:

- Với đề bài hiện tại: nhadattot.com.vn và các group fak.eboc.k với tốc độ như trên

- Phạm vi bài toán ĐẦU VÀO: với đề bài hiện tại: 01 website: nhadattot.com.vn và 01: group fak.eboc.k, vd: https://www.fak.eboc.k.com/groups/honghai1202; với tốc độ như trên. Kèm hệ thống nhận diện lọc nlp.

- Phạm vi bài toán ĐẦU RA: 1 file CSV gồm hàng cột: tỉnh/huyện/đia chỉ, cột mua/bán, cột loại nhà/ đất / chung cư / biệt thự; cột link các bài post

- Chi phí hàng tháng: 20 triệu vnd

- Chi phí thêm website mới: cộng thêm 15 triêu vnd/website.

- Chi phí thêm group fak.eboc.k mới: cộng thêm 5 triêu vnd/group

- Chi phí mua theo bản quyền mở lõi sourcecode mã nguồn: 180 triệu vnd

- Các chi phí tính sau VAT. Có thể ký hợp đồng cộng tác viên.

Có gi bên anh Nam và khách hàng chưa hiểu xin alert lại.

.

.

Như vậy các fans của group làm phân tích dữ liệu DA DE có thể hình dung sự lợi hại ngồi tại  nhà làm ra tiền triệu với khả năng của bản thân.

Chúc các bạn vừa học vừa làm được những dự án tốt.

-----------

Kiến thức cơ bản, sách, demos về DA, DE: dathoc.net/skill 

Mình: dathoc.net/cv