Bài viết chuyên sâu

[DA] For recommendation system machine learning

[DA] For recommendation system machine learning

by Admin Dathoc -
Number of replies: 0

Gồm 3 phần:
1. Một ví dụ
2. Xem qua sách vở DA trong Recommender System
3. Vậy để tạo một RS cần có những khâu gì, công nghệ gì?
👉1. Một ví dụ (không lại một số fans của group lao vào và nói - anh toàn nói huyên thuyên, làm thực tế chẳng thấy đâu cả):
Năm 2020, bên mình và một nhóm sinh viên tình nguyện có xử lý tham khảo một loạt các hoạt động như:
- Thu thập post, comment bàn tán trên mạng
- Thu thập luu thông đi đỗ các chuyến taxi, grab
- Từ đó đưa ra gợi ý, tụ điểm nào có thể gây ...là nhóm dễ bị lây F1 nhiều nhất, rồi F2, rồi F3...F5 qua
- Quy chuẩn một số từ ngữ coi là: ổ bệnh khi comment, post, ...nói về. VD: mình dạo này mệt, tôi hay cãi nhau .. hàng xóm hay đi mua thuốc, mua thuốc...sáng dậy muộn đau đầu, thấy bần thần, hẹn gặp, trà đá không....
- Text nlp theo word tokenize, sau đó
- Sentiment nhóm word theo mức độ xuất hiện cụm từ
- Từ đó suy ra nhóm đang comment, post, chat đó... sẽ bao nhiêu % xác suất là F1
- Thuật toán là: http://gabgoh.github.io/COVID, cụ thể là theo mô hình truyền nhiễm cổ điển SEIR (Susceptible → Exposed → Infected → Removed), để đưa ra tỷ lệ tử vong và gánh nặng chăm sóc sức khỏe: vd xác suất bị nhiễm bệnh vào ngày 218 (tính từ ngay 1/12, 2019) nếu tiếp xúc gần với 40 cá nhân là 0,00088% với tỷ lệ tấn công là 0,45%.
Đó có thể là một Recommender System -RS. Bạn có thể tham khảo dathoc.net/bookda, file VietnamCovid19-F5toF1.pdf
.
.
👉2. Nào xem sách vở ở dathoc.net/bookda nói gì về các loại RS:
- 2019 (sách mới) Machine Learning with PySpark_ With Natural Language Processing and Recommender Systems - Thực ra nó nói 1 phần thôi, chapter 7 về The alternating least squares (ALS) algorithm: gợi ý sản phẩm; gợi ý jobs; gợi ý mối quan hệ bè bạn; gợi ý phim, nhạc ; gợi ý để quảng cáo phù hợp. Có thiết kế, coding, và xem xét so sánh với pp khác.
- 2013, Recommender Systems and the Social Web_ Leveraging Tagging Data for Recommender Systems.pdf. Đi sâu về web recommender. Sách có nêu thuật toán, học hàm khá chi tiết. Và có gợi ý các thuật toán kết quả cao hơn. Xong ở mức toán học. Không thực hành coding.
- 2019, Practical Recommender Systems.pdf. Sách nêu khá chi tiết ông lớn Netflix và MovieGreek rating và ranking product ra sao. Có review thiết kế từng vị và coding nổi trội. Rồi các phương cách mà các ông lớn tiếp cận để làm tốt ranking, các rule hiệu quả. Tiếp đến nêu các thuật toán ML recommender.
- 2016, Recommender Systems The Textbook.pdf. Sách nói về đường hướng, các loại và lý thuyết phương pháp. Không chứa tính toán học hàm và coding thực hành.
.
.
👉3. Vậy để tạo một RS cần có những khâu gì, công nghệ gì? và tựu chung làm nó thế nào?
- Về KHÂU, BƯỚC, có thể bạn làm theo mẫu ảnh đính kèm dưới.
- Một số định nghĩa bạn cũng nên đọc trước, ảnh kèm bên dưới.
4. Công nghệ - thực thi thế nào?
👉- Ta bóc tách khi nào dùng FolkRank, khi nào dùng LocalRank
+ Folkrank: dựa trên thuật toán PageRank của Google. Ý tưởng là các trang tin sẽ là quan trọng khi được liên kết bởi các trang tin quan trọng khác, dùng thuật toán dàn trải trọng số để tính toán mức độ quan trọng của các trang tin: một tài nguyên là quan trọng nếu nó được gắn các thẻ quan tâm từ những người dùng nổi trội.
+ LocalRank: tính toán trọng số xếp hạng chỉ dựa trên "vùng lân cận" cục bộ của một người dùng và vùng tài nguyên nhất định. Tập trung vào trên những yếu tố và thứ có liên quan: trang tin sẽ là quan trọng nếu có tập giao của các tag từ người dùng kèm lượt các miền có trang tin đã tag.
VD: tuỳ bạn làm gợi ý, bạn có thể theo folk hoặc local. Vì nó theo chiến lược seo bên bạn.
- Lấy User Behavior live: lấy click, lấy mouse-hover, lấy view...
VD: Nếu bạn có tiền: mixpanel. Nếu tự làm: Flink, Heron, Kafka kếu về ElasticSearch
.
.
👉- Lấy data gì để tính toán Conversion rate:
Đầu tiên tính toán từ ngữ trên mạng xem có độ Beware về sp bao nhiêu? sau đó tới việc họ lao tới xem xét Consideration là bao nhiêu view, và click? tiếp là sưu tập những chứng cứ để họ Conversion sang sp này? Kết quả là: đẩy mạnh các chứng cứ đó để tỷ lệ chuyển đổi -Conversion sang sp mới cao hơn.
VD: Công cụ lấy lại: crawl, rồi word tokenize, rồi sentiment text cụm từ. Từ đó bạn sẽ có loạt factor và giá trị; chuyển sang 0/1 để làm logistic regression, và bạn sẽ tìm đc classify nhóm từ nhữ mà dân cư cứ nói tới/ hành động tới là... 80% sẽ mua sp của bạn. Hoặc chuyển đổi sang sp của bạn. Ví dụ sau một hồi: tự nhiên bạn thấy tỷ lệ user/cú click hay xem áo lông thú, hoặc phim League Legend, hoặc view nhẫn xỏ ngón cái... sẽ mua bia Budweiser. Vì vậy bạn nên quảng cáo tới user có đặc tính trên: kết quả sẽ tăng doanh thu bia thôi.
.
.
👉- Dùng thuật toán nào cho Recommender
+ Clustering tương đồng
+ Clustering k-mean
+ Tìm quan hệ họ hàng
(Xem thêm sách Practical Recommender Systems)
👉- Đánh giá thuật toán áp dụng
- Nâng cao độ chính xác thuật toán áp dụng
+ Lọc loại bỏ bớt rác trong từ ngữ, unknown tag
+ Dùng pattern
regress-tag-ui: hồi quy SVM với tùy chọn tag người dùng
cosine-tag-ui: dự đoán dựa trên mức độ tương tự, hoàn toàn không khai thác thông tin thẻ.
funk-svd: thuật toán phân tích nhân tử ma trận có độ chính xác cao Singular Value Decomposition (SVD)
(Xem thêm sách Practical Recommender Systems)
.
.
Vậy nếu bạn làm về RS, bạn cho vài trải nghiệm nhé
Gluk!
------------
Kiến thức cơ bản, trải nghiệm đúc kết, demos về DA DE, Blockchain: dathoc.net/skill