Bài viết chuyên sâu

DADE meeting

DADE meeting

by Admin Dathoc -
Number of replies: 0



Result to Meeting 01:

🎯Rất cảm ơn anh chị em cùng chung domain là phân tích dữ liệu (DA) và xử lý dữ liệu (DE), ở nhiều ngành nghề khác nhau, đã tới tham dự hôm nay, tại iHouse, 131 Yên Hòa. Mặc dù hôm nay 31 độ từ 7h sáng, nhưng không thể ngăn được nhiệt huyết của các anh chị e.

Các anh chị em tới từ rất nhiều ngành nghề: dữ liệu lớn, báo chí, ngân hàng, giáo dục, thuế, marketing, seo ad. Có các bạn làm 10 năm, có các bạn vẫn đang là sinh viên. Mình thấy đây là một dịp học hỏi từ chính các bạn rất nhiều về những nghề khác nhau, về dữ liệu mà các bạn đang mong muốn học để khai thác.

Bản thân tôi thấy 🎯đây là môi trường tốt để các bạn có thể tiếp cận nhau và tiếp cận kho dữ liệu của nhau. Hiện tại chúng ta đang có rất nhiều chuyên ngành và các bạn đang có những lợi thế riêng của các bạn.
.
.
.
Buổi đầu hôm nay phần nào đã bàn luận chia sẻ với anh chị e các kiến thức ở các chủ đề:
👉 Quy trình phân tích và xử lý dữ liệu bé/lớn: kết luận về việc những khâu, hoạt động nào cần những công việc gì.
👉 Trải nghiệm lưu trữ và xử lý dữ liệu: vai trò mapreduce làm lu mờ SQL, hay Oracle; và HDFS, column db, Spark trong quá trình ETL
👉 Trải nghiệm kỹ thuật lấy dữ liệu qua mạng xã hội phục vụ nhu cầu phân tích cụ thể; nhu cầu khai thác và gói bán dữ liệu cho những khách hàng nhỏ lẻ đơn giản: dược, y tế, bán lẻ, thực phẩm, ăn nhanh.
👉 Trải nghiệm kỹ thuật mapreduce trên dataframe của 90tr bản ghi về tìm kiếm, lọc.
.
.
.
Sang phần chia sẻ những câu hỏi và khúc mắc của anh chị e, ban đầu là xoay quanh tool cào bới dữ liệu; sau tiếp là các câu hỏi các bạn khúc mắc trong việc xử lý yêu cầu từ việc cần dùng tới dữ liệu:

👉 Về việc tổng hợp tìm kiếm dẫn tới hướng ra bài viết theo xu thế một ngày
👉 Việc tổng hợp lượng chia sẻ yêu thích đồ ăn để bán cho các tiệm bán đồ ăn khác
👉 Việc dựng app có thêm insight cạnh tranh trong dữ liệu đã có
👉 Việc tự gán và tìm hiểu thu nhập và đời sống chi tiêu của khách hàng cho Fintech hay ngân hàng
👉 Việc xoay vào các affair của cặp đôi, gia đình khi thống kê cho thấy: đó là một business có thể kiếm tiền được.

.
.

.

👉Meeting 02 đã nêu được một số điểm:
- Dữ liệu cần có tool hỗ trợ để lấy về hoặc cần thiết phải extract hoặc chunk ra parquet, csv để ace xào nấu sau này. Gợi ý khi nào dùng Sqoop, khi nào Kafka, khi nào Nifi, khi nào Flume.
- Power BI, Tableau là tool tốt khi dữ liệu đã có đẹp và chuẩn. Như các bạn thấy timeseries và các biểu đồ khác đều đơn giản kéo thả. Nếu có mở rộng sẽ thêm mã nguồn Python hoặc R support bạn. Và lưu ý Power BI hay Tableau không phải là nơi mà bạn cho dữ liêu thô chưa xử lý lên.
- Các thuật toán trong việc mapreduce cũng như code ko có gì, nếu nhìn sang python nó cũng thế. Chỉ là: đọc dữ liệu lên, chia 30/70 test/training, lấy thuật toán logistic regression, tạo mô hình, xem chỉ chố đánh giá kết quả...cho các học thuật về coding cũng chỉ lặp đi lặp lại các thao tác muôn thuở.
- Vậy nếu không có coding nhiều, vì phần việc coding nhiều có lẽ là làm sạch dữ liệu (như đã mô tả ở link này), và
- Khi DS có những thuật toán mới thì bắt buộc chúng ta phải biến đối dữ liệu và xử lý như một cách giải thuật mới. Ví dụ như bài toán xử lý công dân số: đã demo cho các bạn.
- Các bạn đã phân biệt rõ được vai trò người làm DE vất vả thế nào, cần học code sâu tới đâu, và sự khác biệt với DS trong thuật toán: xếp hạng công dân.

.
.
.
Meeting 03

Hôm nay ace bàn về công cụ HERA và các tool tương tự cũng như trải nghiệm của mọi người về cách mọi người dùng công cụ để thu thập, lấy dữ liệu.

Tổng kết quy trình là:
👉1. Dữ liệu ở đâu có:
- Nếu mục tiêu của dữ liệu là A, cần lấy nhắm vào những nhóm chuyên môn A để có dữ liệu. Song thực tế rất ít dữ liệu thật. Toàn giả tạo, hoặc dựng nên, hoặc bàn tán ít về chuyên môn A.
- Nếu mục tiêu là A, vậy hãy tìm các dữ liệu khởi nguồn lên A, tìm các dữ liệu kết quả từ A, tìm các dữ liệu ảnh hưởng bởi A, tìm các dữ liệu hỗ trợ cho A. Đó mới là nơi có dữ liệu bạn cần.

👉2. Hình thái dữ liệu:
- Có thể là ảnh, text, sound, xong 99% bây giờ là cần ...text và conversion text.
- Dữ liệu nếu bề mặt HTML cần tìm hiểu convention của xpath và theo đó lấy. Cần xử lý tiếp nếu nó hợp với topic của mình.
- Dữ liệu nếu dạng công thức, fomart chuyên biệt...là tốt nhất: log file, xml, json.
- Dữ liệu không phải là cái bạn nhìn thấy là nó, mà bạn phải xem xét dưới góc cạnh: nó phải theo công thức, nó phải theo một thói quen thể hiện. Khi đó bạn mới suy xét tới lấy nó hiệu quả.
- Nếu cần nhận diện ảnh hoặc sound về cái gì, cần các api của Goole và Facebook sẽ hộ bạn nó ra content của nó là gì ra dạng text.

👉3. Tools lấy dữ liệu về:
- HERA chỉ là 1 trong vô vàn tool bạn cần.
- 100% sử dụng triệt để Google Search. Và phải đi tới mẫu kết quả search là JSON, vì chúng ta lập trình nên cần JSON hoặc một cái gì đó ..công thức hoặc có trật tự, mới dễ xử lý.
- Cần lập ra các kênh tìm kiếm cụ thể trong group đóng (cần join) hoặc group mở (dùng Google) trên các mạng trang xã hội.
- Cần vượt qua những khó khăn ban đầu khi coding crawling như: khi nào biết html dom hiện ra mà lấy???; khi dom này hỏng thì nhảy sang dom tiếp theo; khi crawl ở trang khác cần thay biến thôi là tự chạy; phải html dom oriented key-word crawling; tận dụng tối đa xpath regrex; facebook chỉ có 10 request là block acct; foody chỉ cho 15 lần request là lock ip...vv.

👉4. Làm sạch:
- Cần lấy theo convention của xpath và các regrex của xpath để tạo trong coding bạn thói quen lấy một tập rồi theo các điều kiện của bạn loại bỏ các case rác, chỉ cần case bạn cần.
- Tách câu, loại bỏ từ thừa, convert teencode...

👉5. Phân loại:
- Theo nhóm các mục tiêu A,B,C đưa xuống group mình cần. Ví dụ đã demo cách lấy: timeline tin tức, profile facebook, bài viết, comment ... rồi classify nhóm các thông tin chuyên biệt.
- Với các post trong group thì cũng cần làm các bước trên để biết comment đó, post đó có thực sự trong mục tiêu A hay không.
- Thuật toán để map một đoạn text có trong mục tiêu A hay không là tokenize câu ra các cụm từ chuyên biệt mà bạn có, rồi map các từ đó với tập từ mà bạn cho là chuyên môn A. Ví dụ ở đây cho việc tokenize (tại giây này): 

👉6. Chào bán dữ liệu đã phân loại:
- Ở VN 99% dân là bán lẻ tẻ, họ ko biết những cái cao siêu về xu hướng. Xong sẵn sàng trả bạn 300k 500k 1 tháng để mua dữ liệu đã lọc của bạn.
- Ở VN 1% là các hãng to, xong hãng này họ đã có sẵn dư liệu và họ đang bơi trong đó. Nên bạn cần học tập để vào đó làm thuê.
- Ở VN có 10% là những bạn biết tự mình tạo tool công cụ thu thập dữ liệu, và đang ngày đem thu thập và nhìn ra xu thế dữ liệu ở mọi ngành nghề. Đó là xu thế của người phân tích dữ liệu. Bạn cũng cần làm như vậy nếu bạn muốn cạnh tranh nghề nghiệp với họ.
- Ở VN không bao gồm ngân hàng và giới tín dụng, chắc có 1% các bạn quan tâm tới dữ liệu trường học, nơi họ share 100% bảng điểm hàng kỳ hàng năm của con em học sinh cấp 2, cấp 3, đại học. Thiết nghĩ đây là nguồn tài sản quý giá cho các bạn theo đuổi nghề Nhân sự lấy đó về làm profile từng các nhân mình muốn săn đuổi từ khi là mầm non.

.
.
.
Meeting 04

👉1. Dữ liệu cần toàn vẹn:- Dữ liệu cần thống nhất, và thể hợp nhất, không được khác với những mẫu còn lại- Dữ liệu cần đồng dạng miếng mảng, và cùng cỡ, tông, bước số. Nếu bị ngoại lai hoặc không cùng trong mẫu cần sửa và loại bỏ.- Dữ liệu cần dự đoán trước để classify, dự đoán để có những thuật toán tính toán nhanh hơn- Nên dùng TREE để viết code cho việc nhận diện dữ liệu,



👉2. Thuật toán:- TREE la mẫu thuật toán giúp phân nhánh hình cây để phân tán đa ta dễ duyệt dễ tiếp cận và không phải duyệt lại nhiều lần bộ dữ liệu- Vơi img, cần tạo ra segment qua kiểu TREE- Với sound, cần apply mẫu nhiều tới mức để có thể ra pattern khi là sound group. Sound đơn, thì đã có nhóm classify rồi…Một lần nữa cảm ơn anh chị e đã chia sẻ những khó khăn của mình về tình hình DADE ở VN ở nơi mà a chị e đang công tác