Bài viết chuyên sâu

Data Engineering - Entry Exam

Data Engineering - Entry Exam

by Admin Dathoc -
Number of replies: 0

Test đầu vào cho DA DE ML:

#koolj_dataengineering
#koolj_machinelearning

Vậy bạn làm bài test nhé.
Link tài liệu:
https://drive.google.com/drive/folders/139u5nztC_uicFVQDw1BhBQHaNYiCPzrP?usp=sharing
.
.
.
Trình độ: NÔNG DÂN
Bài 1:
- Dựng môi trường Hadoop trên 1 máy hoặc nhiều máy, từ bất cứ tài liệu nào trên mạng

Bài 2:
- Bạn xem file, Bài1.xls, sử dụng map, reduce và Spark, để chuyển dổi dữ liệu thành kết quả sau:
+ Bạn tạo một điểm thuởng cộng vào mỗi dòng đặt lệnh cho:
+ Luợng đặt lệnh trong ngày > 1000, thêm $0.5 mỗi hàng

Bài 3:
- Bạn xem hướng dẫn bài tập này và làm theo để ra được phân loại ảnh trong một tập ảnh đầu vào từ python và opencv
https://www.pyimagesearch.com/2017/06/19/image-difference-with-opencv-and-python/

Bài 4:
- Bạn dùng thư viện DeepLearing RNN để phân loại âm thanh đầu vào qua tutor này:
https://towardsdatascience.com/using-cnns-and-rnns-for-music-genre-recognition-2435fb2ed6af

Bài 5:
- Link share: https://drive.google.com/drive/folders/1j6ceezGLQC_FHuBlr6ppgbVmAmVssuq-?usp=sharing
- Bạn xem 02 file json trong link share đọc và tạo lệnh tìm kiếm với một từ khoá để tìm ra bản ghi tương ứng, ví dụ: "Sky Pass", "Taipei 101","JR Pass","Child Meal"
- Các sản phẩm được nêu tên trong trường title. Ví dụ: "Sky Pass", "Taipei 101","JR Pass","Child Meal". Bạn tìm xem có sản phẩm nào nhiều nhất, sản phẩm nào ít nhất, sản phẩm nhiều đứng thứ 2 là gì?
Gợi ý: Dùng python/scala với thư viện Spark dataframe
.
.
.
Trình độ: PHÁO TRE
Bài 5
- Bạn xem dữ liệu file Bài 1.XLS, là những lệnh đặt mua bán tài chính chứng khoán
Question:
- Bạn hãy gom nhóm ra nếu lệnh đặt từ 4h sáng tới 2h chiều là HOTBOOK; nếu lệnh đặt từ 2h chiều tới 8h tối là MIDAGE; nếu lệnh đặt từ 8h tối tới 4h sáng là OVERLINE
- Bạn tạo một điểm thuởng cộng vào mỗi dòng đặt lệnh cho:
+ Luợng đặt lệnh trong ngày > 1000, thêm $0.5 mỗi hàng
+ Luợng đặt lệnh trong ngày >10K, thêm $0.7 mỗi hàng
+ Nếu cá nhân X vừa mua chứng khoán đó, lại bán ngay trong ngày thì thông báo bên cạnh chữ: ALERT. Tự gán id cho 1,2 cá nhân để kiểm tra.
- Hãy tạo giải phát tổng thể cho 1 tr, 1ty bản ghi như trên.
- Tốc độ tối ưu nhất cho pc laptop phổ thông cho bài này là cần xử lý xong trong 70 giây từ khi đọc 50k data
....
Bài 6:
Tạo một cơ ché pubsub (như ảnh bài 2 trong link trên), bạn có thể viết bất cứ ngôn ngữ gì bạn thích, không đuợc dùng Kafka, MQTT, Sock, p2p, ActiveMQ. Tốt nhất là bạn tạo riêng các protocol, queue của riêgn bạn để:
- Hứng các message gửi tới cỡ 100k message/giây
- Gửi các message đi tới ai đăng ký kênh đó (subcriber)
- Hoạt động tần suất cao. Tốc độ tối ưu nhất cho pc laptop phổ thông cho bài này là cần xử lý xong trong 9 giây từ khi đọc 100k requests data. Mỗi data từ 250kb tới 500kb.

Ví rụ: https://m.facebook.com/story.php?story_fbid=10156301897140079&id=719990078
....
Bài 7
Xem file XLSX có ghi Bài3, bạn sẽ thấy một số mẫu dữ liệu. Cần là:
- Bạn sử dụng pipleline nlp tuỳ thích để tìm ra đuợc mẫu văn bản nào là:
+ Tin tức
+ Chat, tán gẫu
+ Một sản phẩm thuơng mại
+ Một tiều thuyết
+ Một giãi bày, than phiền, khen che từ tác giả
- Mô hình tốt ít data traning nhất có thể
- Mô hình chạy thực tế chỉ cho trên 1.5GB ram.
- Tốc độ tối ưu nhất cho pc laptop phổ thông cho bài này là cần xử lý xong trong 0.0135 giây từ khi đọc 500kb data
....
Bài 8:
Bạn retrain và tạo lại nhận dạng ảnh Segment với tập ảnh riêng của bạn qua CUDA, từ tutor này:
https://github.com/dusty-nv/jetson-inference/blob/master/docs/segnet-console-2.md
.
.
.
Trình độ: SPARTA LÊN THẦN
Bài 9:
Bạn xem clip này và tự train cho chatbot với tài liệu 1.7 tỷ câu thoại
https://www.youtube.com/watch?v=bdeZ_h9-h4o&list=PLQVvvaa0QuDdc2k5dwtDTyT9aCja0on8j&index=9
....
- Bạn lấy các dữ liệu này về (cỡ 200GB)
Câu hỏi:
- Bạn tìm lọc ra Quốc gia Việt Nam, tỉnh Hà Nội là bản ghi thứ mấy?
- Có bao nhiêu quán ăn, đường phố Hà Nội?
- Có bao nhiêu tuyến phố ở Đức?
- Nếu máy PC thông thường (10-15 triệu), tốc độ xử lý xong trong 30-2h cho bài toán này
....
Bài 11:
- Bạn lấy dữ liệu ảnh này về, và retrain với tập ảnh của bạn từ model sẵn có theo tutor này
https://github.com/dusty-nv/jetson-inference/blob/master/docs/pytorch-cat-dog.md

Yêu cầu chung: Không hỏi bài nguời khác. Có thể tham khảo tài liẹu tren mạng tự vọc. Hạn định 1 bài làm trong 3 ngày. Sau 3 ngày bạn nộp bài bạn chọn nhé. Gủi reply qua đây.