Blog

#VietnamAgainstCovid19 - part2

#VietnamAgainstCovid19 - part2

by Admin Dathoc -
Number of replies: 0

Rất cám ơn các bạn mới tham gia,
#koolj_dataengineering
#F5F1
#VietnamAgainstCovid19
.
.
Mình thêm giải thích api WWORD support API SYMPTOMP NLP cho task 14, task 15
Document: https://docs.google.com/document/d/1YDUmH2esM3m1dNGNJZZbz9YYYZ_t6feG10fzBhO23Ks/edit#

INPUT: task 14 cần dùng api SYMPTOMNLP, từ một từ điển để phân tích đầu vào text/đoạn văn nào là loại nào. Bạn có thể định nghĩa nó, nhưng đầu vào thế nào thì chưa biết.
OUTPUT: sẽ tạo api WWORD để với một text/đoạn văn bạn sẽ ra khối lượng từ ngữ và số lần từ lặp. Do đó bạn dựa trên nhóm từ đang có, số lần lặp nhóm từ... để phân loại đoạn/text đó trên cơ sở nhóm từ. Vậy sẽ hỗ trợ tốt hơn cơ sở bạn làm task 14

------------------------------
Cụ thể:
Task 14, 15 là:
👉14. Tạo mô hình nhận diện text nhóm text (tạo mô hình, nên dùng Spacy, nmt, rnn...., tạo bot, tạo api). Đầu vào là một nhóm text, đầu ra là phân vùng nhóm 2 từ, 3 từ, trọng số nhóm 2 từ, 3 từ

👉15. Tạo mô hình mapping (từ task14) đánh chỉ mục các phân bổ cum 2 từ, 4 từ thành loại/phạm trù riêng
.
.
.
-------------------
Task 14 được hiểu như sau:
- Tự ng dùng định nghĩa ra từ điển câu văn thuộc phạm trù nào
- Đưa đoạn văn với từ điển mình định nghĩa và lấy độ chính xác
- Sử dụng api syptomnlp để tìm độ chính xác
-------------
Task 15 được hiểu như sau:
- Lấy một đoạn mẫu các bài post text, ca thán, comment 9 (>50 từ, ít nhất 5 câu)
- Đưa qua api wword, để tìm số lượng từ trong đoạn văn đó, là số lần lặp lại từ
- Tự phân bổ: bao nhiêu loại từ lặp, bao nhiêu từ... thì văn bản sẽ thuộc dạng nào.
- Task này hỗ trợ task 14. Tạo là từ điển để tìm triệu trứng (symptoms)
--------------
Step làm task 15:
- Login lây token
- Ghep token vao api .../api/wword. Mới sử dụng đc.
- Thu thập mẫu các đoạn văn trong Zalo, Chat, Facebook
- Dùng postman, hoặc browser gọi api với đoạn văn trên
- api sẽ trả ra số lưong từ, và số lần từ lặp lại trong đoạn văn
- ghi lại ra những phân loại: đoạn văn có từ này lặp, hoặc trong lượng từ ... thì thuộc loại nào
.
.
.
Ví dụ api WWORD cho task 15:
POST ... /api/wword
INPUT:
{
"text":"Em kết hôn được nửa năm thì công ty chồng em cử anh sang Nhật Bản học chuyên sâu, thời gian kéo dài 1 năm. Chúng em bàn bạc đi bàn bạc lại, cuối cùng quyết định anh sẽ đi học. Dù biết rằng vợ chồng son xa nhau nhớ nhung lắm. Nhưng nghĩ xa hơn về tương lai, tụi em đành nén cảm xúc, hứa sẽ cùng cố gắng vượt qua.",
"tokenkey": "eyJhbGciOiJIUzI1NiIsInR5..."
}
OUTPUT:

{
"status": 0,
"result": {
"wword": [
{
"word": "kết hôn",
"weight": 4
},
{
"word": "nửa",
"weight": 4
},
{
"word": "công ty",
"weight": 4
},
{
"word": "chồng",
"weight": 4
},
.....

504 words