Thuật Toán Di Truyền NSGA-II: Cách AI "Lai Tạo" Hàng Vạn Con Số
Tại sao chúng ta lại dùng Thuyết tiến hóa của Charles Darwin để dự đoán Xổ số? Bài viết này dành cho những ai đam mê Khoa học Dữ liệu và muốn hiểu tận gốc rễ lõi công nghệ của Thiên Cơ Jackpot.
NSGA-II (Non-dominated Sorting Genetic Algorithm II) là một thuật toán tối ưu hóa đa mục tiêu dựa trên thuyết tiến hóa. Trong hệ thống Thiên Cơ Jackpot, NSGA-II được sử dụng để "lai tạo" hàng vạn tổ hợp vé Vietlott nhằm giải quyết bài toán xung đột mục tiêu: tối đa hóa điểm kỳ vọng (Probability Score) đồng thời đảm bảo độ phân tán rộng nhất (Diversity) để bao phủ không gian số, giúp thiết lập danh mục đầu tư xổ số an toàn và tối ưu nhất.
"Trong thế giới của NSGA-II, mỗi tờ vé số là một cá thể sinh học. Chỉ những cá thể mạnh nhất, đáp ứng được môi trường khắc nghiệt của Xác suất mới được phép truyền lại gen cho thế hệ sau."
1. Bài Toán Tối Ưu Đa Mục Tiêu (Multi-Objective Optimization)
Trước khi nói về Gen, hãy nói về Mục tiêu. Khi bạn mua 10 vé Vietlott, bạn muốn gì?
- Mục tiêu 1: Bạn muốn điểm số AI (Probability Score) của các vé đó phải cao nhất có thể.
- Mục tiêu 2: Bạn muốn 10 vé đó phải thật KHÁC NHAU (Diversity). Nếu vé 1 là
01-02-10-15-20-25, vé 2 không nên là01-02-10-15-20-26. Vì nếu trượt, cả 2 sẽ cùng trượt. - Mục tiêu 3: Tổng chi phí mua vé phải bằng đúng ngân sách của bạn.
Ba mục tiêu này xung đột trực tiếp với nhau. Nếu bạn cố ép điểm số AI lên cao nhất, hệ thống sẽ trả về 10 vé gần giống hệt nhau (vì chúng đều nằm ở vùng đỉnh của hàm điểm). Nếu bạn cố ép độ đa dạng lên cao nhất, hệ thống sẽ trả về những vé có điểm AI cực thấp.
Không có một đáp án "hoàn hảo" duy nhất. Chỉ có những đáp án thỏa hiệp tốt nhất. Đây chính là mảnh đất dụng võ của NSGA-II (Non-dominated Sorting Genetic Algorithm II).
2. Vòng Đời Tiến Hóa Của Một Tờ Vé Số
Cách NSGA-II hoạt động cực kỳ giống với quá trình chọn lọc tự nhiên.
Bước 1: Khởi tạo quần thể ban đầu (Population Initialization)
Hệ thống sinh ra ngẫu nhiên hàng ngàn danh mục (portfolio), mỗi danh mục chứa 10 vé. Đây là "Thế hệ F0".
Bước 2: Đánh giá và Xếp hạng Pareto (Non-dominated Sorting)
Hệ thống chấm điểm tất cả các danh mục dựa trên Hit Rate và Diversity. Danh mục nào "thống trị" (Dominates) các danh mục khác (tức là tốt hơn về mọi mặt) sẽ được đẩy lên Tuyến đầu Pareto (Pareto Front 1). Những kẻ yếu kém bị đẩy xuống các Front thấp hơn.
Bước 3: Lai ghép (Crossover) và Đột biến (Mutation)
Hệ thống chọn ra những danh mục mạnh nhất ở Front 1 và cho chúng "giao phối".
Ví dụ: Danh mục A (Điểm Hit Rate cực cao) lai với Danh mục B (Độ phủ Diversity cực tốt). Chúng hoán đổi các vé (gen) cho nhau để sinh ra "Thế hệ F1". Thỉnh thoảng, một vài con số ngẫu nhiên bị "đột biến" thay đổi để đảm bảo nòi giống không bị thoái hóa cục bộ.
Bước 4: Sinh tồn và Lặp lại
Chỉ những danh mục con F1 xuất sắc nhất mới được giữ lại. Quá trình này lặp lại qua 50 đến 100 thế hệ (Generations). Dần dần, những tập hợp vé yếu kém bị tuyệt chủng. Cuối cùng, hệ thống hội tụ lại ở một siêu quần thể những danh mục vé "vô địch".
3. Tại Sao NSGA-II Tốt Hơn Các Thuật Toán Khác?
Chúng tôi đã thử nghiệm nhiều thuật toán tối ưu (như Simulated Annealing hay Particle Swarm) trước khi chốt hạ bằng NSGA-II. Lý do chính là khả năng Bảo tồn sự đa dạng (Crowding Distance) của NSGA-II.
Thay vì dồn toàn bộ vé vào một "cái rổ" duy nhất, NSGA-II ép các vé phải phân tán dọc theo đường cong Pareto. Nó giúp Thiên Cơ Jackpot tạo ra những danh mục vé vừa có xác suất "vớt" giải phụ xuất sắc, vừa bao phủ một không gian số rộng lớn để săn đón những quả bóng rơi ngẫu nhiên vào các góc chết của lồng cầu.
Bạn không chỉ đang mua vé số. Bạn đang mua một siêu vật thể toán học đã trải qua hàng vạn năm tiến hóa trong không gian kỹ thuật số.