👁️ 1. Computer Vision + OCR
🔹 Tesseract OCR
- đọc text từ màn hình (ảnh)
- ví dụ:
- tìm chữ “Login”
- đọc nội dung form
👉 thường dùng chung với:
- screenshot của browser / desktop
🧠 2. Vision AI (hiểu UI như con người)
🔹 OpenAI Vision Models
🔹 Claude Vision
- hiểu:
- button nằm đâu
- layout UI
- icon, text
👉 đây là “mắt + não”
→ OpenClaw kiểu này dùng nhiều
🖱️ 3. Điều khiển chuột/bàn phím (pixel-based)
🔹 PyAutoGUI
- click theo tọa độ (x, y)
- move chuột, gõ phím
🔹 RobotJS
- tương tự PyAutoGUI nhưng cho Node.js
🧩 4. Tool kiểu RPA (giống doanh nghiệp hay dùng)
🔹 UiPath
🔹 Automation Anywhere
- nhận diện UI bằng:
- click theo “visual anchor”
🔥 5. Cách OpenClaw-like system hoạt động (vision mode)
Flow thường là:
- Chụp màn hình
- Vision AI phân tích:
- Map → tọa độ (x, y)
- Dùng PyAutoGUI / RobotJS click
- Lặp lại
⚖️ So sánh nhanh
| Cách | Tool | Độ ổn định |
|---|
| DOM | Playwright / Selenium | ⭐⭐⭐⭐ |
| Vision | OCR + AI + PyAutoGUI | ⭐⭐ |
💡 Insight quan trọng
- Vision không phải tool duy nhất
- Nó là combo: Vision AI + OCR + mouse control
👉 OpenClaw chỉ là “gắn não AI” vào combo này
🚀 Nếu bạn muốn làm thật
Stack đơn giản:
- Python:
- Tesseract (OCR)
- PyAutoGUI (click)
- API vision (Claude / GPT)
👉 là build được “mini OpenClaw” rồi