👁️ 1. Computer Vision + OCR

🔹 Tesseract OCR

  • đọc text từ màn hình (ảnh)
  • ví dụ:
    • tìm chữ “Login”
    • đọc nội dung form

👉 thường dùng chung với:

  • screenshot của browser / desktop

🧠 2. Vision AI (hiểu UI như con người)

🔹 OpenAI Vision Models

🔹 Claude Vision

  • hiểu:
    • button nằm đâu
    • layout UI
    • icon, text

👉 đây là “mắt + não”
→ OpenClaw kiểu này dùng nhiều


🖱️ 3. Điều khiển chuột/bàn phím (pixel-based)

🔹 PyAutoGUI

  • click theo tọa độ (x, y)
  • move chuột, gõ phím

🔹 RobotJS

  • tương tự PyAutoGUI nhưng cho Node.js

🧩 4. Tool kiểu RPA (giống doanh nghiệp hay dùng)

🔹 UiPath

🔹 Automation Anywhere

  • nhận diện UI bằng:
    • image matching
    • OCR
  • click theo “visual anchor”

🔥 5. Cách OpenClaw-like system hoạt động (vision mode)

Flow thường là:

  1. Chụp màn hình
  2. Vision AI phân tích:
    • “nút login ở góc phải”
  3. Map → tọa độ (x, y)
  4. Dùng PyAutoGUI / RobotJS click
  5. Lặp lại

⚖️ So sánh nhanh

CáchToolĐộ ổn định
DOMPlaywright / Selenium⭐⭐⭐⭐
VisionOCR + AI + PyAutoGUI⭐⭐

💡 Insight quan trọng

  • Vision không phải tool duy nhất
  • Nó là combo: Vision AI + OCR + mouse control

👉 OpenClaw chỉ là “gắn não AI” vào combo này


🚀 Nếu bạn muốn làm thật

Stack đơn giản:

  • Python:
    • Tesseract (OCR)
    • PyAutoGUI (click)
      • API vision (Claude / GPT)

👉 là build được “mini OpenClaw” rồi