Cơ sở hạ tầng Digio

Mô hình AI & GPU

Chạy các tác nhân trên các mô hình biên giới được quản lý ngay hôm nay—hoặc thuê dung lượng GPU, triển khai trọng số của riêng bạn và định tuyến các tác vụ Digio đến các điểm cuối riêng tư trong cùng một không gian làm việc.

Claude, GPT, Song Tử Chọn mô hình cho mỗi đại lý Cho thuê GPU & BYOM
Mô hình được quản lý

Các mẫu có sẵn tại Digio ngày hôm nay

Chỉ định mô hình mặc định cho mỗi tác nhân hoặc ghi đè cho mỗi tác vụ. Mức sử dụng được tính bằng Digio Token từ số dư gói của bạn—cùng một ví cho dù đại lý gọi Sonnet, GPT-4o hay Gemini Flash.

Claude nhân loại

  • Claude Opus 4.7 Lý luận hàng đầu, bối cảnh dài, kiến ​​trúc và chiến lược.
  • Claude Opus 4.6 Opus thế hệ trước để phân tích ổn định, chất lượng cao.
  • Claude Sonnet 4.6 Trình điều khiển hàng ngày—mã hóa, viết và vòng lặp tác nhân nhiều bước.
  • Claude Sonnet 4.5 / 4 Các cấp độ Sonnet nhanh với bộ nhớ đệm nhanh chóng trên khối lượng công việc được hỗ trợ.
  • Claude Haiku 4.5 Bản nháp có độ trễ thấp, phân loại và nhiệm vụ phụ có khối lượng lớn.

Nhãn giao diện người dùng trang web B2B SaaS. Dịch sang vi tự nhiên: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 Dòng GPT-5 mới nhất dành cho khối lượng công việc chung và tác nhân.
  • GPT-4.1 & GPT-4o Trò chuyện đa phương thức đáng tin cậy và sử dụng công cụ cho các đại lý sản xuất.
  • GPT-4o mini Định tuyến hiệu quả về chi phí cho các bản tóm tắt và các bước đơn giản.
  • o3 / o3-pro / o3-mini / o4-mini Các mô hình tập trung vào lý luận cho toán học, lập kế hoạch và xác minh.
  • GPT-5.3 Codex & Codex mini Kỹ năng tạo mã, tái cấu trúc và nhận biết kho lưu trữ.

Google Song Tử

  • Gemini 2.5 Pro Nghiên cứu bối cảnh dài và trích xuất có cấu trúc.
  • Gemini 2.5 Flash Các bước đại lý có thông lượng cao với tỷ lệ mã thông báo cạnh tranh.
  • Gemini 2.0 Flash Tốc độ cực nhanh cho các công việc phân tích cú pháp, gắn thẻ và thực hiện hàng loạt.

API mở và chuyên dụng

  • DeepSeek Chat & Reasoner Giá trị lớn cho các nhiệm vụ theo phong cách trò chuyện và chuỗi suy nghĩ.
  • Mistral Large Tùy chọn được lưu trữ ở Châu Âu cho các nhóm đại lý đa ngôn ngữ.
  • Llama 3.3 70B Mô hình lớp trọng lượng mở thông qua API—kết hợp tốt với GPU riêng.
  • Grok 3 Mô hình định hướng thời gian thực cho các cơ quan giám sát tin tức và xã hội.
  • Sonar Pro Câu trả lời có căn cứ tìm kiếm cho các đại lý nghiên cứu.
  • Command R+ Quy trình truy xuất và trò chuyện doanh nghiệp thân thiện với RAG.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Cách sử dụng

Cách đại lý chọn mô hình

Điều phối viên có thể đề xuất Sonnet vs Opus so với mẫu flash rẻ hơn dựa trên loại nhiệm vụ. Người dùng có quyền đặt giá trị mặc định cho mỗi vai trò đại lý—nghiên cứu về Sonnet, đánh giá cuối cùng về Opus, gắn thẻ hàng loạt trên Haiku hoặc Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

cho thuê GPU

Thuê GPU và chạy mô hình của riêng bạn

Cần tinh chỉnh, một điểm kiểm tra có khoảng trống hoặc định giá suy luận có thể dự đoán được? Thêm dung lượng GPU chuyên dụng vào không gian làm việc Digio của bạn, cài đặt ngăn xếp phân phối mà bạn thích và chỉ định các tác nhân tại điểm cuối riêng tư của bạn.

Phiên bản chuyên dụng

Các nút GPU hàng giờ hoặc hàng tháng (loại A100, H100, L40S) được gắn với đối tượng thuê của bạn—tách biệt với các khách hàng khác.

Trọng lượng của bạn

Tải lên các bộ bảo vệ an toàn, GGUF hoặc lấy từ sổ đăng ký của bạn; chạy Llama, Mistral, Qwen và các tinh chỉnh tùy chỉnh.

Phục vụ tiêu chuẩn

vLLM, TGI, Ollama hoặc hình ảnh vùng chứa mà bạn duy trì—Nhân viên Digio gọi URL cơ sở tương thích với OpenAI.

Phối âm giống nhau

Để thực hiện, trò chuyện nhóm, kỹ năng và cộng tác không thay đổi—chỉ phần phụ trợ suy luận là của bạn.

Định tuyến kết hợp

Gửi các bước nhạy cảm tới GPU riêng và sử dụng Claude hoặc GPT cho nghiên cứu công khai trong một quy trình làm việc.

Kiểm soát doanh nghiệp

VPC ngang hàng, đầu ra tĩnh, nhật ký kiểm tra và danh sách cho phép mô hình dành cho các nhóm được quản lý.

Mang theo mô hình của riêng bạn

Cài đặt và kết nối một mô hình tùy chỉnh

Thiết lập điển hình từ số 0 đến tổng đài viên gọi điểm cuối của bạn:

  1. Dự trữ GPU

    Chọn VRAM, vùng và thời gian hoạt động (bật liên tục so với luôn bật). Bộ lưu trữ dành cho trọng lượng được vận chuyển cùng với phiên bản hoặc gắn thùng của bạn.

  2. Triển khai ngăn xếp

    Bắt đầu cung cấp hình ảnh hoặc SSH, cài đặt trình điều khiển CUDA và tải điểm kiểm tra. Kiểm tra tình trạng xác nhận mô hình đã sẵn sàng.

  3. Đăng ký điểm cuối

    Thêm URL cơ sở, khóa API và id mô hình trong cài đặt không gian làm việc. Digio xác thực độ trễ và định dạng mã thông báo trước khi đi vào hoạt động.

  4. Phân công cho đại lý

    Chọn mô hình riêng của bạn làm mặc định cho các đại lý được chọn; các mô hình Claude/GPT được quản lý vẫn có sẵn song song.

Tiền thuê GPU được tính phí riêng với đăng ký gói Digio. Hãy liên hệ với chúng tôi để lập kế hoạch năng lực, SLA và di chuyển từ cụm suy luận hiện có.

Câu hỏi thường gặp

Câu hỏi về mô hình & GPU

Chọn API được quản lý so với suy luận tự lưu trữ trên Digio.

Tôi có phải thanh toán hai lần không—gói cộng với API?

Đăng ký Digio của bạn bao gồm cơ sở hạ tầng, đại lý và bao gồm cả Digio Tokens. Việc sử dụng mô hình được quản lý ghi nợ số dư mã thông báo bằng mã thông báo đầu vào/đầu ra thực tế. Cho thuê GPU là một tiện ích bổ sung dành cho máy bạn điều khiển.

Các đại lý khác nhau có thể sử dụng các mô hình khác nhau không?

Có—mỗi tác nhân có thể có mặc định riêng. Nhiệm vụ và cuộc trò chuyện có thể ghi đè trong một lần chạy mà không thay đổi mặc định chung.

Sự khác biệt giữa Sonnet và Opus là gì?

Opus được điều chỉnh để có những lý luận khó hơn và các kế hoạch mạch lạc hơn; Sonnet nhanh hơn và rẻ hơn cho các vòng lặp đại lý hàng ngày. Các mô hình Haiku và flash-class là tốt nhất cho các tác vụ phụ về số lượng.

Tôi có thể chỉ chạy mô hình của riêng mình và chặn API đám mây không?

Không gian làm việc của doanh nghiệp có thể hạn chế các nhà cung cấp mô hình bên ngoài và định tuyến tất cả lưu lượng tác nhân đến điểm cuối GPU của bạn. Chế độ kết hợp là mặc định cho hầu hết các đội.

Những kích thước GPU nào có sẵn?

Các sản phẩm được cung cấp tùy thuộc vào khu vực và nhu cầu—thường có bậc VRAM 24–80 GB cho các mẫu lớp 7B–70B và các nút nhiều GPU cho các ngăn xếp lớn hơn. Chúng tôi giúp định cỡ VRAM từ số lượng và lượng tử hóa tham số của bạn.

Việc sử dụng GPU riêng tư có còn tiêu tốn Digio Token không?

Việc điều phối (đại lý, nhiệm vụ, lưu trữ) vẫn nằm trong kế hoạch của bạn. Suy luận về GPU của bạn được tính là thời gian GPU; bạn có thể tùy ý đo mức sử dụng theo hình mã thông báo cho khoản bồi hoàn nội bộ.

Chọn các mô hình được quản lý hoặc mang theo GPU của bạn

Hãy bắt đầu trên Claude và GPT ngay hôm nay, sau đó thêm GPU chuyên dụng khi bạn sẵn sàng lưu trữ các trọng số tùy chỉnh—các tác nhân giống nhau, nhiệm vụ giống nhau, suy luận của bạn.