OpenLedger xây dựng chuỗi AI thế hệ mới để phát triển nền kinh tế thông minh dựa trên dữ liệu

2025-07-15 02:49:37

OpenLedgerĐộ sâu研报：以OP Stack+EigenDA为底座，构建一个数据驱动、模型可组合的智能体经济

Một, Giới thiệu | Sự chuyển giao mô hình của Crypto AI

Dữ liệu, mô hình và sức mạnh tính toán là ba yếu tố cốt lõi của cơ sở hạ tầng AI, tương tự như nhiên liệu (dữ liệu), động cơ (mô hình), năng lượng (sức mạnh tính toán) không thể thiếu. Tương tự như con đường tiến hóa cơ sở hạ tầng của ngành AI truyền thống, lĩnh vực Crypto AI cũng đã trải qua các giai đoạn tương tự. Đầu năm 2024, thị trường đã một thời gian dài bị các dự án GPU phi tập trung chi phối ( Akash, Render, io.net và các dự án khác ), nhấn mạnh logic tăng trưởng thô "kết hợp sức mạnh tính toán". Tuy nhiên, sau năm 2025, điểm chú ý của ngành dần dần chuyển lên tầng mô hình và dữ liệu, đánh dấu sự chuyển mình của Crypto AI từ cạnh tranh tài nguyên cơ sở hạ tầng sang xây dựng tầng giữa có tính bền vững và giá trị ứng dụng hơn.

Mô hình chung lớn (LLM) vs Mô hình chuyên biệt (SLM)

Mô hình ngôn ngữ lớn truyền thống (LLM) được đào tạo phụ thuộc rất nhiều vào tập dữ liệu quy mô lớn và kiến trúc phân tán phức tạp, quy mô tham số thường từ 70B đến 500B, chi phí cho một lần đào tạo thường lên tới hàng triệu đô la. Trong khi đó, SLM (Mô hình Ngôn ngữ Chuyên biệt) như một phương thức tinh chỉnh nhẹ cho mô hình cơ bản có thể tái sử dụng, thường dựa trên các mô hình mã nguồn mở như LLaMA, Mistral, DeepSeek, kết hợp với một lượng nhỏ dữ liệu chuyên ngành chất lượng cao và các công nghệ như LoRA, để nhanh chóng xây dựng các mô hình chuyên gia có kiến thức trong các lĩnh vực cụ thể, giảm đáng kể chi phí đào tạo và rào cản công nghệ.

Cần lưu ý rằng SLM sẽ không được tích hợp vào trọng số LLM, mà sẽ hoạt động cùng LLM thông qua kiến trúc Agent, định tuyến động bằng hệ thống plugin, cắm nóng module LoRA, và RAG (tạo ra tăng cường tìm kiếm). Kiến trúc này vừa giữ lại khả năng bao quát rộng rãi của LLM, vừa tăng cường hiệu suất chuyên môn thông qua các module tinh chỉnh, tạo thành một hệ thống thông minh kết hợp linh hoạt cao.

Giá trị và biên giới của Crypto AI ở tầng mô hình

Dự án Crypto AI về bản chất khó có thể nâng cao trực tiếp khả năng cốt lõi của mô hình ngôn ngữ lớn (LLM), nguyên nhân cốt lõi là

Rào cản kỹ thuật quá cao: Quy mô dữ liệu, tài nguyên tính toán và khả năng kỹ thuật cần thiết để đào tạo Mô hình Cơ sở là vô cùng khổng lồ, hiện tại chỉ có một số gã khổng lồ công nghệ mới có khả năng tương ứng.
Hạn chế của hệ sinh thái mã nguồn mở: Mặc dù các mô hình cơ bản chính như LLaMA, Mixtral đã được mã nguồn mở, nhưng thực sự thúc đẩy sự đột phá của mô hình vẫn tập trung vào các tổ chức nghiên cứu và hệ thống kỹ thuật đóng, không gian tham gia của các dự án trên chuỗi ở tầng mô hình cốt lõi là hạn chế.

Tuy nhiên, trên nền tảng của các mô hình cơ bản mã nguồn mở, các dự án Crypto AI vẫn có thể mở rộng giá trị thông qua việc tinh chỉnh các mô hình ngôn ngữ đặc thù (SLM) và kết hợp tính khả thi và cơ chế khuyến khích của Web3. Là "tầng giao diện ngoại vi" của chuỗi công nghiệp AI, điều này thể hiện qua hai hướng cốt lõi:

Lớp xác thực đáng tin cậy: thông qua việc ghi lại trên chuỗi các đường đi sinh ra mô hình, đóng góp dữ liệu và tình hình sử dụng, nâng cao khả năng truy xuất nguồn gốc và khả năng chống giả mạo của đầu ra AI.
Cơ chế khuyến khích: Sử dụng Token gốc để khuyến khích việc tải dữ liệu lên, gọi mô hình, thực hiện hành động của tác nhân (Agent), xây dựng vòng lặp tích cực cho việc đào tạo và cung cấp mô hình.

Phân loại loại mô hình AI và phân tích tính ứng dụng của blockchain

Từ đó có thể thấy, điểm khả thi chính của các dự án Crypto AI loại mô hình chủ yếu tập trung vào việc tinh chỉnh nhẹ nhàng SLM nhỏ, việc kết nối và xác minh dữ liệu chuỗi của kiến trúc RAG, cũng như việc triển khai và khuyến khích mô hình Edge tại chỗ. Kết hợp tính khả thi xác minh của blockchain và cơ chế token, Crypto có thể cung cấp giá trị độc đáo cho các mô hình tài nguyên trung bình và thấp này, tạo ra giá trị khác biệt cho "lớp giao diện" AI.

Dựa trên dữ liệu và mô hình, chuỗi AI blockchain có thể ghi lại rõ ràng và không thể thay đổi nguồn gốc đóng góp của mỗi dữ liệu và mô hình lên chuỗi, tăng cường đáng kể độ tin cậy của dữ liệu và khả năng truy nguyên trong việc đào tạo mô hình. Đồng thời, thông qua cơ chế hợp đồng thông minh, khi dữ liệu hoặc mô hình được gọi, sẽ tự động kích hoạt việc phân phát thưởng, chuyển đổi hành vi AI thành giá trị có thể đo lường và có thể giao dịch dưới dạng token, xây dựng một hệ thống khuyến khích bền vững. Ngoài ra, người dùng trong cộng đồng còn có thể đánh giá hiệu suất mô hình thông qua bỏ phiếu bằng token, tham gia vào việc xây dựng và điều chỉnh quy tắc, hoàn thiện cấu trúc quản trị phi tập trung.

Hai, Tóm tắt dự án | Tầm nhìn chuỗi AI của OpenLedger

OpenLedger là một trong số ít dự án blockchain AI tập trung vào cơ chế khuyến khích dữ liệu và mô hình trên thị trường hiện nay. Nó tiên phong đưa ra khái niệm "Payable AI", nhằm xây dựng một môi trường vận hành AI công bằng, minh bạch và có thể kết hợp, khuyến khích các nhà đóng góp dữ liệu, nhà phát triển mô hình và nhà xây dựng ứng dụng AI hợp tác trên cùng một nền tảng, và nhận được lợi nhuận trên chuỗi dựa trên đóng góp thực tế.

OpenLedger cung cấp một chuỗi khép kín từ "cung cấp dữ liệu" đến "triển khai mô hình" và sau đó là "gọi phân chia lợi nhuận", các mô-đun cốt lõi của nó bao gồm:

Model Factory：Không cần lập trình, có thể sử dụng LoRA để tinh chỉnh, đào tạo và triển khai mô hình tùy chỉnh dựa trên LLM mã nguồn mở;
OpenLoRA: Hỗ trợ hàng nghìn mô hình đồng tồn tại, tải động theo nhu cầu, giảm đáng kể chi phí triển khai;
PoA (Chứng minh quyền sở hữu): Thực hiện đo lường đóng góp và phân phối phần thưởng thông qua việc ghi lại các cuộc gọi trên chuỗi.
Datanets：Mạng dữ liệu cấu trúc hướng đến các kịch bản dọc, được xây dựng và xác thực bởi sự hợp tác của cộng đồng；
Nền tảng đề xuất mô hình (Model Proposal Platform): Thị trường mô hình trên chuỗi có thể kết hợp, có thể gọi và có thể thanh toán.

Thông qua các mô-đun trên, OpenLedger đã xây dựng một "hạ tầng kinh tế tác nhân thông minh" dựa trên dữ liệu, có thể kết hợp các mô hình, thúc đẩy việc đưa chuỗi giá trị AI lên blockchain.

Và trong việc áp dụng công nghệ blockchain, OpenLedger sử dụng OP Stack + EigenDA làm nền tảng, xây dựng môi trường chạy dữ liệu và hợp đồng hiệu năng cao, chi phí thấp và có thể xác minh cho các mô hình AI.

Xây dựng dựa trên OP Stack: Dựa trên công nghệ Optimism, hỗ trợ thông lượng cao và chi phí thực hiện thấp;
Thanh toán trên mạng chính Ethereum: Đảm bảo an toàn giao dịch và tính toàn vẹn của tài sản;
Tương thích EVM: Giúp các nhà phát triển dễ dàng triển khai và mở rộng nhanh chóng dựa trên Solidity;
EigenDA cung cấp hỗ trợ khả năng sử dụng dữ liệu: giảm đáng kể chi phí lưu trữ, đảm bảo khả năng xác minh dữ liệu.

So với các chuỗi AI tổng quát như NEAR, tập trung vào tầng dưới và chủ yếu về chủ quyền dữ liệu cũng như kiến trúc "AI Agents on BOS", OpenLedger tập trung hơn vào việc xây dựng chuỗi AI chuyên dụng hướng tới dữ liệu và kích thích mô hình, nhằm tạo ra một vòng giá trị có thể truy nguyên, kết hợp và bền vững cho việc phát triển và gọi mô hình trên chuỗi. Nó là cơ sở hạ tầng kích thích mô hình trong thế giới Web3, kết hợp việc lưu trữ mô hình kiểu HuggingFace, tính phí sử dụng kiểu Stripe và giao diện kết hợp trên chuỗi kiểu Infura, thúc đẩy con đường hiện thực hóa "mô hình như tài sản".

Ba, Các thành phần cốt lõi và kiến trúc công nghệ của OpenLedger

3.1 Model Factory, không cần mã mô hình nhà máy

ModelFactory là một nền tảng tinh chỉnh mô hình ngôn ngữ lớn (LLM) trong hệ sinh thái OpenLedger. Khác với các khung tinh chỉnh truyền thống, ModelFactory cung cấp giao diện thao tác hoàn toàn bằng hình ảnh, không cần công cụ dòng lệnh hoặc tích hợp API. Người dùng có thể tinh chỉnh mô hình dựa trên các tập dữ liệu đã hoàn tất việc cấp phép và kiểm tra trên OpenLedger. Nó thực hiện quy trình làm việc tích hợp cho việc cấp phép dữ liệu, đào tạo mô hình và triển khai, với các quy trình cốt lõi bao gồm:

Kiểm soát truy cập dữ liệu: Người dùng gửi yêu cầu dữ liệu, nhà cung cấp xem xét phê duyệt, dữ liệu tự động kết nối với giao diện đào tạo mô hình.
Chọn và cấu hình mô hình: Hỗ trợ LLM phổ biến (như LLaMA, Mistral), cấu hình siêu tham số qua GUI.
Tinh chỉnh nhẹ: Tích hợp động cơ LoRA / QLoRA, hiển thị tiến trình đào tạo theo thời gian thực.
Đánh giá và triển khai mô hình: Công cụ đánh giá tích hợp, hỗ trợ xuất bản triển khai hoặc gọi chia sẻ sinh thái.
Giao diện xác thực tương tác: Cung cấp giao diện theo kiểu trò chuyện, thuận tiện cho việc kiểm tra khả năng hỏi đáp của mô hình.
RAG tạo nguồn gốc: Trả lời kèm theo trích dẫn nguồn, tăng cường sự tin cậy và khả năng kiểm toán.

Kiến trúc hệ thống Model Factory bao gồm sáu mô-đun, trải dài từ xác thực danh tính, quyền dữ liệu, điều chỉnh mô hình, triển khai đánh giá đến truy xuất nguồn gốc RAG, tạo ra một nền tảng dịch vụ mô hình tích hợp an toàn, có thể kiểm soát, tương tác theo thời gian thực và có thể kiếm tiền bền vững.

Bảng tóm tắt khả năng của các mô hình ngôn ngữ lớn mà ModelFactory hiện hỗ trợ như sau:

Dòng LLaMA: Có hệ sinh thái rộng nhất, cộng đồng năng động, hiệu suất tổng quát mạnh mẽ, là một trong những mô hình cơ sở mã nguồn mở đang phổ biến nhất hiện nay.
Mistral：Kiến trúc hiệu quả, hiệu suất suy diễn tuyệt vời, phù hợp với các tình huống triển khai linh hoạt, nguồn lực hạn chế.
Qwen：Sản phẩm của Alibaba, thể hiện xuất sắc trong nhiệm vụ tiếng Trung, có khả năng tổng hợp mạnh mẽ, phù hợp cho các nhà phát triển trong nước lựa chọn hàng đầu.
ChatGLM: Hiệu quả đối thoại tiếng Trung nổi bật, phù hợp với dịch vụ khách hàng theo lĩnh vực và các tình huống địa phương.
Deepseek：Thể hiện ưu thế trong việc生成 mã và suy luận toán học, phù hợp cho công cụ hỗ trợ phát triển thông minh.
Gemma: Mô hình nhẹ do Google phát triển, cấu trúc rõ ràng, dễ dàng để nhanh chóng làm quen và thử nghiệm.
Falcon：Từng là tiêu chuẩn hiệu suất, phù hợp cho nghiên cứu cơ bản hoặc thử nghiệm so sánh, nhưng mức độ hoạt động của cộng đồng đã giảm.
BLOOM: Hỗ trợ đa ngôn ngữ khá mạnh, nhưng hiệu suất suy diễn yếu, phù hợp cho nghiên cứu bao phủ ngôn ngữ.
GPT-2: Mô hình cổ điển đầu tiên, chỉ phù hợp cho mục đích giảng dạy và xác minh, không khuyến nghị sử dụng trong triển khai thực tế.

Mặc dù sự kết hợp mô hình của OpenLedger không bao gồm mô hình MoE hiệu suất cao mới nhất hoặc mô hình đa phương thức, nhưng chiến lược của nó không lỗi thời, mà là cấu hình "ưu tiên thực dụng" dựa trên các ràng buộc thực tế của việc triển khai trên chuỗi (chi phí suy diễn, thích ứng RAG, tương thích LoRA, môi trường EVM).

Model Factory như một chuỗi công cụ không mã, tất cả các mô hình đều tích hợp cơ chế chứng minh đóng góp, đảm bảo quyền lợi của những người đóng góp dữ liệu và các nhà phát triển mô hình, có ưu điểm về ngưỡng thấp, khả năng hiện thực hóa và khả năng kết hợp, so với các công cụ phát triển mô hình truyền thống:

Đối với các nhà phát triển: Cung cấp con đường hoàn chỉnh cho việc ươm tạo, phân phối và thu nhập mô hình;
Đối với nền tảng: hình thành lưu thông tài sản mô hình và hệ sinh thái kết hợp;
Đối với người ứng dụng: có thể kết hợp sử dụng mô hình hoặc Agent như gọi API.

3.2 OpenLoRA, tài sản hóa trên chuỗi của mô hình tinh chỉnh

LoRA (Low-Rank Adaptation) là một phương pháp tinh chỉnh tham số hiệu quả, thông qua việc chèn "ma trận bậc thấp" vào trong mô hình lớn đã được huấn luyện sẵn để học các nhiệm vụ mới mà không làm thay đổi các tham số của mô hình gốc, từ đó giảm đáng kể chi phí đào tạo và nhu cầu lưu trữ. Các mô hình ngôn ngữ lớn truyền thống (như LLaMA, GPT-3) thường có hàng tỷ thậm chí hàng trăm tỷ tham số. Để sử dụng chúng cho các nhiệm vụ cụ thể (như hỏi đáp pháp lý, khám bệnh), cần phải tinh chỉnh (fine-tuning). Chiến lược cốt lõi của LoRA là: "đóng băng các tham số của mô hình lớn gốc, chỉ đào tạo các ma trận tham số mới đã chèn vào." Điều này có tham số hiệu quả, đào tạo nhanh chóng, và triển khai linh hoạt, là phương pháp tinh chỉnh chính thống hiện nay phù hợp nhất cho việc triển khai và gọi kết hợp các mô hình Web3.

OpenLoRA là một khung suy diễn nhẹ được xây dựng bởi OpenLedger, được thiết kế đặc biệt cho việc triển khai nhiều mô hình và chia sẻ tài nguyên. Mục tiêu cốt lõi của nó là giải quyết các vấn đề phổ biến trong việc triển khai mô hình AI hiện tại như chi phí cao, khả năng tái sử dụng thấp, lãng phí tài nguyên GPU, thúc đẩy việc thực hiện "AI có thể thanh toán" (Payable AI).

Các thành phần cốt lõi của kiến trúc hệ thống OpenLoRA, dựa trên thiết kế mô-đun, bao phủ các khâu quan trọng như lưu trữ mô hình, thực thi suy diễn, định tuyến yêu cầu, nhằm thực hiện khả năng triển khai và gọi nhiều mô hình hiệu quả, chi phí thấp:

Mô-đun lưu trữ LoRA Adapter (LoRA Adapters Storage): Các adapter LoRA đã được tinh chỉnh được lưu trữ trên OpenLedger, cho phép tải theo nhu cầu, tránh việc tải tất cả các mô hình vào bộ nhớ đồ họa, tiết kiệm tài nguyên.
Mô hình lưu trữ và lớp hợp nhất động (Model Hosting & Adapter Merging Layer): Tất cả các mô hình tinh chỉnh đều chia sẻ mô hình cơ bản (base model), trong quá trình suy diễn, bộ điều hợp LoRA được hợp nhất động, hỗ trợ nhiều bộ điều hợp suy diễn liên hợp (ensemble), nâng cao hiệu suất.
Công cụ suy diễn (Inference Engine): Tích hợp nhiều công nghệ tối ưu CUDA như Flash-Attention, Paged-Attention, SGMV.
Mô-đun định tuyến yêu cầu và phát xuất dòng (Request Router & Token Streaming): Định tuyến động đến adapter đúng theo mô hình cần thiết trong yêu cầu, thực hiện tạo dòng theo cấp độ token thông qua tối ưu hóa lõi.

Quy trình suy diễn của OpenLoRA thuộc về "mô hình dịch vụ công nghệ "chín muồi và phổ quát" như sau:

Tải mô hình cơ bản: Hệ thống tải trước các mô hình cơ bản như LLaMA 3, Mistral

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

16 thích