Sự phát triển gần đây của ngành trí tuệ nhân tạo được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu quả trong các ngành khác nhau, ước tính đã nâng cao hiệu suất làm việc của Mỹ khoảng 20%. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một khuôn khổ thiết kế phần mềm mới, chuyển từ mã chính xác trong quá khứ sang các mô hình lớn tổng quát hơn được nhúng vào phần mềm, có thể hỗ trợ nhiều loại đầu vào và đầu ra khác nhau. Công nghệ học sâu đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng ảnh hưởng đến ngành tiền điện tử.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ cũng như ảnh hưởng của công nghệ học sâu đối với ngành. Phân tích sâu sắc tình trạng và xu hướng phát triển của chuỗi ngành liên quan đến GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên trong học sâu. Đồng thời, khám phá mối quan hệ giữa tiền điện tử và ngành AI từ bản chất, hệ thống lại cấu trúc chuỗi ngành AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để thực hiện trí tuệ nhân tạo dưới các bối cảnh ngành học khác nhau qua các thời đại.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", ý tưởng là để máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất của hệ thống. Các bước chính là gửi dữ liệu vào thuật toán để huấn luyện mô hình, kiểm tra triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện tại, máy học có ba trường phái chính, lần lượt là kết nối, biểu tượng và hành vi, tương ứng mô phỏng hệ thần kinh, tư duy và hành động của con người. Hiện nay, kết nối với mạng nơ-ron đại diện cho trường phái chiếm ưu thế (còn được gọi là học sâu), lý do chính là cấu trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, một khi số lượng lớp và số lượng nơ-ron (tham số) đủ nhiều, sẽ có đủ cơ hội để khớp với các nhiệm vụ tổng quát phức tạp. Bằng cách nhập dữ liệu, có thể điều chỉnh liên tục các tham số của nơ-ron, sau nhiều lần dữ liệu, nơ-ron này sẽ đạt trạng thái tối ưu (tham số), đây cũng là nguồn gốc của "sâu" - số lượng lớp và nơ-ron đủ nhiều.
Công nghệ học sâu dựa trên mạng nơ-ron cũng đã trải qua nhiều lần cải tiến và phát triển, từ mạng nơ-ron sơ khai nhất, đến mạng nơ-ron hồi tiếp (RNN), mạng nơ-ron tích chập (CNN), mạng đối kháng sinh (GAN), cuối cùng tiến hóa thành các mô hình lớn hiện đại như công nghệ Transformer được sử dụng trong GPT. Công nghệ Transformer chỉ là một hướng phát triển của mạng nơ-ron, thêm vào một bộ chuyển đổi, dùng để mã hóa dữ liệu của tất cả các kiểu (như âm thanh, video, hình ảnh, v.v.) thành các giá trị tương ứng để biểu diễn. Sau đó, dữ liệu được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là thực hiện đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ:
Làn sóng đầu tiên là vào những năm 1960, sau một thập kỷ công nghệ AI được đưa ra, làn sóng này được gây ra bởi sự phát triển của công nghệ ký hiệu, công nghệ này giải quyết các vấn đề về xử lý ngôn ngữ tự nhiên tổng quát cũng như đối thoại giữa người và máy. Cùng thời điểm đó, hệ thống chuyên gia đã ra đời.
Cơn sóng thứ hai của công nghệ AI xảy ra vào năm 1997, khi IBM Deep Blue đánh bại nhà vô địch cờ vua Garry Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong lĩnh vực trí tuệ nhân tạo.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn của học sâu là Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán sử dụng mạng nơron nhân tạo làm kiến trúc để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần phát triển, từ RNN, GAN đến Transformer và Stable Diffusion, những thuật toán này đã cùng nhau hình thành nên làn sóng công nghệ thứ ba, cũng là thời kỳ hoàng kim của kết nối.
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều dựa trên phương pháp học sâu dựa trên mạng nơ-ron. Mô hình lớn do GPT dẫn đầu đã tạo ra một cơn sốt về trí tuệ nhân tạo, hàng loạt người chơi đổ xô vào lĩnh vực này, nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường tăng vọt. Phần này chủ yếu khám phá chuỗi công nghiệp của thuật toán học sâu, cấu trúc thượng nguồn và hạ nguồn của nó, cũng như tình hình hiện tại và mối quan hệ cung cầu, sự phát triển trong tương lai.
Đào tạo LLMs (mô hình lớn) dựa trên công nghệ Transformer, đứng đầu là GPT, được chia thành ba bước:
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp cho lớp đầu vào đủ nhiều cặp dữ liệu để tìm kiếm các tham số tốt nhất của từng nơ-ron trong mô hình, quá trình này cần một lượng lớn dữ liệu và cũng là quá trình tiêu tốn nhiều sức mạnh tính toán nhất.
Bước thứ hai, tinh chỉnh. Cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, nhằm nâng cao chất lượng đầu ra của mô hình.
Bước ba, học tăng cường. Xây dựng một "mô hình thưởng" để xác định xem đầu ra của mô hình lớn có chất lượng cao hay không, nhằm tự động lặp lại các tham số của mô hình lớn.
Nói một cách đơn giản, trong quá trình đào tạo mô hình lớn, việc đào tạo trước yêu cầu một lượng dữ liệu rất cao và cần sức mạnh tính toán GPU nhiều nhất; tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số; học tăng cường có thể lặp đi lặp lại các tham số thông qua mô hình thưởng để xuất ra kết quả chất lượng cao hơn.
Ba yếu tố chính quyết định hiệu suất của mô hình lớn: số lượng tham số, lượng và chất lượng dữ liệu, và sức mạnh tính toán. Ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, lượng dữ liệu là n (tính theo số lượng Token), thì có thể tính toán lượng tính toán cần thiết thông qua quy tắc kinh nghiệm, từ đó ước tính sức mạnh tính toán cần mua và thời gian đào tạo.
Công suất tính toán thường được đo bằng Flops, đại diện cho một phép toán số thực. Theo quy tắc kinh nghiệm, việc huấn luyện một mô hình lớn khoảng cần 6np Flops. Quá trình suy diễn (thời gian chờ dữ liệu đầu vào để mô hình lớn cho ra kết quả) mất khoảng 2np Flops.
Việc sử dụng chip CPU để đào tạo ban đầu cung cấp hỗ trợ tính toán, sau đó dần dần được thay thế bởi GPU, như chip A100, H100 của Nvidia. Bởi vì GPU có thể được sử dụng như một tính toán chuyên dụng, về hiệu quả tiêu thụ năng lượng thì vượt trội hơn nhiều so với CPU. GPU thực hiện các phép toán dấu phẩy động chủ yếu thông qua mô-đun Tensor Core. Dữ liệu Flops dưới độ chính xác FP16/FP32 của chip đại diện cho khả năng tính toán chính của nó, là một trong những chỉ số đo lường chính của chip.
Giả sử tham số của mô hình lớn lấy GPT3 làm ví dụ, có 175 tỷ tham số, với khối lượng dữ liệu khoảng 1800 tỷ Token (khoảng 570GB), thì để thực hiện một lần tiền huấn luyện cần 6np Flops, khoảng 3.1510^22 Flops. Tính theo đơn vị TFLOPS (Trillion FLOPs) thì khoảng 3.1510^10 TFLOPS, có nghĩa là một chip loại SXM cần khoảng 584 ngày để tiền huấn luyện một lần GPT3.
Như vậy, có thể thấy rằng khối lượng tính toán khổng lồ của việc huấn luyện trước cần nhiều chip tiên tiến làm việc cùng nhau để thực hiện. Số lượng tham số của GPT-4 gấp mười lần GPT-3, điều này có nghĩa là ngay cả khi khối lượng dữ liệu không thay đổi, số lượng chip cũng cần phải mua thêm gấp mười lần. Số lượng Token của GPT-4 là 13 triệu tỷ, cũng gấp mười lần GPT-3, cuối cùng GPT-4 có thể cần hơn 100 lần sức mạnh tính toán của chip.
Trong quá trình đào tạo mô hình lớn, việc lưu trữ dữ liệu cũng gặp vấn đề. Bộ nhớ GPU thường nhỏ (ví dụ, A100 chỉ có 80GB), không thể chứa toàn bộ dữ liệu, do đó cần xem xét băng thông của chip, tức là tốc độ truyền dữ liệu từ ổ cứng đến bộ nhớ. Đồng thời, do sử dụng nhiều chip GPU, còn liên quan đến tốc độ truyền giữa các GPU. Vì vậy, trong nhiều trường hợp, yếu tố hoặc chi phí hạn chế thực tiễn đào tạo mô hình không nhất thiết là khả năng tính toán của chip, mà nhiều khi có thể là băng thông của chip. Bởi vì việc truyền dữ liệu chậm sẽ làm kéo dài thời gian chạy mô hình, chi phí điện năng sẽ tăng lên.
Chuỗi công nghiệp học sâu chủ yếu bao gồm các phần sau:
Nhà cung cấp GPU phần cứng
Nhà cung cấp dịch vụ đám mây
Nhà cung cấp nguồn dữ liệu đào tạo
Nhà cung cấp cơ sở dữ liệu
Thiết bị biên
Ứng dụng
Nhà cung cấp GPU phần cứng
Hiện tại, Nvidia đang ở vị trí dẫn đầu tuyệt đối trong lĩnh vực chip GPU AI. Các trường học chủ yếu sử dụng GPU cấp tiêu dùng (dòng RTX); ngành công nghiệp chủ yếu sử dụng H100, A100 và các loại khác cho việc triển khai thương mại các mô hình lớn.
Vào năm 2023, chip H100 tiên tiến nhất của Nvidia ngay khi ra mắt đã nhận được sự đặt hàng từ nhiều công ty. Nhu cầu toàn cầu về chip H100 vượt xa nguồn cung, chu kỳ xuất hàng của nó đã đạt đến 52 tuần. Do tình trạng độc quyền của Nvidia, Google đã đứng ra dẫn đầu, cùng với Intel, Qualcomm, Microsoft, Amazon thành lập Liên minh CUDA, hy vọng cùng nhau phát triển GPU để thoát khỏi ảnh hưởng của Nvidia.
Đối với các công ty công nghệ siêu lớn / nhà cung cấp dịch vụ đám mây / phòng thí nghiệm quốc gia, họ thường mua hàng nghìn, hàng vạn chip H100 để xây dựng HPC (trung tâm tính toán hiệu năng cao). Tính đến cuối năm 2023, số lượng đặt hàng chip H100 đã vượt quá 500.000.
Về nguồn cung chip của Nvidia, hiện tại đã có tin tức về H200, dự kiến hiệu suất của H200 gấp đôi hiệu suất của H100, trong khi B100 sẽ ra mắt vào cuối năm 2024 hoặc đầu năm 2025. Hiện tại, sự phát triển của GPU vẫn đáp ứng định luật Moore, hiệu suất tăng gấp đôi sau mỗi 2 năm, giá giảm một nửa.
Nhà cung cấp dịch vụ đám mây
Các nhà cung cấp dịch vụ đám mây, sau khi mua đủ GPU để xây dựng HPC, có thể cung cấp khả năng tính toán linh hoạt và giải pháp đào tạo lưu trữ cho các doanh nghiệp trí tuệ nhân tạo có nguồn vốn hạn chế. Hiện tại, thị trường chủ yếu được chia thành ba loại nhà cung cấp năng lực điện toán đám mây:
Nền tảng điện toán đám mây quy mô lớn đại diện cho các nhà cung cấp đám mây truyền thống (AWS, Google, Azure)
Nền tảng điện toán đám mây theo chiều dọc, chủ yếu được bố trí cho AI hoặc tính toán hiệu suất cao.
Nhà cung cấp dịch vụ suy diễn, chủ yếu triển khai các mô hình đã được huấn luyện trước cho khách hàng, thực hiện tinh chỉnh hoặc suy diễn.
Nhà cung cấp dữ liệu huấn luyện
Quá trình huấn luyện mô hình lớn chủ yếu trải qua ba bước: tiền huấn luyện, tinh chỉnh và học tăng cường. Tiền huấn luyện cần một lượng lớn dữ liệu, tinh chỉnh cần dữ liệu chất lượng cao, do đó các công ty như Google, một công cụ tìm kiếm, và Reddit, một nền tảng có dữ liệu đối thoại chất lượng, nhận được sự chú ý rộng rãi từ thị trường.
Một số nhà phát triển chọn phát triển trong các lĩnh vực cụ thể như tài chính, y tế, hóa học, v.v., nhằm không cạnh tranh với các mô hình lớn toàn diện, và cần dữ liệu trong lĩnh vực cụ thể. Do đó, có những công ty cung cấp dữ liệu cụ thể cho các mô hình lớn này, còn được gọi là công ty gán nhãn dữ liệu.
Đối với các doanh nghiệp phát triển mô hình, dữ liệu lớn, dữ liệu chất lượng cao và dữ liệu cụ thể là ba loại yêu cầu dữ liệu chính.
Nghiên cứu của Microsoft cho rằng, nếu chất lượng dữ liệu của các mô hình ngôn ngữ nhỏ rõ ràng tốt hơn mô hình ngôn ngữ lớn, thì hiệu suất của chúng không nhất thiết sẽ kém. Thực tế, GPT không có lợi thế rõ ràng về sự sáng tạo và dữ liệu, chủ yếu là do sự đặt cược của nó vào hướng này đã tạo ra thành công. Sequoia Mỹ cũng cho rằng, GPT trong tương lai không nhất thiết sẽ duy trì lợi thế cạnh tranh, vì lĩnh vực này không có quá nhiều rào cản gia nhập, chủ yếu hạn chế đến từ việc tiếp cận sức mạnh tính toán.
Theo dự đoán, dựa trên tình hình tăng trưởng quy mô mô hình hiện tại, đến năm 2030, tất cả dữ liệu chất lượng thấp và chất lượng cao sẽ cạn kiệt. Do đó, ngành đang khám phá dữ liệu tổng hợp bằng trí tuệ nhân tạo, nhằm tạo ra dữ liệu vô hạn, vì vậy nút thắt chỉ còn lại là sức mạnh tính toán. Hướng đi này vẫn đang trong giai đoạn khám phá, đáng được quan tâm.
Nhà cung cấp cơ sở dữ liệu
Đối với dữ liệu AI và các tác vụ suy luận huấn luyện học sâu, hiện nay trong ngành sử dụng "cơ sở dữ liệu vector". Cơ sở dữ liệu vector nhằm mục đích lưu trữ, quản lý và lập chỉ mục một cách hiệu quả lượng lớn dữ liệu vector nhiều chiều. Có khả năng lưu trữ dữ liệu phi cấu trúc một cách thống nhất dưới dạng "vector", phù hợp cho việc lưu trữ và xử lý các vector này.
Các người chơi chính bao gồm Chroma, Zilliz, Pinecone, Weaviate, v.v. Dự kiến, khi nhu cầu về khối lượng dữ liệu tăng lên, cùng với sự bùng nổ của các mô hình lớn và ứng dụng trong nhiều lĩnh vực khác nhau, nhu cầu về cơ sở dữ liệu Vector sẽ tăng mạnh. Do lĩnh vực này có rào cản kỹ thuật cao, việc đầu tư sẽ nghiêng nhiều hơn về các doanh nghiệp đã trưởng thành và có khách hàng.
Thiết bị biên
Khi xây dựng GPU HPC (cụm tính toán hiệu suất cao), thường tiêu tốn một lượng lớn năng lượng để tạo ra nhiệt, cần thiết bị làm mát.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
10 thích
Phần thưởng
10
7
Chia sẻ
Bình luận
0/400
NFTRegretDiary
· 07-08 17:35
Metaverse quá vô lý Không kiếm được tiền
Xem bản gốcTrả lời0
FUDwatcher
· 07-08 04:00
Lại có người nói AI được chơi cho Suckers rồi.
Xem bản gốcTrả lời0
TokenUnlocker
· 07-06 20:54
Blockchain chết vị thế Long mua đáy là xong.
Xem bản gốcTrả lời0
WagmiWarrior
· 07-06 20:54
Kiếm tiền mới là việc chính Giao dịch tiền điện tử mãi mãi là thần thánh
Xem bản gốcTrả lời0
HodlNerd
· 07-06 20:54
ý nghĩa thống kê vượt qua tiếng ồn của thị trường... nhận diện mẫu xác nhận rằng chúng ta đang bước vào một giai đoạn hội tụ giữa AI + crypto
Sự kết hợp giữa AI và ngành mã hóa: Độ sâu học máy đang định hình lại bối cảnh Web3
AI x Crypto: Từ số không đến đỉnh cao
Giới thiệu
Sự phát triển gần đây của ngành trí tuệ nhân tạo được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu quả trong các ngành khác nhau, ước tính đã nâng cao hiệu suất làm việc của Mỹ khoảng 20%. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một khuôn khổ thiết kế phần mềm mới, chuyển từ mã chính xác trong quá khứ sang các mô hình lớn tổng quát hơn được nhúng vào phần mềm, có thể hỗ trợ nhiều loại đầu vào và đầu ra khác nhau. Công nghệ học sâu đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng ảnh hưởng đến ngành tiền điện tử.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ cũng như ảnh hưởng của công nghệ học sâu đối với ngành. Phân tích sâu sắc tình trạng và xu hướng phát triển của chuỗi ngành liên quan đến GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên trong học sâu. Đồng thời, khám phá mối quan hệ giữa tiền điện tử và ngành AI từ bản chất, hệ thống lại cấu trúc chuỗi ngành AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để thực hiện trí tuệ nhân tạo dưới các bối cảnh ngành học khác nhau qua các thời đại.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", ý tưởng là để máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất của hệ thống. Các bước chính là gửi dữ liệu vào thuật toán để huấn luyện mô hình, kiểm tra triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện tại, máy học có ba trường phái chính, lần lượt là kết nối, biểu tượng và hành vi, tương ứng mô phỏng hệ thần kinh, tư duy và hành động của con người. Hiện nay, kết nối với mạng nơ-ron đại diện cho trường phái chiếm ưu thế (còn được gọi là học sâu), lý do chính là cấu trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, một khi số lượng lớp và số lượng nơ-ron (tham số) đủ nhiều, sẽ có đủ cơ hội để khớp với các nhiệm vụ tổng quát phức tạp. Bằng cách nhập dữ liệu, có thể điều chỉnh liên tục các tham số của nơ-ron, sau nhiều lần dữ liệu, nơ-ron này sẽ đạt trạng thái tối ưu (tham số), đây cũng là nguồn gốc của "sâu" - số lượng lớp và nơ-ron đủ nhiều.
Công nghệ học sâu dựa trên mạng nơ-ron cũng đã trải qua nhiều lần cải tiến và phát triển, từ mạng nơ-ron sơ khai nhất, đến mạng nơ-ron hồi tiếp (RNN), mạng nơ-ron tích chập (CNN), mạng đối kháng sinh (GAN), cuối cùng tiến hóa thành các mô hình lớn hiện đại như công nghệ Transformer được sử dụng trong GPT. Công nghệ Transformer chỉ là một hướng phát triển của mạng nơ-ron, thêm vào một bộ chuyển đổi, dùng để mã hóa dữ liệu của tất cả các kiểu (như âm thanh, video, hình ảnh, v.v.) thành các giá trị tương ứng để biểu diễn. Sau đó, dữ liệu được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là thực hiện đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ: Làn sóng đầu tiên là vào những năm 1960, sau một thập kỷ công nghệ AI được đưa ra, làn sóng này được gây ra bởi sự phát triển của công nghệ ký hiệu, công nghệ này giải quyết các vấn đề về xử lý ngôn ngữ tự nhiên tổng quát cũng như đối thoại giữa người và máy. Cùng thời điểm đó, hệ thống chuyên gia đã ra đời.
Cơn sóng thứ hai của công nghệ AI xảy ra vào năm 1997, khi IBM Deep Blue đánh bại nhà vô địch cờ vua Garry Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong lĩnh vực trí tuệ nhân tạo.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn của học sâu là Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán sử dụng mạng nơron nhân tạo làm kiến trúc để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần phát triển, từ RNN, GAN đến Transformer và Stable Diffusion, những thuật toán này đã cùng nhau hình thành nên làn sóng công nghệ thứ ba, cũng là thời kỳ hoàng kim của kết nối.
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều dựa trên phương pháp học sâu dựa trên mạng nơ-ron. Mô hình lớn do GPT dẫn đầu đã tạo ra một cơn sốt về trí tuệ nhân tạo, hàng loạt người chơi đổ xô vào lĩnh vực này, nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường tăng vọt. Phần này chủ yếu khám phá chuỗi công nghiệp của thuật toán học sâu, cấu trúc thượng nguồn và hạ nguồn của nó, cũng như tình hình hiện tại và mối quan hệ cung cầu, sự phát triển trong tương lai.
Đào tạo LLMs (mô hình lớn) dựa trên công nghệ Transformer, đứng đầu là GPT, được chia thành ba bước:
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp cho lớp đầu vào đủ nhiều cặp dữ liệu để tìm kiếm các tham số tốt nhất của từng nơ-ron trong mô hình, quá trình này cần một lượng lớn dữ liệu và cũng là quá trình tiêu tốn nhiều sức mạnh tính toán nhất.
Bước thứ hai, tinh chỉnh. Cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, nhằm nâng cao chất lượng đầu ra của mô hình.
Bước ba, học tăng cường. Xây dựng một "mô hình thưởng" để xác định xem đầu ra của mô hình lớn có chất lượng cao hay không, nhằm tự động lặp lại các tham số của mô hình lớn.
Nói một cách đơn giản, trong quá trình đào tạo mô hình lớn, việc đào tạo trước yêu cầu một lượng dữ liệu rất cao và cần sức mạnh tính toán GPU nhiều nhất; tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số; học tăng cường có thể lặp đi lặp lại các tham số thông qua mô hình thưởng để xuất ra kết quả chất lượng cao hơn.
Ba yếu tố chính quyết định hiệu suất của mô hình lớn: số lượng tham số, lượng và chất lượng dữ liệu, và sức mạnh tính toán. Ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, lượng dữ liệu là n (tính theo số lượng Token), thì có thể tính toán lượng tính toán cần thiết thông qua quy tắc kinh nghiệm, từ đó ước tính sức mạnh tính toán cần mua và thời gian đào tạo.
Công suất tính toán thường được đo bằng Flops, đại diện cho một phép toán số thực. Theo quy tắc kinh nghiệm, việc huấn luyện một mô hình lớn khoảng cần 6np Flops. Quá trình suy diễn (thời gian chờ dữ liệu đầu vào để mô hình lớn cho ra kết quả) mất khoảng 2np Flops.
Việc sử dụng chip CPU để đào tạo ban đầu cung cấp hỗ trợ tính toán, sau đó dần dần được thay thế bởi GPU, như chip A100, H100 của Nvidia. Bởi vì GPU có thể được sử dụng như một tính toán chuyên dụng, về hiệu quả tiêu thụ năng lượng thì vượt trội hơn nhiều so với CPU. GPU thực hiện các phép toán dấu phẩy động chủ yếu thông qua mô-đun Tensor Core. Dữ liệu Flops dưới độ chính xác FP16/FP32 của chip đại diện cho khả năng tính toán chính của nó, là một trong những chỉ số đo lường chính của chip.
Giả sử tham số của mô hình lớn lấy GPT3 làm ví dụ, có 175 tỷ tham số, với khối lượng dữ liệu khoảng 1800 tỷ Token (khoảng 570GB), thì để thực hiện một lần tiền huấn luyện cần 6np Flops, khoảng 3.1510^22 Flops. Tính theo đơn vị TFLOPS (Trillion FLOPs) thì khoảng 3.1510^10 TFLOPS, có nghĩa là một chip loại SXM cần khoảng 584 ngày để tiền huấn luyện một lần GPT3.
Như vậy, có thể thấy rằng khối lượng tính toán khổng lồ của việc huấn luyện trước cần nhiều chip tiên tiến làm việc cùng nhau để thực hiện. Số lượng tham số của GPT-4 gấp mười lần GPT-3, điều này có nghĩa là ngay cả khi khối lượng dữ liệu không thay đổi, số lượng chip cũng cần phải mua thêm gấp mười lần. Số lượng Token của GPT-4 là 13 triệu tỷ, cũng gấp mười lần GPT-3, cuối cùng GPT-4 có thể cần hơn 100 lần sức mạnh tính toán của chip.
Trong quá trình đào tạo mô hình lớn, việc lưu trữ dữ liệu cũng gặp vấn đề. Bộ nhớ GPU thường nhỏ (ví dụ, A100 chỉ có 80GB), không thể chứa toàn bộ dữ liệu, do đó cần xem xét băng thông của chip, tức là tốc độ truyền dữ liệu từ ổ cứng đến bộ nhớ. Đồng thời, do sử dụng nhiều chip GPU, còn liên quan đến tốc độ truyền giữa các GPU. Vì vậy, trong nhiều trường hợp, yếu tố hoặc chi phí hạn chế thực tiễn đào tạo mô hình không nhất thiết là khả năng tính toán của chip, mà nhiều khi có thể là băng thông của chip. Bởi vì việc truyền dữ liệu chậm sẽ làm kéo dài thời gian chạy mô hình, chi phí điện năng sẽ tăng lên.
Chuỗi công nghiệp học sâu chủ yếu bao gồm các phần sau:
Nhà cung cấp GPU phần cứng
Hiện tại, Nvidia đang ở vị trí dẫn đầu tuyệt đối trong lĩnh vực chip GPU AI. Các trường học chủ yếu sử dụng GPU cấp tiêu dùng (dòng RTX); ngành công nghiệp chủ yếu sử dụng H100, A100 và các loại khác cho việc triển khai thương mại các mô hình lớn.
Vào năm 2023, chip H100 tiên tiến nhất của Nvidia ngay khi ra mắt đã nhận được sự đặt hàng từ nhiều công ty. Nhu cầu toàn cầu về chip H100 vượt xa nguồn cung, chu kỳ xuất hàng của nó đã đạt đến 52 tuần. Do tình trạng độc quyền của Nvidia, Google đã đứng ra dẫn đầu, cùng với Intel, Qualcomm, Microsoft, Amazon thành lập Liên minh CUDA, hy vọng cùng nhau phát triển GPU để thoát khỏi ảnh hưởng của Nvidia.
Đối với các công ty công nghệ siêu lớn / nhà cung cấp dịch vụ đám mây / phòng thí nghiệm quốc gia, họ thường mua hàng nghìn, hàng vạn chip H100 để xây dựng HPC (trung tâm tính toán hiệu năng cao). Tính đến cuối năm 2023, số lượng đặt hàng chip H100 đã vượt quá 500.000.
Về nguồn cung chip của Nvidia, hiện tại đã có tin tức về H200, dự kiến hiệu suất của H200 gấp đôi hiệu suất của H100, trong khi B100 sẽ ra mắt vào cuối năm 2024 hoặc đầu năm 2025. Hiện tại, sự phát triển của GPU vẫn đáp ứng định luật Moore, hiệu suất tăng gấp đôi sau mỗi 2 năm, giá giảm một nửa.
Nhà cung cấp dịch vụ đám mây
Các nhà cung cấp dịch vụ đám mây, sau khi mua đủ GPU để xây dựng HPC, có thể cung cấp khả năng tính toán linh hoạt và giải pháp đào tạo lưu trữ cho các doanh nghiệp trí tuệ nhân tạo có nguồn vốn hạn chế. Hiện tại, thị trường chủ yếu được chia thành ba loại nhà cung cấp năng lực điện toán đám mây:
Nhà cung cấp dữ liệu huấn luyện
Quá trình huấn luyện mô hình lớn chủ yếu trải qua ba bước: tiền huấn luyện, tinh chỉnh và học tăng cường. Tiền huấn luyện cần một lượng lớn dữ liệu, tinh chỉnh cần dữ liệu chất lượng cao, do đó các công ty như Google, một công cụ tìm kiếm, và Reddit, một nền tảng có dữ liệu đối thoại chất lượng, nhận được sự chú ý rộng rãi từ thị trường.
Một số nhà phát triển chọn phát triển trong các lĩnh vực cụ thể như tài chính, y tế, hóa học, v.v., nhằm không cạnh tranh với các mô hình lớn toàn diện, và cần dữ liệu trong lĩnh vực cụ thể. Do đó, có những công ty cung cấp dữ liệu cụ thể cho các mô hình lớn này, còn được gọi là công ty gán nhãn dữ liệu.
Đối với các doanh nghiệp phát triển mô hình, dữ liệu lớn, dữ liệu chất lượng cao và dữ liệu cụ thể là ba loại yêu cầu dữ liệu chính.
Nghiên cứu của Microsoft cho rằng, nếu chất lượng dữ liệu của các mô hình ngôn ngữ nhỏ rõ ràng tốt hơn mô hình ngôn ngữ lớn, thì hiệu suất của chúng không nhất thiết sẽ kém. Thực tế, GPT không có lợi thế rõ ràng về sự sáng tạo và dữ liệu, chủ yếu là do sự đặt cược của nó vào hướng này đã tạo ra thành công. Sequoia Mỹ cũng cho rằng, GPT trong tương lai không nhất thiết sẽ duy trì lợi thế cạnh tranh, vì lĩnh vực này không có quá nhiều rào cản gia nhập, chủ yếu hạn chế đến từ việc tiếp cận sức mạnh tính toán.
Theo dự đoán, dựa trên tình hình tăng trưởng quy mô mô hình hiện tại, đến năm 2030, tất cả dữ liệu chất lượng thấp và chất lượng cao sẽ cạn kiệt. Do đó, ngành đang khám phá dữ liệu tổng hợp bằng trí tuệ nhân tạo, nhằm tạo ra dữ liệu vô hạn, vì vậy nút thắt chỉ còn lại là sức mạnh tính toán. Hướng đi này vẫn đang trong giai đoạn khám phá, đáng được quan tâm.
Nhà cung cấp cơ sở dữ liệu
Đối với dữ liệu AI và các tác vụ suy luận huấn luyện học sâu, hiện nay trong ngành sử dụng "cơ sở dữ liệu vector". Cơ sở dữ liệu vector nhằm mục đích lưu trữ, quản lý và lập chỉ mục một cách hiệu quả lượng lớn dữ liệu vector nhiều chiều. Có khả năng lưu trữ dữ liệu phi cấu trúc một cách thống nhất dưới dạng "vector", phù hợp cho việc lưu trữ và xử lý các vector này.
Các người chơi chính bao gồm Chroma, Zilliz, Pinecone, Weaviate, v.v. Dự kiến, khi nhu cầu về khối lượng dữ liệu tăng lên, cùng với sự bùng nổ của các mô hình lớn và ứng dụng trong nhiều lĩnh vực khác nhau, nhu cầu về cơ sở dữ liệu Vector sẽ tăng mạnh. Do lĩnh vực này có rào cản kỹ thuật cao, việc đầu tư sẽ nghiêng nhiều hơn về các doanh nghiệp đã trưởng thành và có khách hàng.
Thiết bị biên
Khi xây dựng GPU HPC (cụm tính toán hiệu suất cao), thường tiêu tốn một lượng lớn năng lượng để tạo ra nhiệt, cần thiết bị làm mát.