Model besar sedang "berjuang" dengan teknologi teks panjang
Kemampuan pemrosesan teks model besar sedang meningkat dengan kecepatan yang luar biasa. Dari 4000 token hingga 400.000 token, panjang konteks model besar sedang tumbuh dengan cepat.
Kemampuan pemrosesan teks panjang tampaknya menjadi standar baru bagi produsen model besar. Di luar negeri, perusahaan seperti OpenAI dan Anthropic telah meningkatkan panjang konteks model mereka. Di dalam negeri, juga ada banyak perusahaan dan tim penelitian yang telah mencapai terobosan di bidang ini.
Saat ini, sudah ada banyak perusahaan model besar terkemuka dan lembaga penelitian di dalam dan luar negeri yang menjadikan perluasan panjang konteks sebagai arah fokus. Kebanyakan perusahaan ini sangat diminati oleh pasar modal dan telah mendapatkan pendanaan dalam jumlah besar.
Mengapa perusahaan model besar harus menguasai teknologi teks panjang? Apa arti dari memperluas panjang konteks 100 kali lipat?
Secara superficial, ini berarti model dapat menangani teks input yang lebih panjang, dengan kemampuan baca yang lebih baik. Namun yang lebih penting, teknologi teks panjang sedang mendorong penerapan model besar dalam bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak secara langsung sama dengan hasil yang lebih baik. Kuncinya adalah bagaimana model memanfaatkan konten konteks dengan efektif.
Saat ini, eksplorasi panjang teks masih jauh dari batasnya. 400.000 token mungkin hanyalah sebuah permulaan.
Mengapa "menggulung" teks panjang?
Beberapa perusahaan model besar menemukan bahwa batasan panjang input menyebabkan banyak masalah dalam penerapan aplikasi. Misalnya, dalam skenario seperti karakter virtual, pengembangan game, dan analisis di bidang profesional, kemampuan teks panjang yang tidak memadai akan membatasi efektivitas praktis.
Teks panjang sangat penting untuk aplikasi Agent dan AI native di masa depan. Agent perlu mengandalkan informasi historis untuk membuat keputusan, sementara aplikasi AI native memerlukan konteks untuk menjaga pengalaman pengguna yang koheren.
Ada pendapat bahwa batasan model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana jumlah langkah eksekusi adalah panjang konteks. Teks panjang juga dapat membantu model mengurangi ambiguitas dan meningkatkan akurasi penalaran dengan memberikan lebih banyak konteks.
Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal model besar, tetapi juga merupakan kunci untuk memajukan penerapan industri. Ini menandakan bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Beberapa perusahaan telah menunjukkan fitur baru dari Long LLM, seperti analisis ringkasan teks yang sangat panjang, pembuatan kode yang kompleks, dialog karakter yang dipersonalisasi, dan sebagainya. Ini menunjukkan bahwa model besar sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman.
Dilema "Segitiga Tak Mungkin" dari Teks Panjang
Teknologi teks panjang menghadapi dilema "segitiga tidak mungkin" terkait panjang teks, perhatian, dan daya komputasi. Semakin panjang teks, semakin sulit untuk memusatkan perhatian, dan memproses teks panjang memerlukan banyak daya komputasi.
Ini terutama karena sebagian besar model didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya membuat jumlah perhitungan meningkat secara kuadratik seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Menggunakan metode optimasi model
Dilema teks panjang saat ini belum dapat sepenuhnya teratasi, tetapi arah eksplorasi telah jelas: mencari titik keseimbangan antara panjang teks, perhatian, dan daya komputasi, sehingga dapat memproses informasi yang cukup sambil tetap mempertimbangkan batasan komputasi dan biaya.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
13 Suka
Hadiah
13
4
Bagikan
Komentar
0/400
OldLeekNewSickle
· 07-07 05:44
Sekali lagi, ada gelombang sabit di angin, para suckers bersiap-siap untuk dipermainkan.
Lihat AsliBalas0
MEVHunter
· 07-07 05:43
jujur saja, perusahaan AI ini akan memanfaatkan ini untuk ekstraksi alpha maksimal sejujurnya
Lihat AsliBalas0
Layer3Dreamer
· 07-07 05:41
secara teori, ini hanyalah penskalaan perhatian rekursif... tidak ada yang revolusioner sejujurnya
Model besar bersaing untuk memecahkan teknologi teks panjang, mendorong aplikasi profesional AI menjadi nyata.
Model besar sedang "berjuang" dengan teknologi teks panjang
Kemampuan pemrosesan teks model besar sedang meningkat dengan kecepatan yang luar biasa. Dari 4000 token hingga 400.000 token, panjang konteks model besar sedang tumbuh dengan cepat.
Kemampuan pemrosesan teks panjang tampaknya menjadi standar baru bagi produsen model besar. Di luar negeri, perusahaan seperti OpenAI dan Anthropic telah meningkatkan panjang konteks model mereka. Di dalam negeri, juga ada banyak perusahaan dan tim penelitian yang telah mencapai terobosan di bidang ini.
Saat ini, sudah ada banyak perusahaan model besar terkemuka dan lembaga penelitian di dalam dan luar negeri yang menjadikan perluasan panjang konteks sebagai arah fokus. Kebanyakan perusahaan ini sangat diminati oleh pasar modal dan telah mendapatkan pendanaan dalam jumlah besar.
Mengapa perusahaan model besar harus menguasai teknologi teks panjang? Apa arti dari memperluas panjang konteks 100 kali lipat?
Secara superficial, ini berarti model dapat menangani teks input yang lebih panjang, dengan kemampuan baca yang lebih baik. Namun yang lebih penting, teknologi teks panjang sedang mendorong penerapan model besar dalam bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak secara langsung sama dengan hasil yang lebih baik. Kuncinya adalah bagaimana model memanfaatkan konten konteks dengan efektif.
Saat ini, eksplorasi panjang teks masih jauh dari batasnya. 400.000 token mungkin hanyalah sebuah permulaan.
Mengapa "menggulung" teks panjang?
Beberapa perusahaan model besar menemukan bahwa batasan panjang input menyebabkan banyak masalah dalam penerapan aplikasi. Misalnya, dalam skenario seperti karakter virtual, pengembangan game, dan analisis di bidang profesional, kemampuan teks panjang yang tidak memadai akan membatasi efektivitas praktis.
Teks panjang sangat penting untuk aplikasi Agent dan AI native di masa depan. Agent perlu mengandalkan informasi historis untuk membuat keputusan, sementara aplikasi AI native memerlukan konteks untuk menjaga pengalaman pengguna yang koheren.
Ada pendapat bahwa batasan model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana jumlah langkah eksekusi adalah panjang konteks. Teks panjang juga dapat membantu model mengurangi ambiguitas dan meningkatkan akurasi penalaran dengan memberikan lebih banyak konteks.
Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal model besar, tetapi juga merupakan kunci untuk memajukan penerapan industri. Ini menandakan bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Beberapa perusahaan telah menunjukkan fitur baru dari Long LLM, seperti analisis ringkasan teks yang sangat panjang, pembuatan kode yang kompleks, dialog karakter yang dipersonalisasi, dan sebagainya. Ini menunjukkan bahwa model besar sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman.
Dilema "Segitiga Tak Mungkin" dari Teks Panjang
Teknologi teks panjang menghadapi dilema "segitiga tidak mungkin" terkait panjang teks, perhatian, dan daya komputasi. Semakin panjang teks, semakin sulit untuk memusatkan perhatian, dan memproses teks panjang memerlukan banyak daya komputasi.
Ini terutama karena sebagian besar model didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya membuat jumlah perhitungan meningkat secara kuadratik seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Dilema teks panjang saat ini belum dapat sepenuhnya teratasi, tetapi arah eksplorasi telah jelas: mencari titik keseimbangan antara panjang teks, perhatian, dan daya komputasi, sehingga dapat memproses informasi yang cukup sambil tetap mempertimbangkan batasan komputasi dan biaya.