Gadget

Metode Kompresi LLM Ekstrem Baru: AQLM dan PV-Tuning Kurangi Ukuran Model 8x dengan Mempertahankan Kualitas 95%

Metode-metode ini bertujuan untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa yang besar.

Agung Pratnyawan

Posted: Kamis, 25 Juli 2024 | 10:04 WIB

Yandex Research

Hitekno.com - Tim Riset Yandex berkolaborasi dengan para peneliti dari Institute of Science and ology Austria, NeuralMagic, dan KAUST dalam pengembangan dua metode kompresi inovatif untuk large language model (LLM): Additive Quantization of Language Models (AQLM) dan PV-Tuning.

Jika digabungkan, metode-metode ini memungkinkan pengurangan ukuran model hingga 8 kali lipat sekaligus mempertahankan kualitas respons hingga 95%.

Metode-metode ini bertujuan untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa yang besar. Artikel penelitian yang merinci pendekatan ini telah ditampilkan di International Conference on Machine Learning (ICML) yang saat ini sedang berlangsung di Wina, Austria.

Fitur utama AQLM dan PV-Tuning

Sistem AQLM memanfaatkan pendekatan kuantisasi aditif atau pendekatan dalam memetakan himpunan besar menjadi himpunan kecil untuk melakukan kompresi LLM. Pendekatan ini sesungguhnya secara tradisional biasa digunakan untuk pengambilan informasi.

Metode yang dihasilkan mampu mempertahankan dan bahkan meningkatkan akurasi model di bawah kompresi ekstrem, sehingga memungkinkan pemanfaatan LLM pada perangkat sehari-hari seperti komputer di rumah dan smartphone. Bahkan penggunaan memori bisa berkurang secara signifikan.

PV-Tuning mengatasi kesalahan yang mungkin timbul selama proses kompresi model. Apabila digabungkan, AQLM dan PV-Tuning memberikan hasil yang optimal sehingga model mampu memberikan respons berkualitas tinggi, bahkan pada sumber daya penyimpanan yang terbatas.

Evaluasi dan pengenalan metode

Penilaian atau asesmen atas efektivitas metode ini dilakukan secara ketat menggunakan model-model sumber terbuka yang populer seperti Llama 2, Llama 3, Mistral, dan lainnya.

Para peneliti melakukan kompresi atas LLM ini dan mengevaluasi kualitas jawaban yang dihasilkan berdasarkan tolok ukur bahasa Inggris - WikiText2 dan C4 - dan hasilnya menunjukkan bahwa metode ini mampu mempertahankan kualitas jawaban 95% secara mengesankan karena model-model tersebut dikompresi sebanyak 8 kali.

Siapa yang bisa mengambil manfaat dari AQLM dan PV-Tuning?

Metode baru ini menawarkan penghematan sumber daya yang substansial bagi perusahaan yang terlibat dalam pengembangan dan penggunaan model bahasa berpemilik maupun LLM sumber terbuka.

Sebagai contoh, model Llama 2 dengan 13 miliar parameter, setelah dikompresi, kini dapat berjalan hanya dengan 1 GPU, bukan 4 GPU. Dengan demikian, biaya perangkat keras bisa dikurangi hingga 8 kali lipat.

Ini berarti bahwa perusahaan rintisan, peneliti perorangan, dan penggemar LLM dapat menjalankan LLM tingkat lanjut seperti Llama di komputer mereka sehari-hari.

Menjelajahi aplikasi LLM baru

AQLM dan PV-Tuning memungkinkan untuk menggunakan model pada perangkat dengan sumber daya penyimpanan yang terbatas, sehingga memungkinkan penggunaan dan aplikasi baru seperti smartphone, speaker canggih, dan berbagai perangkat sehari-hari lainnya.

Dengan LLM canggih yang terintegrasi di dalamnya, pengguna dapat menggunakan pembuatan teks dan gambar, bantuan suara, rekomendasi yang bisa dipersonalisasi, dan bahkan terjemahan bahasa secara real-time - semuanya tanpa memerlukan koneksi internet aktif.

Selain itu, model yang dikompresi menggunakan metode ini dapat beroperasi hingga 4 kali lebih cepat, karena memerlukan lebih sedikit komputasi.

Implementasi dan akses

Para pengembang dan peneliti di seluruh dunia sudah dapat menggunakan AQLM dan PV-Tuning, yang tersedia di GitHub. Materi pelatihan yang disediakan oleh penulis memberikan panduan dalam mempelajari LLM yang dikompresi secara efektif untuk berbagai aplikasi.

Selain itu, para pengembang dapat mengunduh model-model sumber terbuka populer yang telah dikompresi menggunakan metode-metode tersebut.

Tag