Tags:

February 14th 2023

GPT-3 (Generative Pre-trained Transformer 3) merupakan perangkat lunak large language models (LLM) terpopuler yang dikembangkan oleh OpenAI. GPT-3 juga merupakan sebuah model kecerdasan buatan (artificial intelligence) yang mampu menerjemahkan instruksi yang diucapkan manusia ke dalam suatu rangkaian kode pemrograman. Selain itu, GPT-3 mampu menjalankan beragam tugas Natural Language Processing (NLP), seperti menulis artikel, menjawab pertanyaan, merangkum suatu kumpulan teks, dan lain-lain. Sederhananya, GPT-3 menerima input dari pengguna dan model tersebut akan memberikan output teks berdasarkan hasil olah struktur serta pola dari data yang diberikan.

Produk turunan GPT-3 yang dikembangkan oleh OpenAI adalah ChatGPT. Perangkat lunak ini dilatih untuk mengolah sejumlah besar data teks dan dapat digunakan untuk berbagai tugas NLP, seperti penerjemahan, peringkasan, dan menjawab pertanyaan. Salah satu fungsi utama ChatGPT adalah untuk menghasilkan human-like text, sehingga kemudian perangkat lunak semodel ini sering disebut sebagai ‘chatbot‘ atau ‘text generation model‘.

Baca juga: Panduan Lengkap AI Content Generator dan Copywriting Tools

Meskipun dikenal sebagai game-changer di lini pasarnya, GPT-3 juga dikenal sebagai produk yang cukup mahal, sehingga akses terhadap kode pemrogramannya didominasi oleh perusahaan besar. Untuk itu, beberapa kompetitor lain seperti EleutherAI dan Hugging Face mengeluarkan produk LLM berbasis open-source yang lebih mudah dijangkau oleh publik. Pengembang besar lain seperti Meta juga melakukan hal serupa, namun aksesnya terbatas bagi peneliti dan permintaan khusus.

13 Open-Source Alternatif GPT-3 Terbaik

Berikut ini merupakan 13 alternatif GPT-3 terbaik yang dapat Anda coba:

1. BLOOM

BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) merupakan inisiasi dari co-founder Hugging Face yang melibatkan lebih dari 1000 peneliti di bidang artificial intelligence (AI). BLOOM berbasis open-source dan dianggap sebagai alternatif terbaik dari GPT-3. Model LLM ini dilatih pada 176 miliar parameter data, atau 1 miliar lebih banyak dari GPT-3. Secara keseluruhan, BLOOM memiliki training dataset yang terdiri dari hasil olah data pre-processed text sebesar 1,6 Terabyte. Bloom dapat memproses 46 bahasa, termasuk Perancis, Vietnam, Mandarin, Indonesia, hingga 13 bahasa native India (seperti Hindi) dan 20 bahasa rumpun Afrika. Perangkat lunak ini dapat diunduh secara gratis.

2. GPT-J

GPT-J dikembangkan oleh EleutherAI dan merupakan upgrade dari versi pendahulunya yaitu GPT-Neo Perangkat lunak ini memiliki 60 miliar parameter data dan dikenal sebagai LLM yang sangat efektif dalam rangkaian penugasan code generation. GPT-J juga dapat digunakan untuk chatbot, penulisan cerita, penerjemahan teks, dan pencarian informasi. GPT-J merupakan model AI yang dapat ‘disetel’ oleh user. Dengan kata lain, contoh-contoh input lain yang Anda berikan untuk suatu penugasan dapat terus menambah parameter pembelajaran GPT-J. EleutherAI merancang interface yang cukup sederhana untuk GPT-J untuk mempermudah pengoperasiannya sehingga cukup populer di kalangan pegiat NLP.

3. GLaM

GLaM (Generalist Language Model) dikembangkan oleh Google. Perangkat lunak ini merupakan model MoE (mixture of experts) yang artinya terdiri dari beragam submodel yang terspesialisasi untuk input yang berbeda. GLaM memiliki 1,3 triliun parameter data yang tersebar pada 64 experts per-lapisan MoE. GLaM dikenal sebagai model yang memiliki improved learning efficiency pada 29 benchmark NLP umum di tujuh kategori, termasuk language completion, open-domain question answering, dan penugasan NLP lainnya.

4. Gopher

DeepMind mengembangkan Gopher dengan dataset sebesar 280 miliar parameter. Model LLM ini memiliki spesialisasi dalam menjawab pertanyaan humaniora dan sains. Gopher dilatih dalam lingkup MassiveText (kumpulan data teks besar berbahasa Inggris dari halaman web, buku, artikel berita, dan kode pemrograman). Fungsi pipeline Gopher mencakup filter kualitas teks, penghapusan teks berulang, deduplikasi dokumen serupa, dan penghapusan dokumen dengan dataset pengujian yang tumpang tindih. DeepMind juga meluncurkan versi Gopher yang lebih kecil dengan 44 juta parameter data yang ditujukan untuk penelitian sederhana.

5. Megatron-Turing NLG

Megatron-Turing Natural Language Generation (NLG) dikembangkan oleh NVIDIA dan Microsoft. Model ini dilatih pada superkomputer Selene berbasis NVIDIA DGX SuperPOD dengan dataset sebesar 530 miliar parameter. Megatron-Turing NLG pertama kali diperkenalkan pada Oktober 2021 sebagai penerus model Turing NLG 17B dan Megatron-LM. Megatron-Turing NLG dapat melaksanakan berbagai penugasan NLP seperti prediksi penyelesaian, pemahaman bacaan, penalaran, simpulan bahasa alami, dan disambiguasi kata.

6. Chinchilla

odel LLM lain yang dikembangkan oleh DeepMind adalah Chinchilla. Model ini dikembangkan di atas 70 miliar parameter data. Chinchilla seringkali mengungguli Gopher, GPT-3, Jurassic-1, dan Megatron-Turing NLG pada penugasan downstream evaluation. Model ini membutuhkan daya komputasi yang lebih rendah untuk fine-tuning dan inferensi. Chinchilla cukup populer digunakan oleh lini pemasaran produk digital karena dapat menyediakan simpulan business judgment yang komprehensif.

7. PaLM

PaLM (Pathways Language Model) dikembangkan oleh Google dan dilatih pada 540 miliar parameter data. PaLM merupakan LLM pertama yang dilatih dengan menggunakan sistem Pathways. Sistem tersebut memungkinkan PaLM untuk dapat diskalakan pada puluhan ribu Tensor Processing Unit (TPU) yang berafiliasi dengan Google. Google meluncurkan PaLM sebagai aplikasi open-source dan tersedia untuk umum.

8. BERT

BERT (Bidirectional Encoder Representations from Transformers) dikembangkan oleh Google dengan menggunakan teknik berbasis neural network. Model ini memiliki dua versi, yaitu Bert Base yang memiliki 110 juta parameter yang dapat dilatih, dan Bert Large yang memiliki 340 juta parameter. BERT dapat mengeluarkan hasil query berdasarkan konteks, alias tidak hanya berdasarkan keyword. Selain itu, BERT dapat mengekstraksi informasi dari sejumlah besar data yang tidak terstruktur, dan dapat digunakan untuk membuat antarmuka pencarian (search interface). Tidak banyak yang tahu, namun BERT telah digunakan oleh Google sebagai salah satu sumber daya AI utamanya.

9. LaMDA

LaMDA (Language Model for Dialogue Applications) dikembangkan oleh Google dengan 137 miliar parameter data. Model LLM ini dilatih di atas 1,5 triliun kata dan dirancang untuk zero-shot learning, program synthesis, dan BIG-bench workshop. Pada saat LaMDA diluncurkan pada tahun 2021, Google menyatakan bahwa model ini dirancang sebagai sebuah dialogue engine. Maka tidak aneh apabila LaMDA menjadi populer di kalangan komunitas penulis dan dianggap sebagai “mitra” dalam bekerja.

10. AlexaTM

AlexaTM (Alexa Teacher Models) dikembangkan oleh Amazon di atas 20 miliar parameter data. AlexaTM dirancang untuk mengembangkan model large-scale, multi-task, dan multi-lingual Deep Learning. Model ini dilatih pada campuran data Common Crawl (mC4) dan Wikipedia dari 12 bahasa berbeda dengan menggunakan penugasan denoising dan Causal Language Modeling (CLM). Pengguna dapat mengakses model AlexaTM 20B yang telah terprogram untuk menjalankan inferensi dengan menggunakan API yang tersedia di website SageMaker Python SDK.

11. Jurassic-1

Jurassic-1 dikembangkan oleh AI21. Jurassic-1 dirancang sebagai model NLP autoregresif. Jurassic-1 terdiri dari dua bagian yaitu J1-Jumbo yang dilatih pada lebih dari 178 miliar parameter, dan J1-Large yang dilatih pada 7 miliar parameter. Gabungan dua versi tersebut merupakan model yang lebih maju dari GPT-3. Versi beta-nya dapat diakses secara khusus bagi pengembang dan peneliti. Namun, Jurassic-1 tidak sepenuhnya open-source. Setelah mendaftar, Anda akan mendapatkan kredit sebesar $90 yang dapat digunakan untuk mencoba pre-designed template, summarization, coding, dan lain-lain.

12. CodeGen

CodeGen merupakan model LLM berskala besar yang dapat menulis program berdasarkan input teks biasa. Model ini mengandalkan konsep conversational AI yang bertujuan untuk menyatukan input kreatif manusia dengan kemampuan pengkodean AI yang tak terbatas. CodeGen terdiri dari tiga model, yaitu NL yang menggunakan dataset dari The Pile (produk EleutherAI), multi yang berbasis NL namun korpus datanya berasal dari beragam jenis bahasa pemrograman, dan mono yang berbasis multi namun korpus datanya berasal dari kode Phyton.

13. Wu Dao 2.0

Wu Dao (yang dalam bahasa Cina artinya ‘jalan menuju kesadaran’) merupakan model Deep Learning yang dikembangkan oleh Beijing Academy of Artificial Intelligence (BAAI). Ketika versi pertamanya diluncurkan pada tahun 2021, mereka mengklaim bahwa Wu Dao merupakan model LLM terbesar di dunia yang dikembangkan di atas 1,75 triliun parameter data. Wu Dao dilatih dalam bahasa Inggris dengan menggunakan dataset The Pile. Wu Dao dapat memproses bahasa, teks, image, dan menghasilkan gambar berdasar perintah teks (textual prompt). Di Cina, BAAI secara eksklusif bermitra dengan perusahaan raksasa seperti Xiaomi Corporation dan Kuaishou Technology.

Penutup

Perlu diketahui bahwa model LLM seperti GPT-3 dan lainnya dapat dilatih (fine-tuning) oleh pengguna agar dapat memberikan variabel linguistik yang lebih kaya dan disertai dengan tata bahasa yang sempurna. Beragam ulasan menyatakan bahwa sangatlah sulit untuk melampaui capaian GPT-3 dalam lingkup data berbahasa Inggris. Untuk itu, berbagai developer lain berupaya mengembangkan model LLM yang dapat ‘memahami dunia’ berdasarkan ragam bahasa selain Inggris. Sebagai contoh, secara universal manusia dapat memahami konteks ‘mobil’ sebagai sebuah kendaraan, namun model LLM seperti GPT-3 perlu memiliki basis ribuan hingga jutaan data mengenai ‘mobil’ untuk sampai kepada suatu kesimpulan universal.

Sebagai sebuah platform pembelajaran (machine learning), berbagai model LLM, seperti yang disebutkan pada tulisan ini, merupakan aspek utama dalam pengembangan AI karena mereka dapat membuka akses yang lebih luas bagi pengembang baru dan pengguna umum. Perlu ditekankan kembali bahwa AI merupakan simulasi kecerdasan manusia yang diterapkan pada mesin sehingga mesin tersebut dapat berpikir dan berperilaku seperti seorang manusia. Untuk itu, Anda perlu mengenal ragam alternatif model LLM dari GPT-3 yang dominan karena pengguna (user) perlu terlibat dalam siklus penelitian, pembangunan, pengembangan dan resolusi berbagai model AI.

Penulis: Iqbal Maulana

The post Alternatif GPT-3 Terbaik appeared first on Marketing Online Indonesia.

This post first appeared on Marketing Online Indonesia, please read the originial post: here

People also like

Alternatif GPT-3 Terbaik

Related Articles