Membangun Aplikasi AI dalam 10 Menit: Panduan Langkah demi Langkah

Diperbarui pada September 06, 2024 4 Menit Baca

Sejak kemunculan ChatGPT dan Google Gemini, kami telah melihat banyak aplikasi diluncurkan dengan memanfaatkan model ini. Teknik ini disebut arbitrase, sebuah metode yang mengambil salah satu dari beberapa tugas yang dapat dilakukan AI, menyempurnakannya dengan perintah yang efisien, dan kemudian menyediakannya kepada pelanggan sebagai fitur.

Artikel ini akan menjadi panduan langkah demi langkah tentang cara mengintegrasikan model Google Gemini ke dalam aplikasi Node.js kita. Kita akan melihat cara menggunakan Gemini-pro yang menangani teks generatif, dan Gemini-pro-vision yang menangani gambar.

Pertama-tama kita akan memulai dengan menyiapkan proyek, dan kemudian menggunakannya pada contoh kita sendiri.

Persyaratan

Node.js versi 18+
Akun Google AI Platform untuk mendapatkan Kunci API kami

Memulai

Pertama, buat proyek Node.js baru di dalam folder kosong:

mkdir gemini-node  
cd gemini-node

npm init -y

Sekarang, kita akan menginstal paket yang diperlukan untuk file lingkungan dan SDK Gemini:

npm install dotenv @google/generative-ai

Penyiapan Kunci API

Di Google AI Platform Anda, klik tombol Dapatkan Kunci API untuk mendapatkan Kunci API, lalu simpan di file lingkungan Anda (.env) di direktori root:

API_KEY=YOUR_GEMINI_KEY

Buat folder lib baru dan buat file config.js di dalamnya, lalu untuk langkah selanjutnya, kita akan mengekspor API Key kita:

const  dotenv  =  require("dotenv");
dotenv.config();

const  API_KEY  =  process.env.API_KEY;

module.exports  = { API_KEY };

Penyiapan SDK Gemini

Pada langkah ini, kita akan menyiapkan model sehingga kita dapat menggunakannya dalam kode kita. Di dalam folder lib, mari buat 2 file, gemini.js untuk menangani teks dan gemini-vision.js untuk menangani gambar.

1- Google Gemini Pro

const { GoogleGenerativeAI } = require("@google/generative-ai");
const { API_KEY } = require("./config");

const googleAI = new GoogleGenerativeAI(API_KEY);
const geminiConfig = {
  temperature: 0.9,
  topP: 1,
  topK: 1,
  maxOutputTokens: 4096,
};

const geminiModel = googleAI.getGenerativeModel({
  model: "gemini-pro",
  geminiConfig,
});

const generateText = async (prompt) => {
  try {
    const result = await geminiModel.generateContent(prompt);
    const response = result.response;
    return response.text();
  } catch (error) {
    console.log("response error", error);
  }
};

module.exports = { generateText };

Kami akan menggunakan fungsi yang diekspor untuk menghasilkan teks dari prompt. Kita dapat menggunakannya untuk membangun sistem obrolan, terjemahan teks, dan banyak lagi kasus penggunaan lainnya.

2- Visi Google Gemini

const { GoogleGenerativeAI } = require("@google/generative-ai");
const { API_KEY } = require("./config");
const fs = require("fs");

const googleAI = new GoogleGenerativeAI(API_KEY);
const geminiConfig = {
  temperature: 0.4,
  topP: 1,
  topK: 32,
  maxOutputTokens: 4096,
};

const geminiModel = googleAI.getGenerativeModel({
  model: "gemini-pro-vision",
  geminiConfig,
});

const interactWithImage = async (filePath) => {
  try {
    const imageFile = fs.readFileSync(filePath);
    const imageBase64 = imageFile.toString("base64");

    const promptConfig = [
      { text: "Generate a caption from this image" },
      {
        inlineData: {
          mimeType: "image/jpeg",
          data: imageBase64,
        },
      },
    ];

    const result = await geminiModel.generateContent({
      contents: [{ role: "user", parts: promptConfig }],
    });

    return result.response.text();
  } catch (error) {
    console.log("response error", error);
  }
};

module.exports = { interactWithImage };

Kami akan menggunakan fungsi yang diekspor untuk menghasilkan teks dari gambar.

Membangun aplikasi

Buat file index.js baru dan tempelkan kode ini:

const main = async () => {
  console.log("Hello world!");
};

main();

Sekarang, kita dapat mengimpor fungsi yang diekspor dan menggunakannya untuk menghasilkan teks, baik dari pertanyaan atau prompt gambar.

Fungsi ini menggunakan jalur file sebagai argumen, jadi Anda perlu menambahkan file gambar ke folder proyek Anda untuk mengujinya.

Kode kami akan diubah menjadi:

const { generateText } = require("./lib/gemini");
const { interactWithImage } = require("./lib/gemini-vision");
const path = require("path");

const main = async () => {
  // Text Generation
  let textFromPrompt = await generateText(
    "tell me about bootcamps in a sentence"
  );
  console.log(textFromPrompt);

  // Caption Generation
  const directoryName = path.join(__dirname, "fish.jpg");
  let captionFromImage = await interactWithImage(directoryName);
  console.log(captionFromImage);
};

main();

Apa selanjutnya

Sekarang, Anda dapat menggunakan ExpressJS untuk membuat API, bukan skrip. Anda juga dapat meneliti tentang praktik terbaik dalam menulis perintah untuk kasus penggunaan Anda.

Berikut adalah beberapa contoh aplikasi yang dapat Anda buat:

Generator data Meta SEO menggunakan Unsplash API
Lanjutkan peninjau dengan menambahkan skrip tambahan yang mendapatkan konten dari PDF
Penulis bio Instagram dari sebuah gambar

Apakah Anda tertarik untuk membuat aplikasi yang lebih baik? Bergabunglah dengan kamp pelatihan Pengembangan Web kami dan pelajari cara membuat produk yang berfungsi penuh!