10 мүнөттө AI тиркемесин түзүү: Кадам-кадам колдонмо

Жаңыртылды September 24, 2024 3 Протокол окуу

ChatGPT жана Google Gemini пайда болгондон бери, биз бул моделдердин жардамы менен көптөгөн колдонмолор ишке ашырылып жатканын көрдүк. Техника арбитраж деп аталат, бул ыкма AI жасай ала турган бир нече тапшырмалардын бирин аткарат, аны натыйжалуу сунуштар менен жакшыртат, андан кийин аны кардарларга өзгөчөлүк катары берет.

Бул макала Google Gemini моделин биздин Node.js тиркемесине кантип интеграциялоо боюнча этап-этабы менен көрсөтмө болот. Биз генеративдик текстти иштеткен Gemini-pro менен сүрөттөрдү иштеткен Gemini-pro-visionду кантип колдонууну көрөбүз.

Биз алгач долбоорду орнотуудан баштайбыз, анан аны өзүбүздүн мисалда колдонобуз.

Талаптар

Node.js 18+ версиясы
API ачкычыбызды алуу үчүн Google AI Platform каттоо эсеби

Баштоо

Биринчиден, бош папканын ичинде жаңы Node.js долбоорун түзүңүз:

mkdir gemini-node  
cd gemini-node

npm init -y

Эми биз экологиялык файл жана Gemini SDK үчүн керектүү пакеттерди орнотобуз:

npm install dotenv @google/generative-ai

API ачкычын орнотуу

Google AI платформаңызда API ачкычын алуу үчүн API ачкычын алуу баскычын чыкылдатып, аны өзүңүздүн чөйрө файлыңызда (.env) түпкү каталогдо сактаңыз:

API_KEY=YOUR_GEMINI_KEY

Жаңы lib папкасын түзүп, анын ичинде config.js файлын түзүңүз, андан кийин кийинки кадам үчүн API ачкычыбызды экспорттойбуз:

const  dotenv  =  require("dotenv");
dotenv.config();

const  API_KEY  =  process.env.API_KEY;

module.exports  = { API_KEY };

Gemini SDK орнотуу

Бул кадамда биз моделдерибизди кодубузда колдонуу үчүн орнотобуз. lib папкабыздын ичинде 2 файл түзөлү, текстти иштетүү үчүн gemini.js жана сүрөттөрдү иштетүү үчүн gemini-vision.js.

1- Google Gemini Pro

const { GoogleGenerativeAI } = require("@google/generative-ai");
const { API_KEY } = require("./config");

const googleAI = new GoogleGenerativeAI(API_KEY);
const geminiConfig = {
  temperature: 0.9,
  topP: 1,
  topK: 1,
  maxOutputTokens: 4096,
};

const geminiModel = googleAI.getGenerativeModel({
  model: "gemini-pro",
  geminiConfig,
});

const generateText = async (prompt) => {
  try {
    const result = await geminiModel.generateContent(prompt);
    const response = result.response;
    return response.text();
  } catch (error) {
    console.log("response error", error);
  }
};

module.exports = { generateText };

Экспорттолгон функцияны чакырыктан текст түзүү үчүн колдонобуз. Биз аны чат системасын, текстти которууну жана башка көптөгөн колдонуу учурларын куруу үчүн колдоно алабыз.

2- Google Gemini Vision

const { GoogleGenerativeAI } = require("@google/generative-ai");
const { API_KEY } = require("./config");
const fs = require("fs");

const googleAI = new GoogleGenerativeAI(API_KEY);
const geminiConfig = {
  temperature: 0.4,
  topP: 1,
  topK: 32,
  maxOutputTokens: 4096,
};

const geminiModel = googleAI.getGenerativeModel({
  model: "gemini-pro-vision",
  geminiConfig,
});

const interactWithImage = async (filePath) => {
  try {
    const imageFile = fs.readFileSync(filePath);
    const imageBase64 = imageFile.toString("base64");

    const promptConfig = [
      { text: "Generate a caption from this image" },
      {
        inlineData: {
          mimeType: "image/jpeg",
          data: imageBase64,
        },
      },
    ];

    const result = await geminiModel.generateContent({
      contents: [{ role: "user", parts: promptConfig }],
    });

    return result.response.text();
  } catch (error) {
    console.log("response error", error);
  }
};

module.exports = { interactWithImage };

Сүрөттөн текст түзүү үчүн экспорттолгон функцияны колдонобуз.

Колдонмону түзүү

Жаңы index.js файлын түзүп, бул кодду чаптаңыз:

const main = async () => {
  console.log("Hello world!");
};

main();

Эми биз экспорттолгон функцияларыбызды импорттоп, аларды суроодон же сүрөт сунушунан текст түзүү үчүн колдоно алабыз.

Функция аргумент катары файл жолун алат, андыктан аны сыноо үчүн проектиңиздин папкасына сүрөт файлын кошушуңуз керек болот.

Биздин код төмөнкүгө айланат:

const { generateText } = require("./lib/gemini");
const { interactWithImage } = require("./lib/gemini-vision");
const path = require("path");

const main = async () => {
  // Text Generation
  let textFromPrompt = await generateText(
    "tell me about bootcamps in a sentence"
  );
  console.log(textFromPrompt);

  // Caption Generation
  const directoryName = path.join(__dirname, "fish.jpg");
  let captionFromImage = await interactWithImage(directoryName);
  console.log(captionFromImage);
};

main();

Эми эмне болот

Эми скрипттин ордуна API куруу үчүн ExpressJS колдоно аласыз. Сиз ошондой эле колдонуу учурларыңыз үчүн эскертүүлөрдү жазуу боюнча мыкты тажрыйбаларды изилдей аласыз.

Бул сиз кура турган колдонмолордун бир нече мисалдары:

[Unsplash API] аркылуу SEO мета маалымат генератору (https://unsplash.com/developers)
PDFтен мазмун алган кошумча скрипт кошуу менен карап чыгуучуну резюме
Сүрөттөн Instagram био жазуучу

Жакшыраак колдонмолорду курууга кызыгасызбы? Биздин Web Development bootcamp’ке кошулуңуз жана толук функционалдык продуктуну кантип курууну үйрөнүңүз!