Phương pháp tiếp cận sáng tạo của Jamba đối với AI sáng tạo của Phòng thí nghiệm AI21

Cập nhật trên November 19, 2024 3 phút Đọc

Jamba, một mô hình trí tuệ nhân tạo mới do AI21 Labs tạo ra, khắc phục những hạn chế về ngữ cảnh điển hình mà các mô hình AI tạo sinh gặp phải trong khi yêu cầu ít sức mạnh xử lý hơn. Ngành này đang hướng tới các mô hình có khả năng xử lý ngữ cảnh quan trọng, giúp cải thiện tính mạch lạc trong các cuộc thảo luận dài hơn nhưng thường phải trả giá bằng nhu cầu xử lý cao hơn. Hay Dagan, trưởng nhóm sản phẩm tại AI21 Labs, khẳng định rằng có thể đạt được chiến lược hiệu quả hơn và minh họa điều đó bằng mô hình gần đây nhất của họ, Jamba.

Cửa sổ ngữ cảnh của mô hình AI rất cần thiết để duy trì luồng đối thoại và phân tích dữ liệu. Cửa sổ lớn hơn có khả năng nắm bắt và duy trì luồng trò chuyện tốt hơn, trong khi cửa sổ nhỏ hơn nhanh chóng khiến người ta quên đi những tương tác gần đây. Jamba của AI21 Labs là mô hình phân tích và tạo văn bản tiên tiến, có thể xử lý lượng lớn dữ liệu và bao gồm nhiều ngôn ngữ, sánh ngang với sức mạnh của các mô hình nổi tiếng như Gemini của Google và ChatGPT của OpenAI.

Một tính năng đáng chú ý của Jamba là khả năng quản lý tới 140.000 mã thông báo trên một GPU cao cấp duy nhất — gần tương đương với một cuốn tiểu thuyết dài 210 trang. So với Llama 2 của Meta, quản lý cửa sổ ngữ cảnh nhỏ hơn với ít yêu cầu bộ nhớ hơn, thì khả năng này về cơ bản là cao hơn.

Jamba độc đáo vì kiến trúc của nó, kết hợp các mô hình không gian trạng thái (SSM), mang lại hiệu quả tính toán với các chuỗi dữ liệu dài, với các máy biến áp được công nhận vì lý luận phức tạp của chúng. Trong khi SSM, chẳng hạn như mô hình nguồn mở Mamba, cải thiện hiệu quả và thông lượng của mô hình trong bối cảnh dài hơn, thì máy biến áp lại rất xuất sắc trong việc xác định mức độ liên quan của dữ liệu đến. Điều này giúp Jamba hoạt động hiệu quả hơn ba lần so với các mẫu máy biến áp có kích thước tương tự.

Jamba là một ví dụ tiên phong về việc sử dụng SSM trong các mô hình thương mại, quy mô lớn hứa hẹn cải thiện hiệu suất và hiệu quả. Nó được cung cấp cho các nhà nghiên cứu theo giấy phép nguồn mở với mục đích bổ sung các biện pháp an toàn và cải tiến trong các bản phát hành sau này. Theo Dagan, Jamba có khả năng biến đổi hoàn toàn hiệu suất mô hình trên các GPU đơn lẻ, đây sẽ là một bước đột phá lớn về hiệu quả và thiết kế của AI.

Đảm bảo tương lai của bạn trong lĩnh vực AI và dữ liệu lớn với Code Labs Academy thực hành Khoa học dữ liệu và Bootcamp AI.