Elastic Search 8.13: спрощення вбудовування та ранжирування для розробників

Швидка справка: що таке Elastic Search?

Elastic Search – це розподілений пошуковий движок, який дозволяє здійснювати пошук по великих обсягах даних.  Він базується на бібліотеці Apache Lucene і пропонує ряд переваг, таких як:

  • Масштабованість: Elasticsearch можна масштабувати горизонтально, додаючи більше вузлів до кластера, щоб обробляти більші обсяги даних і запитів.
  • Гнучкість: Elasticsearch дозволяє зберігати дані в документі JSON, що не має схеми, що робить його зручним для різних типів даних.
  • Потужний пошук: Elasticsearch підтримує різні функції пошуку, включаючи повнотекстовий пошук, пошук із урахуванням морфології та геопошук.
  • Аналітика: Elasticsearch можна використовувати для аналізу даних поряд з їх пошуком.

Завдяки своїм можливостям, Elasticsearch  є популярним вибором для різних випадків використання, таких як:

  • Пошук на сайтах
  • Логічний аналіз
  • Аналіз даних для бізнесу
  • І багато інших

Elastic Search 8.13 розширює можливості, які дозволяють розробникам використовувати моделі штучного інтелекту та машинного навчання для створення швидкого та розширеного пошуку. Завдяки інтеграції з Apache Lucene 9.10, виміряна продуктивність векторного пошуку перевищила  в 2 рази в контрольних тестах, розширюючи складність пошуку, яку можна виконувати майже в реальному часі. Розробники Elastic додали вбудовані можливості Learning to Rank (LTR), які спрощують переранжування для результатів Top-N, що є критично важливим для випадків використання розширеної генерації пошуку (RAG), коли велика мовна модель (LLM) повинна працювати в найкращому контексті.

Створення розширеного пошуку також стосується масиву даних, які вам потрібні для пошуку. З’єднувачі спрощують передачу даних із багатьох джерел до Elasticsearch. Також тут розширили каталог, включивши Redis (Preview) і Notion (Beta) до 20+ власних з’єднувачів, які охоплюють базу даних (PostgreSQL, MongoDB тощо), робоче місце (SharePoint, Dropbox, Gmail тощо), підключення (Slack, Teams, Zoom тощо) та інструменти продуктивності (ServiceNow, Jira тощо). Синхронізацію цих джерел тепер легко налаштувати завдяки можливості перенести дані в існуючий індекс.

Elastic Search 8.13 уже доступний на Elastic Cloud — центрі завантажень Elastic. Ви також можете завантажити Elastic Stack і інші продукти оркестровки в хмарі Elastic Cloud Enterprise і Elastic Cloud для Kubernetes для самостійного керування.

Що ще нового у випуску?

Три найважливіші компоненти випуску 8.13 включають підтримку GA Amazon Bedrock у Elastic AI Assistant for Observability, нові конфігурації векторного пошуку та новий плагін фільтра інтеграції для Logstash. Додаткові основні моменти за рішенням включають наступне:

  • розширений набір інструментів для релевантності (зокрема GA нових конфігурацій векторного пошуку, GA API синонімів і технічний попередній перегляд Learning to Rank)
  • розширені інструменти для керування конекторами (для синхронізації приватних даних для пошукових програм)
  • технічний перегляд інтеграції Elastic із оптимізацією запитів Cohere та ELSER
  • вдосконалення AI Assistant (зокрема GA підтримки Amazon Bedrock і технічний попередній перегляд редагування та візуалізації запитів ES|QL)
  • GA покращеня SLO та багато іншого

Крім того, Elastic Security об’єднує SIEM, безпеку кінцевих точок і хмарну безпеку для виявлення, дослідження та реагування на загрози в хмарному масштабі.

Усі готові рішення Elastic базуються на платформі Elasticsearch. Усі користувачі, незалежно від варіанту використання, отримають вигоду від основних покращень.

Продовження розробки на основі Lucene 9.10

Elastic продовжує прагнути зробити Lucene найкращою векторною базою даних. У цьому випуску розробники додали значні покращення продуктивності. Наприклад, під час порівняльного аналізу набору даних Cohere (1 м векторів із 768 плаваючими розмірами) ви побачите 2-кратне підвищення продуктивності в нічних тестах.

Learning to Rank доступний як технічний попередній перегляд

LTR тепер доступний нативно в Elasticsearch. Він створює кращі результати пошуку, переставляючи набори результатів за допомогою моделі машинного навчання, навченої з вашими даними. Переранжування є важливим завданням для семантичного пошуку з векторним пошуком або без нього. Він може врахувати сигнали поза запитом, щоб відобразити найрелевантніші результати вгорі. Це особливо корисно для випадків використання RAG, які покладаються на передачу лише кількох найкращих результатів LLM як контекст.

8.13 включає LTR як частину основного продукту Elastic Search. Розробники Elastic раді представити це в технічній попередній версії, щоб ви могли спробувати.

Краща, швидша та простіша релевантність

Код програми досить складний, щоб розробники створювали та підтримували його. Додаткова складність генерування вставок і оркестрування більшої кількості систем є додатковим і непотрібним тягарем. У версії Elastic Search 8.13 спростили інтеграцію Cohere для вбудовування, тож розробник отримує перевагу чудових моделей вбудовування без складності оркестрування багатьох компонентів і систем. Тут вдосконалили продуктивність запитів ELSER, дозволивши досягти цільових показників продуктивності з меншими обчислювальними ресурсами.

Розробники часто стикаються з проблемою відсутності контролю над вихідними даними. Коли мова йде про великі документи, їх часто потрібно розбити (або розділити) на кілька вбудованих елементів. Те ж саме вірно, коли у вас є кілька зображень або інших артефактів, пов’язаних з одним документом. Кілька результатів тепер можливі за допомогою кількох inner_hits у вкладених запитах kNN, де ці вбудовування зберігаються як вкладені документи.

Багато випадків використання вимагають активного керування синонімами, щоб забезпечити релевантність результатів. Використання назв продуктів, SKU та інших лінгвістичних помилок у даних спонукало Elastic створити API для програмного керування синонімами. Тепер цей API став загальнодоступним і доповнює можливість керування синонімами через інтерфейс користувача.

Клієнт Elasticsearch Python тепер підтримує orjson. orjson — це швидка, правильна бібліотека JSON для Python . У бенчмарках він перевищує продуктивність стандартних вбудованих модулів json. Покращення швидкості в серіалізації/десеріалізації покращує випадки використання векторів, де є масове індексування векторів.

Використовуйте з’єднувач із наявним індексом

Оскільки джерелом життя пошуку є сукупність даних, з якими ви працюєте, Elastic продовжує вдосконалювати наявний каталог роз’ємів. У цьому випуску додали Redis (попередній перегляд) і Notion (бета-версія) до каталогу. Тепер з’єднувачі для Google Drive, Gmail, OneDrive, Outlook і Salesforce стали загальнодоступними.

Питання не лише в тому, до чого ви підключаєтеся, а й у тому, як і які дані отримуються. Elastic спростив потік конекторів та вдосконалив можливості синхронізації, щоб перенести дані в Elasticsearch, а також додав захист на рівні документів для конекторів ServiceNow і Salesforce.

Що ще важливіше, ви можете перенести ці дані в існуючий індекс. Більше не вимагається, щоб з’єднувач використовував один попередньо визначений індекс. Це дає розробнику більшу гнучкість щодо того, як і де дані повинні розміщуватися в Elasticsearch, дозволяючи їм використовувати вже існуючий індекс або індекс, який вони створили для конкретного проекту чи варіанту використання, або перейти на новий індекс у будь-який час.

Спробуйте!

Існуючі клієнти Elastic Cloud можуть отримати доступ до багатьох із цих функцій безпосередньо з консолі Elastic Cloud. Також є можливість розпочати роботу з безкоштовною пробною версією.

Бажаєте дізнатись більше? Тоді звертайтесь до постачальника – компанії Ідеалсофт.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Previous post Інтернет-магазин взуття Sabo: ваш крок до комфорту та стилю
Next post Робота на складах для жінок