Основная сложность таких систем вовсе не в LLM. Гораздо больше времени уходит на подготовку данных: описание таблиц, документацию метрик, примеры корректных SQL-запросов.
Трудностей много, но при успешной реализации такой системы – для конечного пользователя доступ к данным становится ближе. Написать запрос в чат-бот гораздо проще, чем просить данные у аналитика или писать SQL.
Существуют готовые фреймворки, которые позволяют решать задачи типа text2sql. Например, vanna-ai, который позволяет сформировать модель данных по схемам аналитической базы данных и примеров запросов к этой базе данных. Для своих задач я использую собственные наработки, которые в частности подсмотрены в "ванне". Основная задача таких систем в том, чтобы аккуратно собрать контекст о структуре данных и научить систему определять корректный контекст происходящего.
А если хотите реализовать бот, который будет отвечать на основе ваших данных – вы можете мне написать, я вам с этим помогу.
@zmeuwkaЭтот же пост в telegram:
ссылка