Написание оценщика Genkit

Firebase Genkit можно расширить для поддержки пользовательской оценки результатов тестовых примеров либо с использованием LLM в качестве судьи, либо чисто программно.

Определение оценщика

Оценщики — это функции, которые оценивают контент, предоставленный и созданный LLM. Существует два основных подхода к автоматизированной оценке (тестированию): эвристическая оценка и оценка на основе LLM. При эвристическом подходе вы определяете детерминированную функцию, подобную функциям традиционной разработки программного обеспечения. При оценке на основе LLM контент передается обратно в LLM, и LLM предлагается оценить результат в соответствии с критериями, установленными в подсказке.

Независимо от выбранного вами подхода вам необходимо использовать метод ai.defineEvaluator для определения действия оценщика в Genkit. В этом документе мы увидим несколько примеров использования этого метода.

Оценщики на базе LLM

Оценщик на основе LLM использует LLM для оценки входных данных, контекста или выходных данных вашей функции генеративного ИИ.

Оценщики на основе LLM в Genkit состоят из трех компонентов:

  • Подсказка
  • Функция подсчета очков
  • Действия оценщика

Определите подсказку

В этом примере подсказка попросит LLM оценить, насколько вкусен результат. Сначала предоставьте LLM контекст, затем опишите, что вы от него хотите, и, наконец, дайте ему несколько примеров, на которых можно будет основывать его ответ.

Утилита definePrompt Genkit предоставляет простой способ определения подсказок с проверкой ввода и вывода. Вот как вы можете настроить запрос на оценку с помощью definePrompt .

const DELICIOUSNESS_VALUES = ['yes', 'no', 'maybe'] as const;

const DeliciousnessDetectionResponseSchema = z.object({
  reason: z.string(),
  verdict: z.enum(DELICIOUSNESS_VALUES),
});
type DeliciousnessDetectionResponse = z.infer<typeof DeliciousnessDetectionResponseSchema>;

const DELICIOUSNESS_PROMPT = ai.definePrompt(
  {
    name: 'deliciousnessPrompt',
    inputSchema: z.object({
      output: z.string(),
    }),
    outputSchema: DeliciousnessDetectionResponseSchema,
  },
  `You are a food critic. Assess whether the provided output sounds delicious, giving only "yes" (delicious), "no" (not delicious), or "maybe" (undecided) as the verdict.

  Examples:
  Output: Chicken parm sandwich
  Response: { "reason": "A classic and beloved dish.", "verdict": "yes" }

  Output: Boston Logan Airport tarmac
  Response: { "reason": "Not edible.", "verdict": "no" }

  Output: A juicy piece of gossip
  Response: { "reason": "Metaphorically 'tasty' but not food.", "verdict": "maybe" }

  New Output:
  {{output}}
  Response:
  `
);

Определить функцию оценки

Теперь определите функцию, которая будет использовать пример, включающий output , как того требует приглашение, и оценивать результат. Тестовые случаи Genkit включают input по мере необходимости в обязательное поле с дополнительными полями для output и context . Оценщик несет ответственность за проверку наличия всех полей, необходимых для оценки.

import { ModelArgument, z } from 'genkit';
import { BaseEvalDataPoint, Score } from 'genkit/evaluator';

/**
 * Score an individual test case for delciousness.
 */
export async function deliciousnessScore<
  CustomModelOptions extends z.ZodTypeAny,
>(
  judgeLlm: ModelArgument<CustomModelOptions>,
  dataPoint: BaseEvalDataPoint,
  judgeConfig?: CustomModelOptions
): Promise<Score> {
  const d = dataPoint;
  // Validate the input has required fields
  if (!d.output) {
    throw new Error('Output is required for Deliciousness detection');
  }

  //Hydrate the prompt
  const finalPrompt = DELICIOUSNESS_PROMPT.renderText({
    output: d.output as string,
  });

  // Call the LLM to generate an evaluation result
  const response = await ai.generate({
    model: judgeLlm,
    prompt: finalPrompt,
    config: judgeConfig,
  });

  // Parse the output
  const parsedResponse = response.output;
  if (!parsedResponse) {
    throw new Error(`Unable to parse evaluator response: ${response.text}`);
  }

  // Return a scored response
  return {
    score: parsedResponse.verdict,
    details: { reasoning: parsedResponse.reason },
  };
}

Определить действие оценщика

Последний шаг — написать функцию, определяющую само действие оценщика.

import { Genkit, ModelReference, z } from 'genkit';
import { BaseEvalDataPoint, EvaluatorAction } from 'genkit/evaluator';

/**
 * Create the Deliciousness evaluator action.
 */
export function createDeliciousnessEvaluator<
  ModelCustomOptions extends z.ZodTypeAny,
>(
  ai: Genkit,
  judge: ModelReference<ModelCustomOptions>,
  judgeConfig: z.infer<ModelCustomOptions>
): EvaluatorAction {
  return ai.defineEvaluator(
    {
      name: `myAwesomeEval/deliciousness`,
      displayName: 'Deliciousness',
      definition: 'Determines if output is considered delicous.',
      isBilled: true,
    },
    async (datapoint: BaseEvalDataPoint) => {
      const score = await deliciousnessScore(judge, datapoint, judgeConfig);
      return {
        testCaseId: datapoint.testCaseId,
        evaluation: score,
      };
    }
  );
}

Метод defineEvaluator похож на другие конструкторы Genkit, такие как defineFlow , defineRetriever и т. д. Пользователь должен предоставить EvaluatorFn для обратного вызова defineEvaluator . EvaluatorFn принимает BaseEvalDataPoint , который соответствует одной записи в оцениваемом наборе данных, а также необязательный параметр настраиваемых параметров, если он указан. Функция должна обработать точку данных и вернуть объект EvalResponse .

Вот схемы Zod для BaseEvalDataPoint и EvalResponse :

export const BaseEvalDataPoint = z.object({
  testCaseId: z.string(),
  input: z.unknown(),
  output: z.unknown().optional(),
  context: z.array(z.unknown()).optional(),
  reference: z.unknown().optional(),
  testCaseId: z.string().optional(),
  traceIds: z.array(z.string()).optional(),
});

export const EvalResponse = z.object({
  sampleIndex: z.number().optional(),
  testCaseId: z.string(),
  traceId: z.string().optional(),
  spanId: z.string().optional(),
  evaluation: z.union([ScoreSchema, z.array(ScoreSchema)]),
});

где ScoreSchema определяется как:

const ScoreSchema = z.object({
  id: z.string().describe('Optional ID to differentiate multiple scores').optional(),
  score: z.union([z.number(), z.string(), z.boolean()]).optional(),
  error: z.string().optional(),
  details: z
    .object({
      reasoning: z.string().optional(),
    })
    .passthrough()
    .optional(),
});

defineEvaluator позволяет пользователю указать имя, отображаемое пользователем имя и определение для оценщика. Отображаемое имя и определение будут отображаться при выполнении оценки в пользовательском интерфейсе разработчика. Он также имеет необязательную опцию isBilled , которая указывает, может ли этот оценщик привести к выставлению счетов (например: если он использует оплачиваемый LLM или API). Если оценщику выставляется счет, пользователю предлагается подтвердить в CLI, прежде чем он сможет запустить оценку, чтобы защититься от непредвиденных расходов.

Эвристические оценщики

Эвристическим оценщиком может быть любая функция, используемая для оценки входных данных, контекста или выходных данных вашей генеративной функции ИИ.

Эвристические оценщики в Genkit состоят из двух компонентов:

  • Функция подсчета очков
  • Действия оценщика

Определить функцию оценки

Как и в случае с оценщиком на основе LLM, определите функцию оценки. В этом случае функции подсчета очков не обязательно знать о судье LLM или его конфигурации.

import { BaseEvalDataPoint, Score } from 'genkit/evaluator';

const US_PHONE_REGEX =
  /^[\+]?[(]?[0-9]{3}[)]?[-\s\.]?[0-9]{3}[-\s\.]?[0-9]{4}$/i;

/**
 * Scores whether an individual datapoint matches a US Phone Regex.
 */
export async function usPhoneRegexScore(
  dataPoint: BaseEvalDataPoint
): Promise<Score> {
  const d = dataPoint;
  if (!d.output || typeof d.output !== 'string') {
    throw new Error('String output is required for regex matching');
  }
  const matches = US_PHONE_REGEX.test(d.output as string);
  const reasoning = matches
    ? `Output matched regex ${regex.source}`
    : `Output did not match regex ${regex.source}`;
  return {
    score: matches,
    details: { reasoning },
  };
}

/**
 * Create an EvalResponse from an individual scored datapoint.
 */
function fillScores(dataPoint: BaseEvalDataPoint, score: Score): EvalResponse {
  return {
    testCaseId: dataPoint.testCaseId,
    evaluation: score,
  };
}

Определить действие оценщика

import { BaseEvalDataPoint, EvaluatorAction } from 'genkit/evaluator';

/**
 * Configures a regex evaluator to match a US phone number.
 */
export function createUSPhoneRegexEvaluator(
  metrics: RegexMetric[]
): EvaluatorAction[] {
  return metrics.map((metric) => {
    const regexMetric = metric as RegexMetric;
    return defineEvaluator(
      {
        name: `myAwesomeEval/${metric.name.toLocaleLowerCase()}`,
        displayName: 'Regex Match',
        definition:
          'Runs the output against a regex and responds with true if a match is found and false otherwise.',
        isBilled: false,
      },
      async (datapoint: BaseEvalDataPoint) => {
        const score = await usPhoneRegexScore(datapoint);
        return fillScores(datapoint, score);
      }
    );
  });
}

Конфигурация

Параметры плагина

Определите PluginOptions , которые будет использовать пользовательский плагин оценщика. Этот объект не имеет строгих требований и зависит от определенных типов оценщиков.

Как минимум потребуется определиться, какие метрики регистрировать.

export enum MyAwesomeMetric {
  WORD_COUNT = 'WORD_COUNT',
  US_PHONE_REGEX_MATCH = 'US_PHONE_REGEX_MATCH',
}

export interface PluginOptions {
  metrics?: Array<MyAwesomeMetric>;
}

Если этот новый плагин использует LLM в качестве судьи и плагин поддерживает выбор того, какой LLM использовать, определите дополнительные параметры в объекте PluginOptions .

export interface PluginOptions<ModelCustomOptions extends z.ZodTypeAny> {
  judge: ModelReference<ModelCustomOptions>;
  judgeConfig?: z.infer<ModelCustomOptions>;
  metrics?: Array<MyAwesomeMetric>;
}

Определение плагина

Плагины регистрируются в платформе через файл genkit.config.ts в проекте. Чтобы иметь возможность настроить новый плагин, определите функцию, которая определяет GenkitPlugin и настраивает его с помощью параметров PluginOptions определенных выше.

В этом случае у нас есть два оценщика DELICIOUSNESS и US_PHONE_REGEX_MATCH . Здесь эти оценщики регистрируются в плагине и Firebase Genkit.

import { GenkitPlugin, genkitPlugin } from 'genkit/plugin';

export function myAwesomeEval<ModelCustomOptions extends z.ZodTypeAny>(
  options: PluginOptions<ModelCustomOptions>
): GenkitPlugin {
  // Define the new plugin
    return genkitPlugin(
    'myAwesomeEval',
    async (ai: Genkit) => {
      const { judge, judgeConfig, metrics } = options;
      const evaluators: EvaluatorAction[] = metrics.map((metric) => {
        switch (metric) {
          case DELICIOUSNESS:
            // This evaluator requires an LLM as judge
            return createDeliciousnessEvaluator(ai, judge, judgeConfig);
          case US_PHONE_REGEX_MATCH:
            // This evaluator does not require an LLM
            return createUSPhoneRegexEvaluator();
        }
      });
      return { evaluators };
    });
}
export default myAwesomeEval;

Настроить Генкит

Добавьте недавно определенный плагин в вашу конфигурацию Genkit.

Для оценки с помощью Gemini отключите настройки безопасности, чтобы оценщик мог принимать, обнаруживать и оценивать потенциально вредный контент.

import { gemini15Flash } from '@genkit-ai/googleai';

const ai = genkit({
  plugins: [
    ...
    myAwesomeEval({
      judge: gemini15Flash,
      judgeConfig: {
        safetySettings: [
          {
            category: 'HARM_CATEGORY_HATE_SPEECH',
            threshold: 'BLOCK_NONE',
          },
          {
            category: 'HARM_CATEGORY_DANGEROUS_CONTENT',
            threshold: 'BLOCK_NONE',
          },
          {
            category: 'HARM_CATEGORY_HARASSMENT',
            threshold: 'BLOCK_NONE',
          },
          {
            category: 'HARM_CATEGORY_SEXUALLY_EXPLICIT',
            threshold: 'BLOCK_NONE',
          },
        ],
      },
      metrics: [
        MyAwesomeMetric.DELICIOUSNESS,
        MyAwesomeMetric.US_PHONE_REGEX_MATCH
      ],
    }),
  ],
  ...
});

Тестирование

Те же проблемы, которые применяются к оценке качества результатов функции генеративного ИИ, применимы и к оценке способности оценивать оценщика на основе LLM.

Чтобы получить представление о том, работает ли пользовательский оценщик на ожидаемом уровне, создайте набор тестовых примеров, которые имеют четкий правильный и неправильный ответ.

В качестве примера вкусности это может выглядеть как json-файл deliciousness_dataset.json :

[
  {
    "testCaseId": "delicous_mango",
    "input": "What is a super delicious fruit",
    "output": "A perfectly ripe mango – sweet, juicy, and with a hint of tropical sunshine."
  },
  {
    "testCaseId": "disgusting_soggy_cereal",
    "input": "What is something that is tasty when fresh but less tasty after some time?",
    "output": "Stale, flavorless cereal that's been sitting in the box too long."
  }
]

Эти примеры могут быть созданы человеком, или вы можете попросить LLM помочь создать набор тестовых примеров, которые можно будет курировать. Существует множество доступных наборов эталонных данных, которые также можно использовать.

Затем используйте Genkit CLI, чтобы запустить оценщик для этих тестовых случаев.

# Start your genkit runtime
genkit start -- <command to start your app>
genkit eval:run deliciousness_dataset.json

Перейдите по адресу localhost:4000/evaluate , чтобы просмотреть результаты в пользовательском интерфейсе Genkit.