Firebase Genkit можно расширить для поддержки пользовательской оценки результатов тестовых примеров либо с использованием LLM в качестве судьи, либо чисто программно.
Определение оценщика
Оценщики — это функции, которые оценивают контент, предоставленный и созданный LLM. Существует два основных подхода к автоматизированной оценке (тестированию): эвристическая оценка и оценка на основе LLM. При эвристическом подходе вы определяете детерминированную функцию, подобную функциям традиционной разработки программного обеспечения. При оценке на основе LLM контент передается обратно в LLM, и LLM предлагается оценить результат в соответствии с критериями, установленными в подсказке.
Независимо от выбранного вами подхода вам необходимо использовать метод ai.defineEvaluator
для определения действия оценщика в Genkit. В этом документе мы увидим несколько примеров использования этого метода.
Оценщики на базе LLM
Оценщик на основе LLM использует LLM для оценки входных данных, контекста или выходных данных вашей функции генеративного ИИ.
Оценщики на основе LLM в Genkit состоят из трех компонентов:
- Подсказка
- Функция подсчета очков
- Действия оценщика
Определите подсказку
В этом примере подсказка попросит LLM оценить, насколько вкусен результат. Сначала предоставьте LLM контекст, затем опишите, что вы от него хотите, и, наконец, дайте ему несколько примеров, на которых можно будет основывать его ответ.
Утилита definePrompt
Genkit предоставляет простой способ определения подсказок с проверкой ввода и вывода. Вот как вы можете настроить запрос на оценку с помощью definePrompt
.
const DELICIOUSNESS_VALUES = ['yes', 'no', 'maybe'] as const;
const DeliciousnessDetectionResponseSchema = z.object({
reason: z.string(),
verdict: z.enum(DELICIOUSNESS_VALUES),
});
type DeliciousnessDetectionResponse = z.infer<typeof DeliciousnessDetectionResponseSchema>;
const DELICIOUSNESS_PROMPT = ai.definePrompt(
{
name: 'deliciousnessPrompt',
inputSchema: z.object({
output: z.string(),
}),
outputSchema: DeliciousnessDetectionResponseSchema,
},
`You are a food critic. Assess whether the provided output sounds delicious, giving only "yes" (delicious), "no" (not delicious), or "maybe" (undecided) as the verdict.
Examples:
Output: Chicken parm sandwich
Response: { "reason": "A classic and beloved dish.", "verdict": "yes" }
Output: Boston Logan Airport tarmac
Response: { "reason": "Not edible.", "verdict": "no" }
Output: A juicy piece of gossip
Response: { "reason": "Metaphorically 'tasty' but not food.", "verdict": "maybe" }
New Output:
{{output}}
Response:
`
);
Определить функцию оценки
Теперь определите функцию, которая будет использовать пример, включающий output
, как того требует приглашение, и оценивать результат. Тестовые случаи Genkit включают input
по мере необходимости в обязательное поле с дополнительными полями для output
и context
. Оценщик несет ответственность за проверку наличия всех полей, необходимых для оценки.
import { ModelArgument, z } from 'genkit';
import { BaseEvalDataPoint, Score } from 'genkit/evaluator';
/**
* Score an individual test case for delciousness.
*/
export async function deliciousnessScore<
CustomModelOptions extends z.ZodTypeAny,
>(
judgeLlm: ModelArgument<CustomModelOptions>,
dataPoint: BaseEvalDataPoint,
judgeConfig?: CustomModelOptions
): Promise<Score> {
const d = dataPoint;
// Validate the input has required fields
if (!d.output) {
throw new Error('Output is required for Deliciousness detection');
}
//Hydrate the prompt
const finalPrompt = DELICIOUSNESS_PROMPT.renderText({
output: d.output as string,
});
// Call the LLM to generate an evaluation result
const response = await ai.generate({
model: judgeLlm,
prompt: finalPrompt,
config: judgeConfig,
});
// Parse the output
const parsedResponse = response.output;
if (!parsedResponse) {
throw new Error(`Unable to parse evaluator response: ${response.text}`);
}
// Return a scored response
return {
score: parsedResponse.verdict,
details: { reasoning: parsedResponse.reason },
};
}
Определить действие оценщика
Последний шаг — написать функцию, определяющую само действие оценщика.
import { Genkit, ModelReference, z } from 'genkit';
import { BaseEvalDataPoint, EvaluatorAction } from 'genkit/evaluator';
/**
* Create the Deliciousness evaluator action.
*/
export function createDeliciousnessEvaluator<
ModelCustomOptions extends z.ZodTypeAny,
>(
ai: Genkit,
judge: ModelReference<ModelCustomOptions>,
judgeConfig: z.infer<ModelCustomOptions>
): EvaluatorAction {
return ai.defineEvaluator(
{
name: `myAwesomeEval/deliciousness`,
displayName: 'Deliciousness',
definition: 'Determines if output is considered delicous.',
isBilled: true,
},
async (datapoint: BaseEvalDataPoint) => {
const score = await deliciousnessScore(judge, datapoint, judgeConfig);
return {
testCaseId: datapoint.testCaseId,
evaluation: score,
};
}
);
}
Метод defineEvaluator
похож на другие конструкторы Genkit, такие как defineFlow
, defineRetriever
и т. д. Пользователь должен предоставить EvaluatorFn
для обратного вызова defineEvaluator
. EvaluatorFn
принимает BaseEvalDataPoint
, который соответствует одной записи в оцениваемом наборе данных, а также необязательный параметр настраиваемых параметров, если он указан. Функция должна обработать точку данных и вернуть объект EvalResponse
.
Вот схемы Zod для BaseEvalDataPoint
и EvalResponse
:
export const BaseEvalDataPoint = z.object({
testCaseId: z.string(),
input: z.unknown(),
output: z.unknown().optional(),
context: z.array(z.unknown()).optional(),
reference: z.unknown().optional(),
testCaseId: z.string().optional(),
traceIds: z.array(z.string()).optional(),
});
export const EvalResponse = z.object({
sampleIndex: z.number().optional(),
testCaseId: z.string(),
traceId: z.string().optional(),
spanId: z.string().optional(),
evaluation: z.union([ScoreSchema, z.array(ScoreSchema)]),
});
где ScoreSchema
определяется как:
const ScoreSchema = z.object({
id: z.string().describe('Optional ID to differentiate multiple scores').optional(),
score: z.union([z.number(), z.string(), z.boolean()]).optional(),
error: z.string().optional(),
details: z
.object({
reasoning: z.string().optional(),
})
.passthrough()
.optional(),
});
defineEvaluator
позволяет пользователю указать имя, отображаемое пользователем имя и определение для оценщика. Отображаемое имя и определение будут отображаться при выполнении оценки в пользовательском интерфейсе разработчика. Он также имеет необязательную опцию isBilled
, которая указывает, может ли этот оценщик привести к выставлению счетов (например: если он использует оплачиваемый LLM или API). Если оценщику выставляется счет, пользователю предлагается подтвердить в CLI, прежде чем он сможет запустить оценку, чтобы защититься от непредвиденных расходов.
Эвристические оценщики
Эвристическим оценщиком может быть любая функция, используемая для оценки входных данных, контекста или выходных данных вашей генеративной функции ИИ.
Эвристические оценщики в Genkit состоят из двух компонентов:
- Функция подсчета очков
- Действия оценщика
Определить функцию оценки
Как и в случае с оценщиком на основе LLM, определите функцию оценки. В этом случае функции подсчета очков не обязательно знать о судье LLM или его конфигурации.
import { BaseEvalDataPoint, Score } from 'genkit/evaluator';
const US_PHONE_REGEX =
/^[\+]?[(]?[0-9]{3}[)]?[-\s\.]?[0-9]{3}[-\s\.]?[0-9]{4}$/i;
/**
* Scores whether an individual datapoint matches a US Phone Regex.
*/
export async function usPhoneRegexScore(
dataPoint: BaseEvalDataPoint
): Promise<Score> {
const d = dataPoint;
if (!d.output || typeof d.output !== 'string') {
throw new Error('String output is required for regex matching');
}
const matches = US_PHONE_REGEX.test(d.output as string);
const reasoning = matches
? `Output matched regex ${regex.source}`
: `Output did not match regex ${regex.source}`;
return {
score: matches,
details: { reasoning },
};
}
/**
* Create an EvalResponse from an individual scored datapoint.
*/
function fillScores(dataPoint: BaseEvalDataPoint, score: Score): EvalResponse {
return {
testCaseId: dataPoint.testCaseId,
evaluation: score,
};
}
Определить действие оценщика
import { BaseEvalDataPoint, EvaluatorAction } from 'genkit/evaluator';
/**
* Configures a regex evaluator to match a US phone number.
*/
export function createUSPhoneRegexEvaluator(
metrics: RegexMetric[]
): EvaluatorAction[] {
return metrics.map((metric) => {
const regexMetric = metric as RegexMetric;
return defineEvaluator(
{
name: `myAwesomeEval/${metric.name.toLocaleLowerCase()}`,
displayName: 'Regex Match',
definition:
'Runs the output against a regex and responds with true if a match is found and false otherwise.',
isBilled: false,
},
async (datapoint: BaseEvalDataPoint) => {
const score = await usPhoneRegexScore(datapoint);
return fillScores(datapoint, score);
}
);
});
}
Конфигурация
Параметры плагина
Определите PluginOptions
, которые будет использовать пользовательский плагин оценщика. Этот объект не имеет строгих требований и зависит от определенных типов оценщиков.
Как минимум потребуется определиться, какие метрики регистрировать.
export enum MyAwesomeMetric {
WORD_COUNT = 'WORD_COUNT',
US_PHONE_REGEX_MATCH = 'US_PHONE_REGEX_MATCH',
}
export interface PluginOptions {
metrics?: Array<MyAwesomeMetric>;
}
Если этот новый плагин использует LLM в качестве судьи и плагин поддерживает выбор того, какой LLM использовать, определите дополнительные параметры в объекте PluginOptions
.
export interface PluginOptions<ModelCustomOptions extends z.ZodTypeAny> {
judge: ModelReference<ModelCustomOptions>;
judgeConfig?: z.infer<ModelCustomOptions>;
metrics?: Array<MyAwesomeMetric>;
}
Определение плагина
Плагины регистрируются в платформе через файл genkit.config.ts
в проекте. Чтобы иметь возможность настроить новый плагин, определите функцию, которая определяет GenkitPlugin
и настраивает его с помощью параметров PluginOptions
определенных выше.
В этом случае у нас есть два оценщика DELICIOUSNESS
и US_PHONE_REGEX_MATCH
. Здесь эти оценщики регистрируются в плагине и Firebase Genkit.
import { GenkitPlugin, genkitPlugin } from 'genkit/plugin';
export function myAwesomeEval<ModelCustomOptions extends z.ZodTypeAny>(
options: PluginOptions<ModelCustomOptions>
): GenkitPlugin {
// Define the new plugin
return genkitPlugin(
'myAwesomeEval',
async (ai: Genkit) => {
const { judge, judgeConfig, metrics } = options;
const evaluators: EvaluatorAction[] = metrics.map((metric) => {
switch (metric) {
case DELICIOUSNESS:
// This evaluator requires an LLM as judge
return createDeliciousnessEvaluator(ai, judge, judgeConfig);
case US_PHONE_REGEX_MATCH:
// This evaluator does not require an LLM
return createUSPhoneRegexEvaluator();
}
});
return { evaluators };
});
}
export default myAwesomeEval;
Настроить Генкит
Добавьте недавно определенный плагин в вашу конфигурацию Genkit.
Для оценки с помощью Gemini отключите настройки безопасности, чтобы оценщик мог принимать, обнаруживать и оценивать потенциально вредный контент.
import { gemini15Flash } from '@genkit-ai/googleai';
const ai = genkit({
plugins: [
...
myAwesomeEval({
judge: gemini15Flash,
judgeConfig: {
safetySettings: [
{
category: 'HARM_CATEGORY_HATE_SPEECH',
threshold: 'BLOCK_NONE',
},
{
category: 'HARM_CATEGORY_DANGEROUS_CONTENT',
threshold: 'BLOCK_NONE',
},
{
category: 'HARM_CATEGORY_HARASSMENT',
threshold: 'BLOCK_NONE',
},
{
category: 'HARM_CATEGORY_SEXUALLY_EXPLICIT',
threshold: 'BLOCK_NONE',
},
],
},
metrics: [
MyAwesomeMetric.DELICIOUSNESS,
MyAwesomeMetric.US_PHONE_REGEX_MATCH
],
}),
],
...
});
Тестирование
Те же проблемы, которые применяются к оценке качества результатов функции генеративного ИИ, применимы и к оценке способности оценивать оценщика на основе LLM.
Чтобы получить представление о том, работает ли пользовательский оценщик на ожидаемом уровне, создайте набор тестовых примеров, которые имеют четкий правильный и неправильный ответ.
В качестве примера вкусности это может выглядеть как json-файл deliciousness_dataset.json
:
[
{
"testCaseId": "delicous_mango",
"input": "What is a super delicious fruit",
"output": "A perfectly ripe mango – sweet, juicy, and with a hint of tropical sunshine."
},
{
"testCaseId": "disgusting_soggy_cereal",
"input": "What is something that is tasty when fresh but less tasty after some time?",
"output": "Stale, flavorless cereal that's been sitting in the box too long."
}
]
Эти примеры могут быть созданы человеком, или вы можете попросить LLM помочь создать набор тестовых примеров, которые можно будет курировать. Существует множество доступных наборов эталонных данных, которые также можно использовать.
Затем используйте Genkit CLI, чтобы запустить оценщик для этих тестовых случаев.
# Start your genkit runtime genkit start -- <command to start your app>
genkit eval:run deliciousness_dataset.json
Перейдите по адресу localhost:4000/evaluate
, чтобы просмотреть результаты в пользовательском интерфейсе Genkit.