Name: LLM Evaluation: AI Agent Skill
Rating: 7 (1 reviews)
Author: applied-artificial-intelligence

Question 1

What is LLM Evaluation?

Accepted Answer

LLM Evaluation is a free, open-source AI agent skill. LLM evaluation and testing patterns including prompt testing, hallucination detection, benchmark creation, and quality metrics. Use when testing LLM applications, validating prompt quality, implementing systematic evaluation, or measuring LLM performance.

Question 2

How do I install LLM Evaluation?

Accepted Answer

Install LLM Evaluation with a single command: npx mdskills install applied-artificial-intelligence/llm-evaluation. This downloads the skill files into your project and your AI agent picks them up automatically.

Question 3

What platforms support LLM Evaluation?

Accepted Answer

LLM Evaluation works with Claude Code, Claude Desktop, Cursor, Vscode Copilot, Windsurf, Continue Dev, Codex, Gemini Cli, Amp, Roo Code, Goose, Opencode, Trae, Qodo, Command Code. Skills use the open SKILL.md format which is compatible with any AI coding agent that reads markdown instructions.

LLM Evaluation

Comments & Discussion