模型评测

AI模型性能评估和测试

模型评测 (5个工具)

模型评测

DataLearner AI是国内领先的AI模型评测平台，提供全面的大模型基准测试排行榜，涵盖AIME、LiveCodeBench、MMLU等主流评测基准，帮助用户了解不同模型的性能表现。

模型评测

LiveCodeBench是由加州大学伯克利分校、麻省理工学院和康奈尔大学联合开发的LLM代码评测基准，提供实时更新的问题集和多维度评估，严格评估大语言模型在代码处理方面的能力。

模型评测

AIME（American Invitational Mathematics Examination）是评估大模型高级数学推理能力的权威基准测试，专门用于测试AI在复杂数学问题上的推理和求解能力。

模型评测

AgentSociety Benchmark是一个针对LLM智能体在城市环境中的行为评估平台，提供多种评估任务和实时排行榜，社区驱动发展，帮助评估AI Agent的实际应用能力。

模型评测

MLLM-Bench是多模态大语言模型的综合评测基准，涵盖图像理解、视频理解、多轮对话等多个维度，为多模态AI模型提供全面的性能评估。