模型评测
AI模型性能评估和测试
模型评测 (5个工具)
D
DataLearner AI
模型评测
DataLearner AI是国内领先的AI模型评测平台,提供全面的大模型基准测试排行榜,涵盖AIME、LiveCodeBench、MMLU等主流评测基准,帮助用户了解不同模型的性能表现。
BenchmarkLLM评测排行榜
4.62.3w
L
LiveCodeBench
模型评测
LiveCodeBench是由加州大学伯克利分校、麻省理工学院和康奈尔大学联合开发的LLM代码评测基准,提供实时更新的问题集和多维度评估,严格评估大语言模型在代码处理方面的能力。
代码评测Benchmark学术研究
4.71.2w
A
AIME Benchmark
模型评测
AIME(American Invitational Mathematics Examination)是评估大模型高级数学推理能力的权威基准测试,专门用于测试AI在复杂数学问题上的推理和求解能力。
数学推理BenchmarkAI评测
4.59.0k
A
AgentSociety Benchmark
模型评测
AgentSociety Benchmark是一个针对LLM智能体在城市环境中的行为评估平台,提供多种评估任务和实时排行榜,社区驱动发展,帮助评估AI Agent的实际应用能力。
Agent评测Benchmark行为评估
4.46.8k
M
MLLM-Bench
模型评测
MLLM-Bench是多模态大语言模型的综合评测基准,涵盖图像理解、视频理解、多轮对话等多个维度,为多模态AI模型提供全面的性能评估。
多模态Benchmark评测
4.35.4k