现代 AI 系统的进化,不仅依赖于算力和算法的突破,更深受人类反馈的影响。然而,这一关键环节长期缺乏透明度,反馈流程被大型科技公司封闭在内部,导致模型评估停留在静态基准和封闭测试中,难以准确反映实际应用表现。随着模型能力日益增强,这一行业痛点愈发凸显,传统评估方法已无法全面捕捉模型的真实性能、偏见与失效模式。
Yupp 的解法是构建一个“去信任的 AI 反馈市场” (trustless AI feedback marketplace) ,推动多样化用户反馈的自由流动,打造一个可扩展、公平且透明的模型评估引擎。通过众包机制,用户提交提示词并对比多个模型的输出,生成数字签名的“偏好数据包”。这类主观偏好被转化为可供训练的高质量数据,直接服务于如 RLHF、DPO 等后训练范式,为模型微调带来强大动力。
融资与团队
据 Rootdata 数据,项目此前在由a16z领投的种子轮中获得3300万美元的投资。创始人在人工智能和加密货币领域均有深厚积累。Pankaj Gupta (联合创始人兼CEO)@pankaj 曾负责 Google Pay 和 Coinbase 的全球消费者工程。Gilad Mishne (联合创始人兼AI负责人)@gilad 曾担任GoogleX 的机器学习主管。他们曾在 Twitter 共同打造了消费级机器学习产品。目前早期团队已经拥有来自谷歌、Coinbase 和顶级研究实验室的高级工程师,具备丰富的工程与产品经验。
产品简介
Yupp 构建了一个统一的 AI 模型入口,支持并列呈现多个模型回答,鼓励用户在不同模型间进行横向比较与反馈评估。
目前平台已接入 500+ 主流模型,涵盖 ChatGPT、Claude、Gemini、Grok、Llama、DeepSeek 等文本模型,以及 Dall·E、Stable Diffusion 等图像生成模型。用户在使用过程中可通过投票、评价等方式表达偏好,投票后获得“刮奖机会”赢取 Yupp 积分。
产品体验强调互动性与游戏化,通过“AI 对战 + 刮卡”机制激发用户参与热情,让模型评估从冷启动任务转化为高粘性、高参与的社交体验,构建有效的用户增长飞轮。
Yupp 推出的 “VIBE Score” (Vibe Intelligence Benchmark) 是其核心的数据产品,通过基于真实用户偏好的数据,对模型进行多维度排名。
与传统基准测试不同,VIBE 引入延迟、使用成本与人口统计属性等动态变量,试图建立一个“具备应用语境感知”的 AI 评估系统。企业和开发者可依据此系统选择在特定场景、特定人群中表现最优的模型,极大提升模型选型与部署的精准度。为了确保数据真实性与反馈质量,Yupp 携手专业数据供应商,设计了包括个人资料验证、层级审核在内的评分者筛选机制,过滤低质量或恶意反馈,确保数据集具备商业价值。
积分系统
Yupp 构建了一套与平台交互深度绑定的积分机制:
所有模型调用行为均以积分计价;
基本费用:文本模型每次调用 50 积分,图像生成 100 积分;
高级模型(PRO) :额外消耗 50 积分;
最强模型(MAX) :额外消耗 300 积分(总计 350 积分) ;
文件附件:每份消耗 25 积分。
总费用为默认费用、PRO/ MAX 型号费用、附件费用等之和。
积分可用于平台交互,也可按 1,000 积分 = 1 美元的比例兑换为 20 多种法币/稳定币。平台设置了提现上限,确保激励系统可控:
目前新注册用户可获赠 5,000 积分,通过参与模型反馈与“刮刮卡”机制积累积分,从而实现低门槛、高频率的参与和激励闭环。
总结
Yupp 的核心优势在于其数据驱动的正向飞轮:用户真实反馈构成高质量训练数据;吸引开发者前来测试、验证模型;优质模型提升平台内容与体验;反过来再吸引更多用户参与反馈。通过这一反馈闭环,Yupp 不仅建立了数据网络效应,也让 AI 模型评估走向开放与透明,在推动后训练技术演进的同时,成为模型性能优化的关键入口。
然而,平台在快速扩张过程中,也需持续优化其激励与防作弊机制,防范“机器人刷分”“赏金套利”等行为对数据质量造成稀释,在游戏化与严谨性之间取得平衡。整体来看,凭借顶尖团队、强力融资与明晰的产品逻辑,Yupp 有潜力成为新一代 AI 生态中人类偏好基础设施的核心节点,加速“人人皆享 AI、人人塑造 AI”的落地路径。