- 三星TrueBench将AI聊天机器人定向严格规则,而没有部分信用
- 三星在语言之间使用2,485个测试来模仿办公室工作负载
- 条目从简短的请求到超过两万个字符。
在工作场所的采用AI车辆的采用迅速增长,并且对这些系统的评估方式不仅通过自动化进行评估。
到目前为止,大多数标准都是狭窄的,AI的作者和AI聊天机器人系统很少对与办公室生活类似的简单需求进行测试。
三星与新框架Truebench进行了讨论,他说他旨在观察AI模型是否可以完成类似实际工作的任务。
在工作场所测试人工智能
TrueBench是可靠的现实世界使用评估标准的缩写,其中包括2,485套测试集分布在十个类别和十二种语言中。
与关注一个时间问题的传统标准不同,英语提供了更长,更复杂的任务,例如以多种语言汇总和翻译诸如多步骤文档。
三星说,这些输入已从几个角色中改变了2万以上,并且试图反映快速请求和长期报告。
该公司认为这些测试集揭示了限制 AI聊天机器人平台面对现实世界条件而不是类式的查询。
每个测试都有严格的要求:除非满足所有指定的条件,否则模型会失败 – 通常,这通常比贷款部分答案产生更具挑战性和宽容的结果。
“三星研究都为三星电子DX部分的CTO PA Paul(Kyungwhoon)带来了深厚的专业知识和竞争优势。
“我们希望TrueBench能够建立生产力的评估标准,并增强三星的技术领导力。”
三星研究总结了人们和人工智能在设计评估标准方面合作的过程。
其他解释首先确定条件,然后审查它们以检测矛盾或不必要的限制。
标准反复完善,直到一致且精确。
然后将自动评分应用于AI模型,最大程度地减少主观决策,并使比较更透明。
TrueBench的不寻常方面之一是在拥抱面前广播领导表,这允许直接比较五个模型。
除了性能得分外,三星还解释了平均响应长度,这是一个有助于精确效率的度量。
尽管打开系统部分的决定揭示了三星的调查方法,但它提出了可靠性的压力。
自人工智能的出现以来,许多工人已经想知道当赋予AI系统的类似责任时,如何衡量生产率。
TrueBench和高管可以判断AI聊天机器人是否可以替换或支持或支持。
然而,尽管有野心,但比较仍然是合成措施,尽管它很广泛,也无法完全捕捉工作场所沟通或决策的混乱。
TrueBench可以为评估设定更高的标准,但是它仍然是一个明确的问题,它是否可以解决工作场所的工作恐惧,还是可以使他们更加壮大。
在Google新闻上关注Techradar 和 将我们添加为首选资源 在您的喂养中获取我们的专家新闻,考试和意见。确保单击跟踪按钮!
当然可以做 在Tiktok上关注Techradar 定期获取新闻,评论,视频形式的盒子以及我们的更新 WhatsApp 更多的。