百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Opik——开源的大语言模型评估、测试和监控框架

ccwgpt 2025-05-05 14:24 4 浏览 0 评论

本文由Aideas Agent整理并推荐。项目地址:/comet-ml/opik, 程序语言:Python, 收藏: 5,458, 分支: 366, 今日收藏: 62 stars today。


Opik 是一个开源的 LLM 评估框架,旨在评估、测试和监控 LLM 应用程序。由 Comet 开发。

Opik 的功能

您可以使用 Opik 来:

  • 开发:
    • 追踪: 在开发和生产过程中跟踪所有 LLM 调用和痕迹。
    • 注释: 通过使用 Python SDK 或 UI 记录反馈分数来注释您的 LLM 调用。
    • 游乐场: 在提示游乐场中尝试不同的提示和模型。
  • 评估: 自动化 LLM 应用程序的评估过程:
    • 数据集和实验: 存储测试用例并运行实验。
    • LLM 作为评判标准: 使用 Opik 的 LLM 作为复杂问题的评判标准,例如幻觉检测、审核和 RAG 评估。
    • CI/CD 集成: 使用我们的 PyTest 集成将评估作为 CI/CD 流程的一部分运行。
  • 生产监控:
    • 记录所有生产痕迹: Opik 设计用于支持高容量的痕迹,使监控生产应用程序变得容易。
    • 监控仪表板: 查看反馈分数、痕迹计数和代币随时间的变化。
    • 在线评估指标: 使用 LLM 作为评判标准轻松评分所有生产痕迹,并识别生产 LLM 应用程序中的任何问题。

安装

Opik 可以作为完全开源的本地安装或使用 Comet.com 作为托管解决方案。最简单的方式是创建一个免费的 Comet 账户。

如果您想自托管 Opik,可以通过克隆代码库并使用 Docker Compose 启动平台:

# 克隆 Opik 代码库
git clone git@github.com:comet-ml/opik.git

# 导航到 opik/deployment/docker-compose 目录
cd opik/deployment/docker-compose

# 可选,强制拉取最新镜像
docker compose pull

# 启动 Opik 平台
docker compose up --detach

# 现在您可以在浏览器中访问 http://localhost:5173!

开始使用

要开始使用,您需要首先安装 Python SDK:

pip install opik

安装 SDK 后,您可以通过运行 opik configure 命令进行配置:

opik configure

这将允许您通过设置正确的本地服务器地址或如果您使用云平台,则设置 API 密钥来配置 Opik。

记录痕迹

Opik 支持多种集成,您可以使用我们的集成之一开始记录痕迹:

  • OpenAI:记录所有 OpenAI LLM 调用的痕迹
  • LiteLLM:使用 OpenAI 格式调用任何 LLM 模型
  • LangChain:记录所有 LangChain LLM 调用的痕迹
  • Haystack:记录所有 Haystack 调用的痕迹
  • Anthropic:记录所有 Anthropic LLM 调用的痕迹
  • Bedrock:记录所有 Bedrock LLM 调用的痕迹
  • CrewAI:记录所有 CrewAI 调用的痕迹
  • DeepSeek:记录所有 DeepSeek LLM 调用的痕迹
  • DSPy:记录所有 DSPy 运行的痕迹
  • Gemini:记录所有 Gemini LLM 调用的痕迹
  • Groq:记录所有 Groq LLM 调用的痕迹
  • Guardrails:记录所有 Guardrails 验证的痕迹
  • Instructor:记录所有通过 Instructor 进行的 LLM 调用
  • LangGraph:记录所有 LangGraph 执行的痕迹
  • LlamaIndex:记录所有 LlamaIndex LLM 调用的痕迹
  • Ollama:记录所有 Ollama LLM 调用的痕迹
  • Predibase:微调和服务开源大型语言模型
  • Ragas:用于您的检索增强生成(RAG)管道的评估框架
  • watsonx:记录所有 watsonx LLM 调用的痕迹

如果您使用的框架不在上述列表中,可以随时提出问题或提交 PR 以进行集成。

如果您不使用上述任何框架,您还可以使用 track 函数装饰器来记录痕迹:

import opik

opik.configure(use_local=True) # 本地运行

@opik.track
def my_llm_function(user_question: str) -> str:
    # 您的 LLM 代码在这里

    return "Hello"


LLM 作为评判标准的指标

Python Opik SDK 包含多个 LLM 作为评判标准的指标,以帮助您评估 LLM 应用程序。要使用它们,只需导入相关指标并使用 score 函数:

from opik.evaluation.metrics import Hallucination

metric = Hallucination()
score = metric.score(
    input="法国的首都是什么?",
    output="巴黎",
    context=["法国是一个位于欧洲的国家。"]
)
print(score)

Opik 还包括多个预构建的启发式指标以及创建您自己的能力。

评估您的 LLM 应用程序

Opik 允许您在开发过程中通过数据集和实验评估您的 LLM 应用程序。您还可以使用我们的 PyTest 集成作为 CI/CD 流程的一部分运行评估。

相关推荐

MFC、Qt、WPF?该用哪个?(mfc和wpf区别)

MFC、Qt和WPF都是流行的框架和工具,用于开发图形用户界面(GUI)应用程序。选择哪个框架取决于你的具体需求和偏好。MFC(MicrosoftFoundationClass)是微软提供的框架,...

一款WPF开发的通讯调试神器(支持Modbus RTU、MQTT调试)

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!项目介绍Wu.CommTool是一个基于C#、WPF、Prism、MaterialDesign...

关于面试资深C#、WPF开发工程师的面试流程和问题

一、开场(2-3分钟)1.欢迎应聘者,简单介绍公司和面试流程。2.询问应聘者是否对公司或岗位有初步的问题。二、项目经验与技术应用(10-20分钟)1.让应聘者详细介绍几个他参与过的C#、...

C# WPF MVVM模式Prism框架下事件发布与订阅

01—前言处理同模块不同窗体之间的通信和不同模块之间不同窗体的通信,Prism提供了一种事件机制,可以在应用程序中低耦合的模块之间进行通信,该机制基于事件聚合器服务,允许发布者和订阅者之间通过事件进行...

WPF 机械类组件动画制作流程简述(wps上怎么画机械结构简图)

WPF机械类组件动画制作流程简述独立观察员2025年3月4日一、创建组件创建组件用户控件,将组件的各部分“零件”(图片)拼装在一起,形成组件的默认状态:二、给运动部分加上Rend...

C#上位机WinForm和WPF选哪个?工控老油条的"血泪史"

作为一个从互联网卷进工控坑的"跨界难民",在这会摸鱼的时间咱就扯一下上位机开发选框架这档子破事。当年我抱着WPF的酷炫动画一头扎进车间,结果被产线老师傅一句"你这花里胡哨的玩意...

【一文扫盲】WPF、Winform、Electron有什么区别?

近年来,随着软件开发的不断发展,开发人员面临着选择适合他们项目的各种框架和工具的挑战。在桌面应用程序开发领域,WPF、Winform和Electron是三个备受关注的技术。本文将介绍这三者的区别,帮助...

一个开源、免费、强大且美观的WPF控件库

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!项目介绍HandyControl是一套基于WPF(WindowsPresentationF...

WPF 根据系统主题自动切换浅色与深色模式

WPF根据系统主题自动切换浅色与深色模式控件名:Resources作者:WPFDevelopersOrg-驚鏵原文链接[1]:https://github.com/WPFDevelopers...

WPF与WinForm的本质区别(wpf与maui)

在Windows应用程序开发中,WinForm和WPF是两种主要的技术框架。它们各自有不同的设计理念、渲染机制和开发模式。本文将详细探讨WPF与WinForm的本质区别,并通过示例进行说明。渲染机制W...

Win10/Win11效率神器再进化:微软发布PowerToys 0.90.0版本

IT之家4月1日消息,微软今天(4月1日)更新PowerToys,在最新发布的0.90.0版本中,修复多个BUG之外,引入多项功能更新,为Windows10、Windows...

一款非常漂亮的WPF管理系统(wpf架构及特性)

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!WPFManager项目介绍该项目是一款WPF开发的管理系统,数据库采用的MSSqlserv...

WPF 实现描点导航(wpf按钮的点击事件)

WPF实现描点导航控件名:NavScrollPanel作者:WPFDevelopersOrg-驚鏵原文链接[1]:https://github.com/WPFDevelopersOrg/WPF...

微软更新基于Win11的Validation OS 2504:增强 .NET与WPF

IT之家5月1日消息,科技媒体NeoWin今天(5月1日)发布博文,报道称微软公司更新基于Windows11的ValidationOS,增强支持.NET和WPF,并优...

WPF的技术架构与优势(wpf的前景)

WindowsPresentationFoundation(WPF)是一个现代化的用户界面框架,专为构建Windows应用程序而设计。它通过分层的技术架构和丰富的功能集,提供了全面的应用程...

取消回复欢迎 发表评论: