百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

UI自动化测试框架:Playwright 官方教程(四)—— Playwright MCP

ccwgpt 2025-06-09 20:34 1 浏览 0 评论

一、简介

Playwright MCP 是一款基于模型上下文协议(MCP)的服务器,通过使用Playwright提供浏览器自动化功能。该服务器允许大型语言模型(LLM)通过结构化的无障碍性快照与网页互动,无需截图或调整视觉模型。

核心特性

  • 快速且轻量:使用 Playwright 的无障碍树,而非基于像素的输入。
  • 大型语言模型友好:无需视觉模型,完全在结构化数据上运行。
  • 确定性的工具应用:避免了基于截图方法常见的模糊性。

二、安装配置

2.1 VSCode 中安装

可以使用 VS Code 命令行界面安装 Playwright MCP 服务器:

# For VS Code
code --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'

2.2 在 Cursor 中安装

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest"
      ]
    }
  }
}

2.3 配置参数说明

> npx @playwright/mcp@latest --help
  --allowed-origins <origins>  semicolon-separated list of origins to allow the
                               browser to request. Default is to allow all.
  --blocked-origins <origins>  semicolon-separated list of origins to block the
                               browser from requesting. Blocklist is evaluated
                               before allowlist. If used without the allowlist,
                               requests not matching the blocklist are still
                               allowed.
  --block-service-workers      block service workers
  --browser <browser>          browser or chrome channel to use, possible
                               values: chrome, firefox, webkit, msedge.
  --caps <caps>                comma-separated list of capabilities to enable,
                               possible values: tabs, pdf, history, wait, files,
                               install. Default is all.
  --cdp-endpoint <endpoint>    CDP endpoint to connect to.
  --config <path>              path to the configuration file.
  --device <device>            device to emulate, for example: "iPhone 15"
  --executable-path <path>     path to the browser executable.
  --headless                   run browser in headless mode, headed by default
  --host <host>                host to bind server to. Default is localhost. Use
                               0.0.0.0 to bind to all interfaces.
  --ignore-https-errors        ignore https errors
  --isolated                   keep the browser profile in memory, do not save
                               it to disk.
  --image-responses <mode>     whether to send image responses to the client.
                               Can be "allow", "omit", or "auto". Defaults to
                               "auto", which sends images if the client can
                               display them.
  --no-sandbox                 disable the sandbox for all process types that
                               are normally sandboxed.
  --output-dir <path>          path to the directory for output files.
  --port <port>                port to listen on for SSE transport.
  --proxy-bypass <bypass>      comma-separated domains to bypass proxy, for
                               example ".com,chromium.org,.domain.com"
  --proxy-server <proxy>       specify proxy server, for example
                               "http://myproxy:3128" or "socks5://myproxy:8080"
  --save-trace                 Whether to save the Playwright Trace of the
                               session into the output directory.
  --storage-state <path>       path to the storage state file for isolated
                               sessions.
  --user-agent <ua string>     specify user agent string
  --user-data-dir <path>       path to the user data directory. If not
                               specified, a temporary directory will be created.
  --viewport-size <size>       specify browser viewport size in pixels, for
                               example "1280, 720"
  --vision                     Run server that uses screenshots (Aria snapshots
                               are used by default)

三、用户配置文件

3.1 配置文件

Playwright MCP 服务器可以通过一个 JSON 格式的配置文件来进行设置。可以使用 --config 命令行选项来指定配置文件。

npx @playwright/mcp@latest --config path/to/config.json

3.2 持久配置文件

所有登录信息都将存储在持久配置文件中,如果希望清除离线状态,可以在会话之间将其删除。 持久配置文件的存储位置如下,可以使用 --user-data-dir 参数来覆盖它。

# Windows
%USERPROFILE%\AppData\Local\ms-playwright\mcp-{channel}-profile

# macOS
- ~/Library/Caches/ms-playwright/mcp-{channel}-profile

# Linux
- ~/.cache/ms-playwright/mcp-{channel}-profile

3.3 孤立模式

在孤立模式下,每次会话都是在孤立配置文件中启动的。每当要求MCP关闭浏览器时,会话即会结束,并且该会话所有的存储状态都会丢失。可以通过配置的 contextOptions 或通过 --storage-state 参数向浏览器提供初始存储状态。

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest",
        "--isolated",
        "--storage-state={path/to/storage.json}"
      ]
    }
  }
}

四、独立 MCP 服务器

当在无显示系统上运行带界面的浏览器或从 IDE 的工作进程中运行时,请在具有 DISPLAY 环境的上下文中启动 MCP 服务器,并传递 --port 参数来启用 SSE 传输。

npx @playwright/mcp@latest --port 8931

然后在 MCP 客户端配置中,将 url 设置为 SSE 终端点:

{
  "mcpServers": {
    "playwright": {
      "url": "http://localhost:8931/sse"
    }
  }
}

五、视觉模式

Playwright 提供两种模式:

  1. 快照模式(默认):使用无障碍快照以实现更佳的性能和可靠性
  2. 视觉模式:使用截图进行基于视觉的交互

若要使用视觉模式,请在启动服务器时添加 --vision 标志。

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest",
        "--vision"
      ]
    }
  }
}

Vision Mode 在能够使用 X Y 坐标空间与元素交互的计算机使用模型中效果最佳,基于提供的屏幕截图。


六、交互 API

  • browser_snapshot:页面快照
  • browser_click:在网页上执行点击操作
  • browser_drag:在两个元素之间执行拖放操作
  • browser_hover:在页面上的元素上方悬停
  • browser_type:在可编辑元素中输入文本
  • browser_select_option:在下拉菜单中选择一个选项
  • browser_press_key:在键盘上按下一个键
  • browser_wait_for:等待文本出现或消失或指定的时间过去
  • browser_file_upload:上传一个或多个文件
  • browser_handle_dialog:处理对话框

七、导航

  • browser_navigate:导航到一个 URL
  • browser_navigate_back:后退到前一页
  • browser_navigate_forward:前进到下一页

八、资源

  • browser_take_screenshot:截取当前页面的屏幕截图
  • browser_pdf_save:将页面保存为 PDF
  • browser_network_requests:自页面加载以来返回所有网络请求
  • browser_console_messages:返回所有控制台消息

九、工具

  • browser_install:安装配置中指定的浏览器
  • browser_close:关闭页面
  • browser_resize:调整浏览器窗口的大小

十、标签

  • browser_tab_list:列出浏览器标签
  • browser_tab_new:打开一个新标签
  • browser_tab_select:按索引选择标签
  • browser_tab_close:关闭标签

十一、测试

  • browser_generate_playwright_test:为给定场景生成 Playwright 测试

十二、视觉模式

  • browser_screen_capture:截取当前页面的截图
  • browser_screen_move_mouse:将鼠标移动到指定位置
  • browser_screen_click:点击鼠标左键
  • browser_screen_drag:拖拽鼠标左键
  • browser_screen_type:在元素中输入文本
  • browser_press_key:在键盘上按下一个键
  • browser_wait_for:等待文本出现或消失或等待指定的时间过去
  • browser_file_upload:上传一个或多个文件
  • browser_handle_dialog:处理对话框

相关推荐

阿里大数据技术架构师整理分享java面试核心知识点框架篇文档

前言本文是对Java程序员面试中常见的微服务、网络编程、分布式存储和分布式计算等必备知识点的总结,包括Spring原理及应用、SpringCloud原理及应用、Netty网络编程原理及应用、Zoo...

初探分布式Agent系统架构,及全新AutoGen框架下分布式Agent 体验

AIAgent(智能体)系统发展迅猛,且关注点已经不再局限在Agent的规划推理等基本能力,智能体系统在扩展性、互操作、安全性等工程化方面的挑战也越来越引起重视,比如最近的MCP和A2A。上一篇我们...

微软分布式云计算框架Orleans(2):容灾与集群(1)

在上一篇:微软分布式云计算框架Orleans(1):HelloWorld,我们大概了解了Orleans如何运用,当然上一篇的例子可以说是简单且无效的,因为用了Orleans不可能只写一个Hello...

分布式光伏发电项目合作框架协议模板

分布式光伏发电项目合作框架协议模板复制链接-微信或浏览器打开-领取电子档:https://mp.weixin.qq.com/s/0QU_rZEDG0cuS1jxSlaOeA...

晶科科技:签署户用分布式光伏项目合作框架协议

晶科科技公告,公司近日与湖南新华水利电力有限公司(简称“湖南新华”)签署《关于户用分布式光伏项目合作框架协议》,公司拟与湖南新华在2024年—2026年内累计合作开展不低于6GW户用分布式光伏项目。每...

国人之光-分布式存储框架FastDFS入门篇

在这里插入图片描述一、分布式文件存储1.分布式文件存储的由来在我们的项目中有很多需要存储的内容出现,比如图片,视频,文件等等,在早期的时候用户量不大,产生的文件也不是很多,这时我们可以把文件和服务...

分布式计算框架——Hadoop(hadoop分布式计算框架是)

Hadoop是一个开源的分布式计算框架,旨在解决大规模数据集的存储和处理问题。它基于Google的MapReduce论文和Google文件系统(GFS),提供了一种可靠、可扩展的方式来处理海量数据。以...

坐读与行读 精读与泛览(读写坐立行)

【我是这样做学问的】作者:荣新江(北京大学历史学系教授)在大学里教书,如果有初入史学之门的学生问我这个问题,我会把做学问的一般方法讲给他们来听,这里面既有我自己的经验之谈,也有很多其他成功学者的治学之...

文言文实词“顾”的解析(高中文言文实词120个精编汇总)

文言文实词“顾”的解析A笔记栏(KeyNotes)核心知识点具体内容/例句/解析实词“顾”的本义与引申义-本义:回头看(形旁“页”与“头”相关,强调头部动作)例:“临行反顾”(临走时回头看)...

快期中考试了,串讲人教版七下道法,我的知识库清晰了好多…

自从道法上了主科赛道,已经不再是背书那么简单的了。开卷,更是加大了难度。不知道考的是啥,要翻到哪里抄。下周期中考试,出于各种原因,我给儿子班上的一些同学串讲了一下第一单元内容。从备考任务、梳理框架、单...

杜甫《佳人》的图像解读及其意义(杜甫《佳人》的图像解读及其意义概括)

杜甫《佳人》“天寒翠袖薄,日暮倚修竹”一句,凄丽动人,宋人据此作《天寒翠袖图》(现藏于北京故宫博物院)与《竹林仕女图》(现藏于美国费城艺术博物馆)。二图布局极为相似,当为同源画本。杜甫《佳人》诗因诗意...

窠字不读guǒ,不念cháo,窠怎么读,什么意思?窠臼是什么意思?

中午的学校食堂,热闹非凡。一位阿姨在窗口忙着打饭,勺子与餐盘的碰撞声“叮叮当当”。一位同学一边排队一边和身边的朋友讨论着下午的课程,话语声此起彼伏。打饭的声音和讨论声交织在充满期待的午休时光里。言归正...

字象字母B,又象眼镜镜框,这是个什么字?

字象字母B,又象眼镜镜框,这是个什么字?在《殷周金文集成》8498号金文中,有如图这样一个古文字,字形近似一个大写的英文字母B,也象一副框架眼镜的镜框,这是个什么古文字?容庚《金文编》、严志斌《商金文...

文言文实词“当”的解析(文言文实词"当"的解析研究)

文言文实词“当”的解析笔记栏(KeyContent)1.核心义项与语境解析c义项1:掌管、主持(dāng)例:“李斯为秦相,当政”(担任宰相,掌管政权)。搭配:当政、当权(强调权力或职位的执...

语文班主任:三年级下册单元知识点归纳,孩子期末复习的好帮手!

家人们,孩子步入三年级,语文学习难度直线上升,马上又到期末,复习压力是不是扑面而来别慌!作为班主任,今天给大家带来一份超实用的三年级下册单元知识点归纳,堪称孩子期末复习的王炸好帮手!三年级语文的知识...

取消回复欢迎 发表评论: