让 AI 真正"看见"网页

想象一个场景:你告诉电脑"帮我把这个网页上所有关于 AI 的新闻整理成表格",然后它就真的打开了浏览器、浏览了页面、提取了信息、生成了你想要的表格——整个过程不需要任何 API,也不需要你写一行爬虫代码。

Browser Use Logo

这就是 Browser Use 在做的事情。作为一个开源项目,它让 AI 代理能够像人类一样操作真实的浏览器——点击按钮、填写表单、滚动页面、提取数据。目前它在 GitHub 上获得了超过 95,000 颗星,是浏览器自动化领域增长最快的项目之一。

为什么重要?

传统的网页自动化工具(如 Selenium、Puppeteer)需要你精确地告诉它每一步做什么:"找到这个 CSS 选择器,点击它,等待 2 秒,提取那个元素的内容"。这种方式脆弱且难以维护——网站只要改一下 class 名,你的脚本就报废了。

Browser Use 的突破在于:你只需要告诉它你要什么,它自己决定怎么操作。它利用 AI 模型的眼睛来"看"页面,理解页面的结构和内容,然后做出决策。

这意味着:

  • 不再依赖选择器——AI 通过视觉和文本理解元素
  • 自适应变化——网站改版了?AI 仍然能找到它需要的东西
  • 减少 90% 的代码量——从"如何做"变成"做什么"

各模型准确率对比

各 LLM 在 Browser Use 基准测试中的表现对比

快速上手

安装非常简单,一行命令:

pip install browser-use

然后你需要设置 LLM API key(支持 OpenAI、Anthropic Claude、Google Gemini 等):

export OPENAI_API_KEY=sk-...

使用实例

实例 1:自动搜集信息

假设你需要从某个百科页面获取特定数据:

from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="打开维基百科上关于「人工智能」的页面,提取前三个重要里程碑及其年份",
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

Agent 会自动打开浏览器、搜索关键词、阅读内容、提取你所需的信息。

实例 2:跨网站数据对比

比较多个电商网站的商品价格:

from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="访问京东和淘宝,搜索「iPhone 16 Pro 256GB」,比较两边的价格和评价数",
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

Agent 会在两个网站间切换执行,最终给你一份对比报告。

实例 3:表单自动填写

自动化完成表单提交流程:

from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="登录 GitHub,创建一个名为 test-repo 的新仓库,设置为公开",
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

核心特性

  • 基于 Playwright——底层使用微软的 Playwright 框架,支持 Chrome、Firefox、Safari
  • 多 LLM 支持——可与 OpenAI、Claude、Gemini、本地模型等对接
  • 可自定义动作——除了内置动作,还可以注册自己的浏览器操作
  • 持久化上下文——支持 Cookie 保持登录态、历史记录追溯
  • 人类干预模式——遇到困难时可以请求人类帮助,然后继续执行
"Browser Use 代表了一种新的范式转变:从告诉计算机如何做,到告诉计算机做什么。这不仅仅是自动化工具的进化,而是人机交互方式的革命。"

适用场景

  • 数据采集——从没有 API 的网站抓取信息
  • 自动化测试——用自然语言编写测试用例
  • 工作流自动化——自动完成重复的网页操作
  • AI Agent 工具——作为 AI 助手的浏览器操控能力
  • 原型验证——快速验证一个网页功能是否可用

总结

Browser Use 是一个让人眼前一亮的产品。它将 LLM 的理解能力与浏览器操控能力结合,打开了一扇新的大门。无论是开发者想构建自动化工具,还是普通用户想减少重复操作,都值得一试。

前往 GitHub 仓库 · 已有 95,000+ 星标记