AIエージェントがブラウザを「人間の手」として操作する時代の中核ツール、browser-useがGitHubで91,714スターを突破した。同じタイミングで、リポジトリ全体を単一ファイルに圧縮してLLMへ流し込むRepomixも24,247スターに到達。AIによるWeb自動化と、AIによるコード理解。この2軸が同時に伸びている事実は、開発現場の前提が静かに書き換わっていることを意味する。

何が起きたか

browser-use/browser-use は、LLMエージェントにWebブラウザ操作能力を与えるPythonライブラリだ。Playwrightをバックエンドに、DOMをアクセシビリティツリー風の構造化表現へ変換し、LLMが「クリック」「入力」「スクロール」といったアクションを意味のあるトークン量で扱えるようにしている。スクリーンショットとテキスト表現のハイブリッドで、Claude、GPT-4o、Geminiなど主要モデルをLangChain経由で差し替え可能。

from browser_use import Agent
from langchain_openai import ChatOpenAI

agent = Agent(
    task="Find the cheapest flight from Tokyo to Osaka next Friday",
    llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()

数行でフライト検索エージェントが動く。この「ハードルの低さ」が91,714スターの正体だ。

一方のyamadashy/repomix(旧Repopack)は、リポジトリ全体を1ファイルにパッキングしてLLMのコンテキストに投入するツール。.gitignoreを尊重し、トークン数を自動計測、XML/Markdown/Plain形式で出力する。npx repomixの一発で動き、コードレビューやリファクタ提案のために巨大コードベースをAIへ渡す摩擦を劇的に下げた。

なぜこのニュースが重要か

両ツールが指し示すのは、LLMの「入出力インターフェース問題」が一段落しつつあるという現実だ。

これまでLLMをアプリやワークフローに組み込むとき、最大の障壁は「世界とどう接続するか」だった。Webサイトはスクレイピング、社内システムはAPI、コードはchunking——それぞれ職人芸が要求された。browser-useは「人間が見ているUIをそのまま操作させる」という富豪的アプローチで、APIが提供されていないSaaSや予約サイトを攻略可能にした。Repomixは「コード理解の前処理を捨てる」という割り切りで、RAGより単純で、しかも実用的な解を提示した。

RPA市場は世界で年間数兆円規模とされ、UiPathやAutomation Anywhereが寡占してきた。だがbrowser-useのようなOSSエージェントは、セレクタ保守という最大のコストセンターを「LLMが画面を見て判断する」ことで吸収する。レガシーRPAのROI計算式が崩れ始めている。

エンジニア視点・技術深掘り・実装影響での示唆

実装者として注視すべきは3点ある。

1. コンテキスト爆発との戦い
browser-useはDOMを構造化して渡すとはいえ、複雑なSPAだと1ステップあたり数万トークンを消費する。Claude 3.7のprompt cachingやGeminiの長コンテキストが効くケースとそうでないケースがあり、コスト管理が新たなSRE課題になる。実運用ではアクションごとのトークン量とレイテンシをDatadog等で計測し、視覚モード(vision)と純テキストモードの切り替えを動的に行う設計が現実解だ。

2. セキュリティとプロンプトインジェクション
ブラウザ操作エージェントは、訪問先のWebページに書かれた指示を「タスク文脈」として読んでしまう。OWASP LLM Top 10でも筆頭のIndirect Prompt Injectionは、browser-use系では極めて深刻だ。決済や個人情報を扱う自動化を組むなら、許可ドメインのallowlist、人間の承認ステップ、サンドボックス化(Docker + 専用プロファイル)は必須と考えるべき。

3. Repomixはコードレビューの前段に組み込める
CIでrepomix --include "src/**/*.ts" --output review.xmlを生成し、PRごとにClaude Codeへ渡すパイプラインは現実的に組める。token countが上限を超えるリポジトリは--compressオプションでASTベースの圧縮(関数シグネチャのみ抽出)が効く。設計レビュー用にアーキテクチャ要約だけ吐かせる用途で、レビュアー疲弊を実測で減らせる。

経営者/読者として次に取るべき動き

エンタープライズで稼働中のRPAをbrowser-use系に置き換えるのは、まだ早い。現状のエージェントはハッピーパスでは強いが、エラー回復や長時間ジョブの安定性は商用RPAに及ばない。だが、「APIがない・人手でやっている・月数十時間規模」の業務——競合価格モニタリング、求人媒体への一括投稿、社内SaaSのレポート収集——には今すぐ刺さる。PoCに必要なのはエンジニア1人と週単位の時間だ。

開発組織のリーダーは、Repomixを「AIコードレビュー」の標準前処理として導入を検討する価値がある。Devin、Claude Code、Cursorといった既存ツールと競合するのではなく、それらへ食わせる「データパイプラインの最初の1ピース」として機能する。

OSSスター数は虚栄指標と言われがちだが、browser-useとRepomixの伸びは、エージェント時代の配管工事がOSSコモディティ層で起きていることを示している。商用ベンダーがAPIを閉じる前に、自社のワークフローをこのコモディティ層の上に再構築できるか——向こう12か月の競争力は、その判断速度で決まる。


動画でも詳しく

動画は記事冒頭の埋め込みからフル尺で視聴できます。

主な出典