VEXIS-1.1

AI画面操作ツール - Visual Execution & Intelligent System

GitHub
Python
実験的

プロジェクト概要

VEXIS-1.1は、AIの視覚的認識能力と自然言語理解を融合させた次世代の操作自動化ツールです。コンピュータ画面をリアルタイムで捕捉し、AIが視覚的に状況を分析・判断することで、人間の自然言語指示を正確なコンピュータ操作に変換します。

前バージョンであるVEXIS-1から大幅に進化し、特に記憶維持機能を改善することで、より長く複雑なタスクシーケンスを正確に実行できるようになりました。これにより、マルチステップ操作の信頼性が向上し、実用性が大幅に向上しています。

従来のスクリプトベースの自動化とは異なり、VEXIS-1.1は環境の変化に適応し、視覚的な文脈理解に基づいて最適な操作方法を動的に決定します。これにより、Web検索、データ入力、ファイル管理、アプリケーション制御など、幅広いタスクを柔軟に自動化可能です。

主な機能

高度な画面認識

最新のAIビジョンモデルを活用し、リアルタイムで画面要素を認識・分析。UIコンポーネントの識別、テキスト内容の理解、レイアウト構造の把握を実現します。

精密マウス操作

視覚的認識に基づき、ピクセルレベルの精度でクリック、ドラッグ、スクロールを実行。動的UI要素にも対応し、座標ベースではない柔軟な操作を実現します。

インテリジェントキーボード入力

文脈理解に基づくテキスト入力、ショートカットキーの最適化、フォームフィールドの自動識別など、高度なキーボード操作を自動化します。

高度なWebオートメーション

動的なWebページにも対応する高度なブラウザ操作。検索エンジン活用、マルチステップフォーム入力、ナビゲーション制御などを視覚的に実行します。

インテリジェントファイル管理

ファイルシステムの視覚的認識に基づく高度なファイル操作。フォルダ構造の理解、ファイル種別の識別、バッチ処理などを実現します。

シームレス実行環境

コマンドラインインターフェースから直感的に実行可能。最小限のセットアップで、複雑な操作タスクを自然言語指示だけで実行できます。

インストールと使用方法

動作環境

  • Python 3.9以上の実行環境
  • OS: Windows / macOS / Desktop Linux
  • APIキー(Gemini 3シリーズモデル使用時、必須)
  • Ollamaアカウント(Gemini 3 Flashをクラウドモデルとして実行時、必須)

インストール手順

git clone https://github.com/AInohogosya/VEXIS-1.1.git
cd VEXIS-1.1

高度な使用方法

自然言語による直感的な操作指示で、複雑なタスクもシンプルに実行:

python3 run.py "実行したい操作の自然言語指示"

高度な実行例

# 高度なWebリサーチ
python3 run.py "Googleで'Python AI automation'と検索し、上位3つの結果を新しいタブで開いて"

# マルチステップファイル操作
python3 run.py "デスクトップに'project_docs'フォルダを作成し、ダウンロードフォルダからPDFファイルのみ移動して"

# アプリケーション連携
python3 run.py "メモ帳を開いて現在の日付と時刻を入力し、'automation_log.txt'としてデスクトップに保存して"

できること

基本機能

  • Web検索と自動入力 - 検索エンジンでの情報検索、フォームへの自動入力、Webページのナビゲーション
  • フォルダ・ファイル操作 - ファイルの作成、移動、コピー、削除などの基本的なファイル管理作業
  • アプリケーション操作 - 各種アプリケーションの基本操作を自動化
  • 単一コマンド実行 - 「python3 run.py "命令文"」のシンプルな形式で直感的に操作

バージョン1.1の主な改善点

  • 長期記憶(メモリー機能)の実装 - 過去の実行ログや作業プロセスの保持が可能に
  • Gemini 3 Flash 向けプロンプトの最適化 - OS操作における推論の正確性を向上
  • 継続的なタスク実行 - 一過性の操作から、前回の作業を踏まえた高度なタスク管理をサポート
  • 実用性の向上 - より長く複雑なタスクシーケンスを正確に実行可能に

技術的特徴

  • 画面キャプチャベースの意思決定 - AIがリアルタイムで画面を認識し、状況に応じて操作を判断
  • マウス操作とキーボード入力のサポート - 人間と同じようなインターフェース操作を実現
  • ブラウザとアプリケーションの自動化 - Web操作からデスクトップアプリまで幅広く対応

今後の開発方針

  • 継続的な進化 - VEXIS-1.1はまだ進化途中であり、継続的な機能拡張と改善を予定しています
  • 迅速なアップデート - ユーザーからのフィードバックを基に、積極的にアップデートを実施していきます
  • バグ対応の優先 - バグ報告を受け次第、迅速に修正する体制を整えています
  • VEXISファミリーの拡大 - VEXIS-1.1以外にも、様々な用途に対応したVEXISファミリーを展開していく予定です

※結果は使用環境や状況によって異なる場合があります。

注意事項

本プロジェクトは実験的段階にあり、AIによる視覚的認識精度により操作結果が変動する可能性があります。

重要なシステムやクリティカルなタスクへの適用には、十分な検証と監視をお願いいたします。

技術詳細

技術スタック

Python 3.9+
Computer Vision AI
Real-time Screen Capture
Precision Input Automation
NLP & Intent Understanding
Adaptive Decision Engine

システムアーキテクチャ

VEXIS-1.1は以下の高度なコンポーネントで構成されています:

  • 高精度画面キャプチャエンジン - 60fpsリアルタイム画面取得と圧縮
  • AIビジョン推論モジュール - マルチモーダルAIによる視覚的状況分析と操作計画
  • 適応的操作実行システム - 環境変化に対応する精密な入力制御
  • 自然言語理解インターフェース - コンテキスト認識による指示解釈
  • フィードバックループ制御 - 操作結果の視覚的検証と自己修正

貢献方法

VEXIS-1.1は現在も活発に開発が進められているプロジェクトです。ユーザーからのフィードバックやバグ報告を大切にし、迅速な対応を心がけています。プロジェクトの発展にご協力いただける方を大歓迎します。

将来の展望

VEXIS-1.1の成功を基に、将来的には様々な用途に対応したVEXISファミリーを展開していく予定です。Webオートメーションに特化したもの、モバイル操作に対応したもの、特定の業務用途に最適化したものなど、多様なバリエーションを検討しています。