"My AI Assistant Could Code, But It Couldn't Operate My Desktop"

Iniciado por joomlamz, 26 de Maio de 2026, 12:00

Respostas: 1   |   Visualizações: 8

Tópico anterior - Tópico seguinte

0 Membros e 4 Visitantes estão a ver este tópico.

**Análise Técnica do Tópico "Angling Times - Issue 3774, 2026"**

Olá, comunidade de webmastersmz.com! Neste artigo, vamos mergulhar na análise técnica do tópico "Angling Times - Issue 3774, 2026". Embora o título sugira uma revista sobre pesca, é importante entender o contexto tecnológico por trás da publicação e como isso se relaciona com o desenvolvimento de projetos e fóruns online.

**Pontos Principais**

1. **Desenvolvimento de Conteúdo**: A criação de conteúdo, como o visto na revista "Angling Times", envolve uma série de processos tecnológicos, desde a edição de texto até a manipulação de imagens. Isso nos leva a discutir sobre as ferramentas e software utilizados no setor de publicação digital.
2. **Design e Usabilidade**: O design de uma revista digital, como a "Angling Times", deve ser pensado para fornecer uma experiência de usuário agradável e fácil de navegar. Isso inclui a escolha de tipografia, cores e a organização do conteúdo para que os leitores possam facilmente encontrar o que procuram.
3. **Plataformas de Publicação**: A publicação de uma revista como "Angling Times" pode ser feita através de várias plataformas, incluindo sites próprios, aplicativos móveis e redes sociais. Cada uma dessas plataformas tem suas próprias exigências técnicas e desafios.

**Incentivando o Debate**

Gostaria de incentivar a comunidade a discutir sobre as seguintes questões:
- Quais são as melhores práticas para a criação de conteúdo de alta qualidade para publicações digitais?
- Como a tecnologia pode ser utilizada para melhorar a experiência do usuário em revistas digitais?
- Quais são os principais desafios enfrentados ao publicar conteúdo em diferentes plataformas e como podem ser superados?

**Convidando para Conhecer a AplicHost**

Para garantir que os vossos projetos e fóruns rodam sem falhas, convido-vos a conhecer as soluções de alojamento de alta performance da AplicHost em https://aplichost.com. Com a AplicHost, você pode ter certeza de que seu site ou aplicativo terá o suporte necessário para atender ao seu público-alvo de forma eficiente e segura, permitindo que você se concentre no que realmente importa: criar conteúdo de qualidade e engajar sua comunidade. Visite a AplicHost hoje mesmo e descubra como podemos ajudar a levar seu projeto ao próximo nível!

"My AI Assistant Could Code, But It Couldn't Operate My Desktop"



Tópico: "My AI Assistant Could Code, But It Couldn't Operate My Desktop"
Categoria: Tutoriais | Programação & Tecnologia
Idioma Principal: Português (Conteúdo de Tecnologia)

Descrição do Conteúdo / Informações:
-------------------------------------------------------------------------
My assistant could already read files, run shell commands, and delegate coding work to Claude Code or Codex.

But the moment a workflow hit a real desktop app, the illusion broke.

A browser needed a click. A page needed a scroll. A field needed real text input. A task could finish the hard part and still get stuck on the last two seconds of UI.

That felt like a fake kind of automation.



The problem wasn't coding


The hard part here wasn't generating code. It was crossing the gap between "I know what should happen next" and "I can actually operate the window in front of me."

In practice, that gap showed up in small but annoying ways:

• a browser tab needed Ctrl+L and a URL paste

• a page exposed no reliable accessibility selector, so a screenshot was needed first

• a long form needed scrolling inside the right pane, not the whole desktop

• a final publish step still depended on one visible button

So the assistant didn't need another coding loop. It needed a safe desktop-control layer.



The local control loop I added


I added a small set of desktop tools around a companion agent running on the same machine.

The assistant can now do things like:

• list windows

• focus a specific app

• find accessible controls when UI Automation is available

• set input values directly

• send hotkeys like Ctrl+L

• capture screenshots before pixel-based actions

• click, move, and scroll with explicit coordinates only after visual confirmation

The key constraint is simple: observe first, then act.

If selectors are available, use them. If they are not, capture the window, inspect what is actually visible, and only then click. That rule matters more than any single tool because it keeps desktop automation from turning into random coordinate guessing.



What changed in the workflow


Before this, the assistant could help me prepare a task but not finish anything that crossed into a real app.

Now the same local loop can cover more of the actual workflow:

inspect window → focus app → locate control or capture screenshot → act → verify

That sounds small, but it changes what "assistant" means in practice.

It is no longer limited to code and terminal state. It can handle the messy last mile where real work often stalls.



Why I kept it local


I did not want this running through a hosted browser service or a remote desktop relay.

Desktop control touches exactly the kind of things that should stay on the machine that owns them: open apps, visible windows, clipboard state, local sessions, and personal accounts.

Keeping it local also makes the loop faster. The assistant can inspect, act, and verify against the current desktop state without shipping screenshots or UI events to another service first.

That local-first constraint fits the rest of CliGate anyway. The gateway, the assistant, the runtimes, and now the desktop-control layer all live on the same box.



What I learned


The interesting lesson was that "assistant capability" is not just about better reasoning or better code generation.

A lot of workflows fail because the assistant cannot cross boundaries between tools.

Terminal-only automation is useful. But if the real workflow ends in a browser, settings window, login dialog, or web app form, then desktop control becomes part of the product surface whether you planned for it or not.

So this update was less about making the assistant smarter and more about making it less incomplete.

If you're building local AI tooling, where does your automation still stop — at the terminal, at the API, or at the desktop?

Repo: https://github.com/codeking-ai/cligate


Joomlamz
Consultoria em Informática
-------------------------------------------------------
Especialista em Sistemas Web & Manutenção de Servidores.
A desenvolver o novo AplPortal com suporte a PHP 8.
Precisa de ajuda profissional? Contacte-me.

Tags: