Quando você publica um site em um ambiente, além do código, existe um ponto fundamental de comunicação com os motores de busca: o arquivo robots.txt. É ele que diz para os bots de rastreamento (como o Googlebot) quais partes do seu site podem ser acessadas e quais áreas devem ser evitadas.
Esse arquivo faz parte do chamado Protocolo de Exclusão de Robôs (Robots Exclusion Protocol) e é uma peça importante dentro de uma estratégia de SEO técnico. Ele não substitui boas práticas de conteúdo nem configurações avançadas, mas ajuda a otimizar o rastreamento pelas ferramentas de busca e a organizar a forma como o seu site é entendido pelos buscadores.
Ao longo deste artigo, você vai entender o que é um arquivo robots.txt, para que serve, quais protocolos e comandos o compõem, como criá-lo, atualizá-lo e como ele se relaciona com sitemap, SEO técnico e a infraestrutura em que o site está hospedado.
O que é um arquivo robots.txt?
O robots.txt é um arquivo de texto simples, geralmente salvo com codificação UTF-8, que fica na raiz de um domínio (por exemplo, https://seudominio.com/robots.txt). Ele é usado para dar instruções a robôs de rastreamento (também chamados de crawlers, spiders ou bots), informando o que eles podem ou não podem acessar dentro de um site.
Em termos de arquitetura, o robots.txt é um recurso público. Qualquer pessoa pode acessá-lo diretamente no navegador. Logo, ele não serve para “esconder segredos”, mas para comunicar regras de rastreamento aos mecanismos de busca que respeitam o protocolo.
Podemos falar em dois tipos principais:
- robots.txt padrão: geralmente simples, permitindo que todos os bots acessem todo o site (ou boa parte dele), muitas vezes apenas apontando o sitemap;
- robots.txt personalizado: contém regras específicas para diferentes user-agents, diretórios bloqueados, áreas liberadas e configuração refinada de rastreamento.
É importante destacar que o arquivo precisa ficar na pasta raiz do domínio configurado via Registro de Domínio. Se o seu site está hospedado em uma Hospedagem de Site, Locaweb Cloud, Servidor VPS ou Servidor Dedicado, você normalmente fará o upload do robots.txt para o diretório público principal (como public_html ou equivalente) para que os bots consigam encontrá-lo automaticamente.
Leia Mais:
Para que serve um arquivo robots.txt?
O robots.txt serve, principalmente, para orientar os bots de busca sobre quais partes do site devem ser rastreadas e quais caminhos devem ser evitados. Ele ajuda a:
- evitar rastreamento de diretórios internos, como /admin ou /tmp;
- impedir acesso a páginas de teste ou ambientes de staging expostos;
- bloquear recursos irrelevantes para indexação, como scripts específicos ou arquivos temporários;
- apontar o sitemap para facilitar a descoberta de URLs importantes;
- ajudar na gestão de crawl budget, especialmente em projetos grandes.
Em estruturas mais complexas, como aquelas hospedadas em Servidor VPS ou Servidor Dedicado, por exemplo, o robots.txt é ainda mais estratégico. Muitas vezes você tem áreas separadas por subdiretórios ou subdomínios, com diferentes responsabilidades (aplicação, área administrativa, API, etc.). Com um arquivo bem definido, você evita que os bots “se percam” em partes irrelevantes da aplicação.
Vale lembrar: o robots.txt não é o único elemento de SEO técnico, mas é uma peça importante, complementando uma boa arquitetura de informações, uso adequado de meta tags, performance e outras boas práticas abordadas em guias como o guia definitivo de SEO técnico .
Quais protocolos são usados em um arquivo robots.txt?
O robots.txt se baseia principalmente no Protocolo de Exclusão de Robôs (Robots Exclusion Protocol). Ele define um conjunto simples de diretivas que os bots devem ler e respeitar ao rastrear um domínio.
Entre as regras e diretrizes que fazem parte desse protocolo (ou são de uso comum e de fato adotadas pelos buscadores) estão:
- User-agent: especifica para qual robô as regras se aplicam;
- Disallow: informa quais caminhos o bot não deve rastrear;
- Allow: (usado por alguns buscadores) especifica caminhos que podem ser rastreados, mesmo dentro de áreas com Disallow mais amplo;
- Crawl-delay: tempo de espera entre requisições (não é suportado por todos os bots);
- Sitemap: diretiva usada para apontar o(s) sitemap(s) do site.
Embora o protocolo tenha surgido como um padrão informal, muitos buscadores importantes implementaram suporte a ele, com pequenas variações. Por isso, é importante consultar a documentação de cada ferramenta ao lidar com configurações avançadas, principalmente em aplicações grandes rodando em Cloud Computing, onde o volume de URLs e requisições é muito maior.
Como criar um arquivo robots.txt?
Criar um arquivo robots.txt é simples, mas exige atenção para não bloquear o que não deveria ser bloqueado. Na prática, você precisa de um editor de texto, acesso ao diretório raiz do seu site e alguns testes básicos.
A seguir, um passo a passo prático para criar o arquivo do zero e colocá-lo em produção.
Passo 1: Planejar o que será liberado ou bloqueado
Antes de escrever qualquer linha, faça um inventário das áreas do seu site:
- Quais diretórios precisam ser rastreados e indexados?
- Quais caminhos são apenas administrativos ou de testes?
- Existem ambientes de staging ou pré-produção expostos?
- Há recursos que não fazem sentido para os bots (arquivos temporários, scripts específicos)?
Esse mapeamento evita erros como bloquear a pasta onde estão os arquivos principais do site (por exemplo, /public ou /content) ou liberar diretórios que não deveriam ser expostos.
Passo 2: Criar o arquivo de texto robots.txt
Abra um editor de texto simples (como Notepad, VS Code ou outro de sua preferência). Crie um novo arquivo e salve com o nome robots.txt. Certifique-se de que ele seja salvo como texto simples e não como documento de texto formatado (nada de .docx, .odt, etc.).
Em seguida, comece com uma configuração básica, por exemplo:
User-agent: *
Disallow:
Sitemap: https://seudominio.com/sitemap.xml
Nesse exemplo, o arquivo permite que todos os bots (User-agent: *) rastreiem todo o site (Disallow: vazio) e informa onde está o sitemap.
Passo 3: Adicionar regras específicas para bots e diretórios
Com a base criada, você pode adicionar regras personalizadas, por exemplo, bloqueando uma área administrativa:
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Sitemap: https://seudominio.com/sitemap.xml
Se quiser criar regras só para um determinado robô (como o Googlebot), defina um bloco próprio:
User-agent: Googlebot
Disallow: /area-teste/
User-agent: *
Disallow:
Essa granularidade é especialmente útil em aplicações hospedadas em Servidores VPS ou Servidores Dedicados, onde você tem múltiplos contextos de aplicação sob o mesmo domínio ou subdomínios.
Passo 4: Enviar o arquivo para a pasta raiz do servidor
Depois de salvar o arquivo, faça o upload para a pasta raiz do site em seu ambiente de hospedagem. Em uma Hospedagem de Site, normalmente é o diretório public_html ou equivalente. Em Locaweb Cloud, Cloud Computing, Servidor VPS ou Servidor Dedicado, o caminho pode variar, mas o objetivo é o mesmo: o arquivo precisa estar acessível em https://seudominio.com/robots.txt.
Use FTP, SFTP, painel de controle da hospedagem ou pipeline de deploy (CI/CD) para subir o arquivo. Em ambientes automatizados, você pode incluir o robots.txt no próprio repositório do projeto, garantindo que ele faça parte do fluxo de deploy.
Passo 5: Testar o arquivo robots.txt
Depois do upload, acesse https://seudominio.com/robots.txt pelo navegador e confirme se o conteúdo está correto. Em seguida, use ferramentas de validação — como o teste de robots.txt disponível no Google Search Console — para verificar:
- se a sintaxe está correta;
- se as URLs que você quer bloquear realmente estão bloqueadas;
- se páginas importantes continuam acessíveis aos bots.
Fazer esses testes é fundamental para não prejudicar a visibilidade do site em mecanismos de busca, algo essencial para tirar proveito de boas práticas de SEO para conteúdos, como as descritas neste guia de boas práticas de SEO para conteúdos .
O que significa “User-agent” em um arquivo robots.txt?
A diretiva User-agent define para qual robô (crawler) um conjunto de regras se aplica. Cada bloco de regras em um robots.txt começa com um User-agent, seguido das instruções (como Disallow, Allow e outras).
Exemplos de user-agents comuns:
- Googlebot – robô de rastreamento do Google;
- Bingbot – robô de rastreamento do Bing;
- Googlebot-Image – robô focado em imagens do Google;
- * – coringa que significa “todos os bots”. 8
Ao usar User-agent: *, você diz que aquelas regras se aplicam a todos os robôs que visitarem o site. Quando usa um nome específico, direciona regras apenas para aquele agente. Isso permite, por exemplo, tratar um bot mais agressivo com mais restrições e dar mais liberdade para outros.

O que é o comando Disallow no robots.txt?
O comando Disallow é uma das diretivas mais importantes do robots.txt. Ele indica quais caminhos o robô não deve rastrear. Cada linha com Disallow: corresponde a um prefixo de URL que não deve ser acessado pelou user-agent em questão.
Exemplo simples:
User-agent: *
Disallow: /admin/
Nesse caso, todos os bots são instruídos a não rastrear qualquer URL que comece com /admin/. Isso é útil em ambientes de Servidor VPS ou Locaweb Cloud em que a área administrativa está sob um caminho previsível e não deve ser explorada pelos crawlers.
Como funcionam os comandos “Disallow” em um arquivo robots.txt?
Os comandos Disallow funcionam por correspondência de prefixo. Ou seja, se você especificar Disallow: /privado, qualquer URL que comece com /privado será afetada, como /privado/relatorios ou /privado/config.
Algumas boas práticas ao usar Disallow:
- evitar bloquear recursos essenciais (CSS, JS, imagens) que impactem a renderização;
- não usar robots.txt como mecanismo de segurança ou privacidade;
- testar as regras em ferramentas de inspeção antes de publicá-las em produção.
Bloquear um arquivo
Para bloquear um arquivo específico, você pode usar:
User-agent: *
Disallow: /docs/relatorio-interno.pdf
Assim, os bots são orientados a não rastrear esse PDF. Lembre-se, porém, de que se alguém tiver o link e apontar para ele em outro site, o arquivo pode ser referenciado pelo buscador, mesmo que o conteúdo não seja rastreado.
Bloquear um diretório
Para bloquear um diretório inteiro, basta indicar o caminho com barra no final:
User-agent: *
Disallow: /area-interna/
Isso impede que bots rastreiem qualquer recurso sob /area-interna/. Essa abordagem é comum em estruturas de aplicativos com múltiplos módulos.
Permitir acesso total
Para permitir acesso total ao site, você pode deixar a diretiva Disallow vazia:
User-agent: *
Disallow:
Isso indica que não há caminhos proibidos para o user-agent. Em muitos sites menores, essa configuração é suficiente, desde que combinada com outras boas práticas de SEO como performance, conteúdo de qualidade e usabilidade.
Ocultar todo o site para os bots
Em casos específicos (como ambientes de staging ou sites em desenvolvimento visíveis na internet), você pode desejar bloquear todo o site:
User-agent: *
Disallow: /
Essa configuração diz para os bots que nenhum caminho deve ser rastreado. É muito útil em ambientes temporários, mas deve ser usada com cuidado em produção: um erro aqui pode tirar um site inteiro dos resultados de busca.
Que outros comandos fazem parte do Protocolo de Exclusão de Robôs?
Além de User-agent e Disallow, outros comandos e diretivas são usados no contexto do Protocolo de Exclusão de Robôs:
- Allow: permite explicitamente o acesso a um caminho, mesmo que um diretório mais amplo esteja bloqueado. Exemplo:
User-agent: *
Disallow: /privado/
Allow: /privado/manual-publico.pdf
- Crawl-delay: define um intervalo em segundos entre requisições para evitar sobrecarga no servidor (não é suportado por todos os buscadores):
User-agent: *
Crawl-delay: 10
- Sitemap: indica a URL do sitemap XML, facilitando a descoberta de páginas importantes:
Sitemap: https://seudominio.com/sitemap.xml
Nem todas as diretivas são padronizadas da mesma forma entre todos os bots, por isso é importante verificar a documentação específica de cada buscador — especialmente quando o site recebe alto volume de tráfego em uma infraestrutura robusta como Servidor Dedicado ou Locaweb Cloud.
Quais são as limitações de um arquivo robots.txt?
Embora seja muito útil, o robots.txt tem limitações importantes que toda pessoa desenvolvedora precisa conhecer:
- Não é mecanismo de segurança: o arquivo é público; qualquer pessoa pode vê-lo. Não use robots.txt para “esconder” informações sensíveis. Para proteger dados, use autenticação, ACLs, VPN, etc.
- Pode ser ignorado por bots maliciosos: o protocolo é respeitado por buscadores legítimos (Google, Bing, etc.), mas bots mal-intencionados podem ignorá-lo totalmente.
- Não impede indexação de URLs já conhecidas: se uma URL foi descoberta por links externos, ela pode aparecer nos resultados de busca mesmo com Disallow, embora o conteúdo em si possa não ser rastreado.
- Depende da interpretação do buscador: cada ferramenta pode implementar variações na forma de interpretar certas diretivas (como Crawl-delay).
É por isso que, além de um bom robots.txt, é fundamental contar com uma infraestrutura segura (como ambientes de Cloud Computing bem configurados), políticas de acesso bem definidas e práticas sólidas de desenvolvimento seguro.
O que é sitemap?
Um sitemap (geralmente em formato XML) é um arquivo que lista as URLs importantes do seu site, ajudando os mecanismos de busca a entender a estrutura e descobrir páginas que talvez não sejam facilmente alcançáveis por links internos.
Em termos de SEO técnico, o sitemap é uma ferramenta fundamental para garantir que o conteúdo relevante seja encontrado, especialmente em sites grandes, com muitas seções, pag paginações ou conteúdos gerados dinamicamente.
Por que sitemaps são incluídos no robots.txt?
Incluir a diretiva Sitemap no arquivo robots.txt é uma maneira simples e eficaz de apontar o sitemap para qualquer robô que visite o site. Como os bots costumam acessar primeiro o robots.txt, essa é uma forma direta de dizer: “aqui está a lista oficial das minhas páginas importantes”.
Exemplo comum:
User-agent: *
Disallow:
Sitemap: https://seudominio.com/sitemap.xml
Essa prática complementa o envio manual do sitemap em ferramentas como o Google Search Console e é especialmente útil em sites com múltiplas seções e conteúdos dinâmicos.
Como o robots.txt afeta a otimização da SEO?
O robots.txt impacta o SEO principalmente ao controlar o rastreamento. Ele ajuda os buscadores a gastarem o crawl budget nas URLs que realmente importam, evitando que o robô perca tempo em:
- páginas de filtro ou busca interna;
- áreas internas sem valor para o usuário final;
- conteúdos duplicados ou versões de teste.
Quando bem configurado, o robots.txt:
- melhora a eficiência do rastreamento;
- ajuda a manter o índice focado em páginas relevantes;
- contribui para uma estratégia de SEO técnico bem estruturada.
No entanto, um robots.txt mal configurado pode bloquear seções inteiras que deveriam ser indexadas, prejudicando a visibilidade do site. Por isso, ele precisa estar alinhado a uma visão ampla de SEO, incluindo conteúdo de qualidade e otimização on-page.
Em sites hospedados em Hospedagem de Site, Locaweb Cloud ou ambientes de Cloud Computing de alta escala, esse cuidado é ainda mais importante, já que o número de URLs e o volume de acessos costumam ser maiores.
Como atualizar um arquivo robots.txt?
Atualizar o robots.txt é um processo relativamente simples, mas que deve ser feito com cuidado, principalmente em sites em produção. O fluxo geral é:
- editar o arquivo localmente;
- substituir o arquivo no servidor;
- testar a nova configuração;
- considerar cache e propagação;
- validar em ferramentas como Google Search Console.
Passos recomendados:
- Faça uma cópia de backup do robots.txt atual antes de qualquer alteração.
- Edite o arquivo localmente (em seu editor) ou via painel da sua Hospedagem de Site/Servidor VPS/Servidor Dedicado.
- Salve e suba a nova versão para a pasta raiz do site.
- Acesse /robots.txt no navegador para verificar se o conteúdo está correto.
- Use ferramentas de teste (como o tester de robots no Google Search Console) para validar as regras em URLs específicas.
- Monitore os logs de acesso e relatórios de rastreamento para ver se os bots estão se comportando como esperado.
Em aplicações com deploy automatizado, é uma boa prática versionar o robots.txt junto com o código, revisando alterações por meio de pull requests e garantindo que qualquer mudança seja auditável.
Conclusão
O robots.txt pode parecer um simples arquivo de texto, mas, na prática, é uma peça-chave na comunicação entre o seu site e os motores de busca. Ele orienta como os bots devem rastrear seu conteúdo, ajuda a evitar desperdício de crawl budget e complementa uma estratégia sólida de SEO técnico.
Como pessoa desenvolvedora, é importante enxergar o robots.txt como parte da arquitetura da aplicação: ele convive com o código e com a infraestrutura onde o site está hospedado.O próximo passo é revisar seus projetos atuais: verifique se existe um robots.txt, se ele está na raiz do domínio, se as regras fazem sentido para a estratégia de SEO e se o sitemap está devidamente referenciado. Se ainda não existir, crie o arquivo, publique em seu ambiente de Hospedagem de Site ou Locaweb Cloud e teste as configurações. Com pequenos ajustes, você pode melhorar a forma como seu site é rastreado e indexado — e, consequentemente, potencializar seus resultados orgânicos.
Em resumo: use o robots.txt como um aliado. Combine-o com conteúdo de qualidade, SEO técnico bem planejado e uma infraestrutura confiável em Cloud Computing. Assim, você terá controle, segurança e desempenho para fazer seus projetos crescerem com base sólida, da camada de aplicação ao nível de indexação nos buscadores.
Perguntas frequentes sobre robots.txt
Para fechar, veja respostas diretas para dúvidas comuns sobre o uso de robots.txt em estratégias de SEO técnico e infraestrutura de sites.
O que é um arquivo robots.txt personalizado?
Um robots.txt personalizado é um arquivo em que você define regras específicas para diferentes user-agents, diretórios e situações do seu site, em vez de usar apenas um modelo genérico. Por exemplo, você pode bloquear diretórios de teste, liberar apenas certas seções para todos os bots e criar instruções específicas para Googlebot ou outros rastreadores.
Em projetos hospedados em Hospedagem de Site, Locaweb Cloud, Servidor VPS ou Servidor Dedicado, isso é importante para adaptar as regras de acordo com a estrutura real da aplicação e os objetivos de SEO.
Qual é a função do arquivo robots.txt em uma estratégia de SEO técnico?
Dentro de uma estratégia de SEO técnico, o robots.txt tem a função de orientar o rastreamento dos bots. Ele ajuda a:
- bloquear áreas irrelevantes para indexação;
- focar o crawl budget em páginas importantes;
- apontar o sitemap para facilitar a descoberta de URLs;
- evitar exposição de ambientes de teste e áreas internas.
Ele trabalha em conjunto com outras práticas, como otimização de conteúdo, performance, estrutura de links internos e arquitetura da informação — todas presentes em um bom plano de SEO.
Onde o arquivo robots.txt deve ser colocado?
O arquivo robots.txt deve ser colocado sempre na raiz do domínio. Ou seja, ele precisa estar disponível em uma URL como:
Isso significa que, no seu ambiente, o arquivo deve ficar no diretório público principal, geralmente o mesmo em que o arquivo inicial do site (como index.html ou index.php) está localizado.
O arquivo robots.txt bloqueia a indexação?
O robots.txt bloqueia o rastreamento de determinadas URLs, mas não garante, por si só, a não indexação delas. Se uma página for apontada por links externos, o buscador pode inclui-la no índice com informações limitadas (como a própria URL), mesmo que o conteúdo não seja rastreado.
Para controlar indexação, é mais adequado usar meta tags (como <meta name=”robots” content=”noindex”>) ou cabeçalhos HTTP. O robots.txt deve ser visto como uma camada de controle de rastreamento, e não como mecanismo absoluto de privacidade ou desindexação.
Todos os sites precisam de um robots.txt?
Não é obrigatório que todo site tenha um robots.txt. Se o arquivo não existir, os bots geralmente assumem que todo o site pode ser rastreado. Porém, ter um robots.txt é uma boa prática, mesmo que seja um arquivo simples, pois:
- permite indicar o sitemap;
- deixa explícito que você conhece e utiliza o Protocolo de Exclusão de Robôs;
- facilita ajustes futuros de rastreamento sem precisar criar o arquivo do zero.
Em sites profissionais, além de serviços eficientes e confiáveis de hospedagem, é altamente recomendado configurar um robots.txt alinhado à estratégia de SEO e à estrutura técnica do projeto.