Quando você publica um site em um ambiente, além do código, existe um ponto fundamental de comunicação com os motores de busca: o arquivo robots.txt. É ele que diz para os bots de rastreamento (como o Googlebot) quais partes do seu site podem ser acessadas e quais áreas devem ser evitadas. 

Esse arquivo faz parte do chamado Protocolo de Exclusão de Robôs (Robots Exclusion Protocol) e é uma peça importante dentro de uma estratégia de SEO técnico. Ele não substitui boas práticas de conteúdo nem configurações avançadas, mas ajuda a otimizar o rastreamento pelas ferramentas de busca e a organizar a forma como o seu site é entendido pelos buscadores. 

Ao longo deste artigo, você vai entender o que é um arquivo robots.txt, para que serve, quais protocolos e comandos o compõem, como criá-lo, atualizá-lo e como ele se relaciona com sitemapSEO técnico e a infraestrutura em que o site está hospedado. 

Navegue pelo índice

    O que é um arquivo robots.txt? 

    robots.txt é um arquivo de texto simples, geralmente salvo com codificação UTF-8, que fica na raiz de um domínio (por exemplo, https://seudominio.com/robots.txt). Ele é usado para dar instruções a robôs de rastreamento (também chamados de crawlers, spiders ou bots), informando o que eles podem ou não podem acessar dentro de um site. 

    Em termos de arquitetura, o robots.txt é um recurso público. Qualquer pessoa pode acessá-lo diretamente no navegador. Logo, ele não serve para “esconder segredos”, mas para comunicar regras de rastreamento aos mecanismos de busca que respeitam o protocolo. 

    Podemos falar em dois tipos principais: 

    • robots.txt padrão: geralmente simples, permitindo que todos os bots acessem todo o site (ou boa parte dele), muitas vezes apenas apontando o sitemap
    • robots.txt personalizado: contém regras específicas para diferentes user-agents, diretórios bloqueados, áreas liberadas e configuração refinada de rastreamento. 

    É importante destacar que o arquivo precisa ficar na pasta raiz do domínio configurado via Registro de Domínio. Se o seu site está hospedado em uma Hospedagem de SiteLocaweb CloudServidor VPS ou Servidor Dedicado, você normalmente fará o upload do robots.txt para o diretório público principal (como public_html ou equivalente) para que os bots consigam encontrá-lo automaticamente. 

    Leia Mais:  

    Para que serve um arquivo robots.txt? 

    O robots.txt serve, principalmente, para orientar os bots de busca sobre quais partes do site devem ser rastreadas e quais caminhos devem ser evitados. Ele ajuda a: 

    • evitar rastreamento de diretórios internos, como /admin ou /tmp; 
    • impedir acesso a páginas de teste ou ambientes de staging expostos; 
    • bloquear recursos irrelevantes para indexação, como scripts específicos ou arquivos temporários; 
    • apontar o sitemap para facilitar a descoberta de URLs importantes; 
    • ajudar na gestão de crawl budget, especialmente em projetos grandes. 

    Em estruturas mais complexas, como aquelas hospedadas em Servidor VPS ou Servidor Dedicado, por exemplo, o robots.txt é ainda mais estratégico. Muitas vezes você tem áreas separadas por subdiretórios ou subdomínios, com diferentes responsabilidades (aplicação, área administrativa, API, etc.). Com um arquivo bem definido, você evita que os bots “se percam” em partes irrelevantes da aplicação. 

    Vale lembrar: o robots.txt não é o único elemento de SEO técnico, mas é uma peça importante, complementando uma boa arquitetura de informações, uso adequado de meta tags, performance e outras boas práticas abordadas em guias como o guia definitivo de SEO técnico 

    Quais protocolos são usados em um arquivo robots.txt? 

    O robots.txt se baseia principalmente no Protocolo de Exclusão de Robôs (Robots Exclusion Protocol). Ele define um conjunto simples de diretivas que os bots devem ler e respeitar ao rastrear um domínio. 

    Entre as regras e diretrizes que fazem parte desse protocolo (ou são de uso comum e de fato adotadas pelos buscadores) estão: 

    • User-agent: especifica para qual robô as regras se aplicam; 
    • Disallow: informa quais caminhos o bot não deve rastrear
    • Allow: (usado por alguns buscadores) especifica caminhos que podem ser rastreados, mesmo dentro de áreas com Disallow mais amplo; 
    • Crawl-delay: tempo de espera entre requisições (não é suportado por todos os bots); 
    • Sitemap: diretiva usada para apontar o(s) sitemap(s) do site. 

    Embora o protocolo tenha surgido como um padrão informal, muitos buscadores importantes implementaram suporte a ele, com pequenas variações. Por isso, é importante consultar a documentação de cada ferramenta ao lidar com configurações avançadas, principalmente em aplicações grandes rodando em Cloud Computing, onde o volume de URLs e requisições é muito maior. 

    Como criar um arquivo robots.txt? 

    Criar um arquivo robots.txt é simples, mas exige atenção para não bloquear o que não deveria ser bloqueado. Na prática, você precisa de um editor de texto, acesso ao diretório raiz do seu site e alguns testes básicos. 

    A seguir, um passo a passo prático para criar o arquivo do zero e colocá-lo em produção. 

    Passo 1: Planejar o que será liberado ou bloqueado 

    Antes de escrever qualquer linha, faça um inventário das áreas do seu site: 

    • Quais diretórios precisam ser rastreados e indexados? 
    • Quais caminhos são apenas administrativos ou de testes? 
    • Existem ambientes de staging ou pré-produção expostos? 
    • Há recursos que não fazem sentido para os bots (arquivos temporários, scripts específicos)? 

    Esse mapeamento evita erros como bloquear a pasta onde estão os arquivos principais do site (por exemplo, /public ou /content) ou liberar diretórios que não deveriam ser expostos. 

    Passo 2: Criar o arquivo de texto robots.txt 

    Abra um editor de texto simples (como Notepad, VS Code ou outro de sua preferência). Crie um novo arquivo e salve com o nome robots.txt. Certifique-se de que ele seja salvo como texto simples e não como documento de texto formatado (nada de .docx, .odt, etc.). 

    Em seguida, comece com uma configuração básica, por exemplo: 

    User-agent: * 

    Disallow: 

    Sitemap: https://seudominio.com/sitemap.xml 

    Nesse exemplo, o arquivo permite que todos os bots (User-agent: *) rastreiem todo o site (Disallow: vazio) e informa onde está o sitemap

    Passo 3: Adicionar regras específicas para bots e diretórios 

    Com a base criada, você pode adicionar regras personalizadas, por exemplo, bloqueando uma área administrativa: 

    User-agent: * 

    Disallow: /admin/ 

    Disallow: /tmp/ 

    Sitemap: https://seudominio.com/sitemap.xml 

    Se quiser criar regras só para um determinado robô (como o Googlebot), defina um bloco próprio: 

    User-agent: Googlebot 

    Disallow: /area-teste/ 

    User-agent: * 

    Disallow: 

    Essa granularidade é especialmente útil em aplicações hospedadas em Servidores VPS ou Servidores Dedicados, onde você tem múltiplos contextos de aplicação sob o mesmo domínio ou subdomínios. 

    Passo 4: Enviar o arquivo para a pasta raiz do servidor 

    Depois de salvar o arquivo, faça o upload para a pasta raiz do site em seu ambiente de hospedagem. Em uma Hospedagem de Site, normalmente é o diretório public_html ou equivalente. Em Locaweb CloudCloud ComputingServidor VPS ou Servidor Dedicado, o caminho pode variar, mas o objetivo é o mesmo: o arquivo precisa estar acessível em https://seudominio.com/robots.txt

    Use FTP, SFTP, painel de controle da hospedagem ou pipeline de deploy (CI/CD) para subir o arquivo. Em ambientes automatizados, você pode incluir o robots.txt no próprio repositório do projeto, garantindo que ele faça parte do fluxo de deploy. 

    Passo 5: Testar o arquivo robots.txt 

    Depois do upload, acesse https://seudominio.com/robots.txt pelo navegador e confirme se o conteúdo está correto. Em seguida, use ferramentas de validação — como o teste de robots.txt disponível no Google Search Console — para verificar: 

    • se a sintaxe está correta; 
    • se as URLs que você quer bloquear realmente estão bloqueadas; 
    • se páginas importantes continuam acessíveis aos bots. 

    Fazer esses testes é fundamental para não prejudicar a visibilidade do site em mecanismos de busca, algo essencial para tirar proveito de boas práticas de SEO para conteúdos, como as descritas neste guia de boas práticas de SEO para conteúdos 

    O que significa “User-agent” em um arquivo robots.txt? 

    A diretiva User-agent define para qual robô (crawler) um conjunto de regras se aplica. Cada bloco de regras em um robots.txt começa com um User-agent, seguido das instruções (como Disallow, Allow e outras). 

    Exemplos de user-agents comuns: 

    • Googlebot – robô de rastreamento do Google; 
    • Bingbot – robô de rastreamento do Bing; 
    • Googlebot-Image – robô focado em imagens do Google; 
    • * – coringa que significa “todos os bots”. 8

    Ao usar User-agent: *, você diz que aquelas regras se aplicam a todos os robôs que visitarem o site. Quando usa um nome específico, direciona regras apenas para aquele agente. Isso permite, por exemplo, tratar um bot mais agressivo com mais restrições e dar mais liberdade para outros. 

    A imagem retrata uma mão robótica gigante apontando para frente, com uma pessoa em pé sobre o dedo indicador, cercada por janelas flutuantes de interface digital em tons suaves de rosa, dourado e lilás. A cena simboliza a colaboração entre tecnologia e humanidade, destacando o papel da IA e da automação no suporte à tomada de decisões e na criação de experiências digitais inteligentes. O contraste entre o tamanho da mão robótica e a figura humana reforça a ideia de escala e poder tecnológico, enquanto as janelas flutuantes remetem à interação entre dados, interfaces e inovação em um cenário futurista e criativo. 
    A conexão entre humanos e inteligência artificial moldando o futuro digital. (Fonte: Getty Images/Reprodução)

    O que é o comando Disallow no robots.txt? 

    O comando Disallow é uma das diretivas mais importantes do robots.txt. Ele indica quais caminhos o robô não deve rastrear. Cada linha com Disallow: corresponde a um prefixo de URL que não deve ser acessado pelou user-agent em questão. 

    Exemplo simples: 

    User-agent: * 

    Disallow: /admin/ 

    Nesse caso, todos os bots são instruídos a não rastrear qualquer URL que comece com /admin/. Isso é útil em ambientes de Servidor VPS ou Locaweb Cloud em que a área administrativa está sob um caminho previsível e não deve ser explorada pelos crawlers. 

    Como funcionam os comandos “Disallow” em um arquivo robots.txt? 

    Os comandos Disallow funcionam por correspondência de prefixo. Ou seja, se você especificar Disallow: /privado, qualquer URL que comece com /privado será afetada, como /privado/relatorios ou /privado/config. 

    Algumas boas práticas ao usar Disallow: 

    • evitar bloquear recursos essenciais (CSS, JS, imagens) que impactem a renderização; 
    • não usar robots.txt como mecanismo de segurança ou privacidade; 
    • testar as regras em ferramentas de inspeção antes de publicá-las em produção. 

    Bloquear um arquivo 

    Para bloquear um arquivo específico, você pode usar: 

    User-agent: * 

    Disallow: /docs/relatorio-interno.pdf 

    Assim, os bots são orientados a não rastrear esse PDF. Lembre-se, porém, de que se alguém tiver o link e apontar para ele em outro site, o arquivo pode ser referenciado pelo buscador, mesmo que o conteúdo não seja rastreado. 

    Bloquear um diretório 

    Para bloquear um diretório inteiro, basta indicar o caminho com barra no final: 

    User-agent: * 

    Disallow: /area-interna/ 

    Isso impede que bots rastreiem qualquer recurso sob /area-interna/. Essa abordagem é comum em estruturas de aplicativos com múltiplos módulos. 

    Permitir acesso total 

    Para permitir acesso total ao site, você pode deixar a diretiva Disallow vazia: 

    User-agent: * 

    Disallow: 

    Isso indica que não há caminhos proibidos para o user-agent. Em muitos sites menores, essa configuração é suficiente, desde que combinada com outras boas práticas de SEO como performance, conteúdo de qualidade e usabilidade. 

    Ocultar todo o site para os bots 

    Em casos específicos (como ambientes de staging ou sites em desenvolvimento visíveis na internet), você pode desejar bloquear todo o site

    User-agent: * 

    Disallow: / 

    Essa configuração diz para os bots que nenhum caminho deve ser rastreado. É muito útil em ambientes temporários, mas deve ser usada com cuidado em produção: um erro aqui pode tirar um site inteiro dos resultados de busca. 

    Que outros comandos fazem parte do Protocolo de Exclusão de Robôs? 

    Além de User-agent e Disallow, outros comandos e diretivas são usados no contexto do Protocolo de Exclusão de Robôs: 

    • Allow: permite explicitamente o acesso a um caminho, mesmo que um diretório mais amplo esteja bloqueado. Exemplo: 
      User-agent: * 

    Disallow: /privado/ 

    Allow: /privado/manual-publico.pdf 

    • Crawl-delay: define um intervalo em segundos entre requisições para evitar sobrecarga no servidor (não é suportado por todos os buscadores): 
      User-agent: * 

    Crawl-delay: 10 

    Nem todas as diretivas são padronizadas da mesma forma entre todos os bots, por isso é importante verificar a documentação específica de cada buscador — especialmente quando o site recebe alto volume de tráfego em uma infraestrutura robusta como Servidor Dedicado ou Locaweb Cloud

    Quais são as limitações de um arquivo robots.txt? 

    Embora seja muito útil, o robots.txt tem limitações importantes que toda pessoa desenvolvedora precisa conhecer: 

    • Não é mecanismo de segurança: o arquivo é público; qualquer pessoa pode vê-lo. Não use robots.txt para “esconder” informações sensíveis. Para proteger dados, use autenticação, ACLs, VPN, etc. 
    • Pode ser ignorado por bots maliciosos: o protocolo é respeitado por buscadores legítimos (Google, Bing, etc.), mas bots mal-intencionados podem ignorá-lo totalmente. 
    • Não impede indexação de URLs já conhecidas: se uma URL foi descoberta por links externos, ela pode aparecer nos resultados de busca mesmo com Disallow, embora o conteúdo em si possa não ser rastreado. 
    • Depende da interpretação do buscador: cada ferramenta pode implementar variações na forma de interpretar certas diretivas (como Crawl-delay). 

    É por isso que, além de um bom robots.txt, é fundamental contar com uma infraestrutura segura (como ambientes de Cloud Computing bem configurados), políticas de acesso bem definidas e práticas sólidas de desenvolvimento seguro. 

    O que é sitemap? 

    Um sitemap (geralmente em formato XML) é um arquivo que lista as URLs importantes do seu site, ajudando os mecanismos de busca a entender a estrutura e descobrir páginas que talvez não sejam facilmente alcançáveis por links internos. 

    Em termos de SEO técnico, o sitemap é uma ferramenta fundamental para garantir que o conteúdo relevante seja encontrado, especialmente em sites grandes, com muitas seções, pag paginações ou conteúdos gerados dinamicamente. 

    Por que sitemaps são incluídos no robots.txt? 

    Incluir a diretiva Sitemap no arquivo robots.txt é uma maneira simples e eficaz de apontar o sitemap para qualquer robô que visite o site. Como os bots costumam acessar primeiro o robots.txt, essa é uma forma direta de dizer: “aqui está a lista oficial das minhas páginas importantes”. 

    Exemplo comum: 

    User-agent: * 

    Disallow: 

    Sitemap: https://seudominio.com/sitemap.xml 

    Essa prática complementa o envio manual do sitemap em ferramentas como o Google Search Console e é especialmente útil em sites com múltiplas seções e conteúdos dinâmicos. 

    Como o robots.txt afeta a otimização da SEO? 

    O robots.txt impacta o SEO principalmente ao controlar o rastreamento. Ele ajuda os buscadores a gastarem o crawl budget nas URLs que realmente importam, evitando que o robô perca tempo em: 

    • páginas de filtro ou busca interna; 
    • áreas internas sem valor para o usuário final; 
    • conteúdos duplicados ou versões de teste. 

    Quando bem configurado, o robots.txt: 

    • melhora a eficiência do rastreamento; 
    • ajuda a manter o índice focado em páginas relevantes; 
    • contribui para uma estratégia de SEO técnico bem estruturada. 

    No entanto, um robots.txt mal configurado pode bloquear seções inteiras que deveriam ser indexadas, prejudicando a visibilidade do site. Por isso, ele precisa estar alinhado a uma visão ampla de SEO, incluindo conteúdo de qualidade e otimização on-page. 

    Em sites hospedados em Hospedagem de SiteLocaweb Cloud ou ambientes de Cloud Computing de alta escala, esse cuidado é ainda mais importante, já que o número de URLs e o volume de acessos costumam ser maiores. 

    Como atualizar um arquivo robots.txt? 

    Atualizar o robots.txt é um processo relativamente simples, mas que deve ser feito com cuidado, principalmente em sites em produção. O fluxo geral é: 

    • editar o arquivo localmente; 
    • substituir o arquivo no servidor; 
    • testar a nova configuração; 
    • considerar cache e propagação; 
    • validar em ferramentas como Google Search Console. 

    Passos recomendados: 

    1. Faça uma cópia de backup do robots.txt atual antes de qualquer alteração. 
    1. Edite o arquivo localmente (em seu editor) ou via painel da sua Hospedagem de Site/Servidor VPS/Servidor Dedicado
    1. Salve e suba a nova versão para a pasta raiz do site. 
    1. Acesse /robots.txt no navegador para verificar se o conteúdo está correto. 
    1. Use ferramentas de teste (como o tester de robots no Google Search Console) para validar as regras em URLs específicas. 
    1. Monitore os logs de acesso e relatórios de rastreamento para ver se os bots estão se comportando como esperado. 

    Em aplicações com deploy automatizado, é uma boa prática versionar o robots.txt junto com o código, revisando alterações por meio de pull requests e garantindo que qualquer mudança seja auditável. 

    Conclusão 

    robots.txt pode parecer um simples arquivo de texto, mas, na prática, é uma peça-chave na comunicação entre o seu site e os motores de busca. Ele orienta como os bots devem rastrear seu conteúdo, ajuda a evitar desperdício de crawl budget e complementa uma estratégia sólida de SEO técnico

    Como pessoa desenvolvedora, é importante enxergar o robots.txt como parte da arquitetura da aplicação: ele convive com o código e com a infraestrutura onde o site está hospedado.O próximo passo é revisar seus projetos atuais: verifique se existe um robots.txt, se ele está na raiz do domínio, se as regras fazem sentido para a estratégia de SEO e se o sitemap está devidamente referenciado. Se ainda não existir, crie o arquivo, publique em seu ambiente de Hospedagem de Site ou Locaweb Cloud e teste as configurações. Com pequenos ajustes, você pode melhorar a forma como seu site é rastreado e indexado — e, consequentemente, potencializar seus resultados orgânicos. 

    Em resumo: use o robots.txt como um aliado. Combine-o com conteúdo de qualidade, SEO técnico bem planejado e uma infraestrutura confiável em Cloud Computing. Assim, você terá controle, segurança e desempenho para fazer seus projetos crescerem com base sólida, da camada de aplicação ao nível de indexação nos buscadores. 

    Perguntas frequentes sobre robots.txt 

    Para fechar, veja respostas diretas para dúvidas comuns sobre o uso de robots.txt em estratégias de SEO técnico e infraestrutura de sites. 

    O que é um arquivo robots.txt personalizado? 

    Um robots.txt personalizado é um arquivo em que você define regras específicas para diferentes user-agents, diretórios e situações do seu site, em vez de usar apenas um modelo genérico. Por exemplo, você pode bloquear diretórios de teste, liberar apenas certas seções para todos os bots e criar instruções específicas para Googlebot ou outros rastreadores. 

    Em projetos hospedados em Hospedagem de SiteLocaweb CloudServidor VPS ou Servidor Dedicado, isso é importante para adaptar as regras de acordo com a estrutura real da aplicação e os objetivos de SEO. 

    Qual é a função do arquivo robots.txt em uma estratégia de SEO técnico? 

    Dentro de uma estratégia de SEO técnico, o robots.txt tem a função de orientar o rastreamento dos bots. Ele ajuda a: 

    • bloquear áreas irrelevantes para indexação; 
    • focar o crawl budget em páginas importantes; 
    • apontar o sitemap para facilitar a descoberta de URLs; 
    • evitar exposição de ambientes de teste e áreas internas. 

    Ele trabalha em conjunto com outras práticas, como otimização de conteúdo, performance, estrutura de links internos e arquitetura da informação — todas presentes em um bom plano de SEO. 

    Onde o arquivo robots.txt deve ser colocado? 

    O arquivo robots.txt deve ser colocado sempre na raiz do domínio. Ou seja, ele precisa estar disponível em uma URL como: 

    Isso significa que, no seu ambiente, o arquivo deve ficar no diretório público principal, geralmente o mesmo em que o arquivo inicial do site (como index.html ou index.php) está localizado. 

    O arquivo robots.txt bloqueia a indexação? 

    O robots.txt bloqueia o rastreamento de determinadas URLs, mas não garante, por si só, a não indexação delas. Se uma página for apontada por links externos, o buscador pode inclui-la no índice com informações limitadas (como a própria URL), mesmo que o conteúdo não seja rastreado. 

    Para controlar indexação, é mais adequado usar meta tags (como <meta name=”robots” content=”noindex”>) ou cabeçalhos HTTP. O robots.txt deve ser visto como uma camada de controle de rastreamento, e não como mecanismo absoluto de privacidade ou desindexação. 

    Todos os sites precisam de um robots.txt? 

    Não é obrigatório que todo site tenha um robots.txt. Se o arquivo não existir, os bots geralmente assumem que todo o site pode ser rastreado. Porém, ter um robots.txt é uma boa prática, mesmo que seja um arquivo simples, pois: 

    • permite indicar o sitemap
    • deixa explícito que você conhece e utiliza o Protocolo de Exclusão de Robôs; 
    • facilita ajustes futuros de rastreamento sem precisar criar o arquivo do zero. 

    Em sites profissionais, além de serviços eficientes e confiáveis de hospedagem, é altamente recomendado configurar um robots.txt alinhado à estratégia de SEO e à estrutura técnica do projeto. 

    O autor

    Rodrigo Cardoso (Pokemaobr)

    Conhecido como Poke, é Streamer (Live "Coder") na Twitch, Web Developer e apresentador do talk show "The Velopers". Com bacharelado em Matemática e MBA em SOA, Poke atua como desenvolvedor e organizador de eventos de TI. É evangelista PHPSP e criador do PokePHP, focando em disseminar conteúdos técnicos e humor para a comunidade de desenvolvedores. Nas horas vagas, ele adora se conectar com a comunidade e compartilhar seu conhecimento de maneira divertida e informativa.

    Veja outros conteúdos desse autor