Colar HTML como Markdown — Cópia limpa da web, remover spans / estilos inline / restos do Word (Navegador)

Q: Ele remove a marcação mso- do Microsoft Word?

Sim. As propriedades de estilo mso-*, os marcadores , as tags e os comentários condicionais não têm equivalente em Markdown e são removidos. A marcação exata que o Word emite depende de como você copiou, mas nada dela sobrevive como Markdown.

Você copiou um parágrafo do Microsoft Word, de um documento do Google ou de uma página web, colou no seu editor e recebeu uma parede de tags , class="c3" e <o:p> no lugar de texto limpo. O conteúdo está ali, mas fica enterrado sob marcação de apresentação que nenhum renderizador de Markdown precisa. Este guia mostra como transformar esse HTML sujo em Markdown limpo em um único passo.

Resposta rápida

Cole o HTML bagunçado em HTML para Markdown e clique em Run. Spans, atributos style inline, nomes de class, tags  e a marcação própria do Word não têm equivalente em Markdown, então são removidos: o que volta é a estrutura (cabeçalhos, listas, links, tabelas) como Markdown puro. A conversão roda inteiramente no seu navegador, então até um documento interno confidencial nunca sai da sua máquina.

Como isso difere de um limpador de HTML

Ferramentas como o HTML Cleaner ou os utilitários de «remover estilos inline» devolvem HTML limpo: tiram a sujeira, mas deixam você com tags  e <ul>. Isso fica a um passo do necessário se o destino for um README, uma issue do GitHub, uma wiki ou um prompt para um LLM, porque todos eles querem Markdown.

Um conversor faz as duas coisas de uma vez: remove o ruído de apresentação e emite sintaxe Markdown (#, -, [texto](url)). Você não precisa limpar o HTML primeiro e converter depois.

Por que o HTML colado fica sujo

A bagunça depende de onde você copiou. Cada origem adiciona o seu próprio tipo de ruído.

Microsoft Word

O Word envolve o texto copiado em marcação própria do Office: propriedades mso-* dentro de atributos style, marcadores de parágrafo <o:p>, comentários condicionais (<!--[if gte mso 9]>) e tags . Nada disso carrega um significado que o leitor precise.

Observe que a marcação exata depende do caminho de cópia. Colar diretamente do aplicativo de desktop do Word, passar pelo Outlook ou copiar um documento do Word aberto no navegador podem produzir sopas de tags diferentes, às vezes mais leves e às vezes mais pesadas.

Google Docs

O Google Docs se apoia em CSS inline em vez de tags semânticas. O negrito costuma ser um  em vez de , e o documento fica cheio de nomes de classe gerados e de spans «fantasma» vazios que envolvem cada trecho de texto. Os nomes de classe são gerados automaticamente, então você não deve confiar que algum nome específico esteja presente.

Cópia de páginas web

Copiar uma região de uma página web ao vivo arrasta tudo o que o site usou para o layout: <div> contêineres, atributos class utilitários, style inline e, às vezes, links de navegação, botões de compartilhar ou blocos de anúncios que ficavam ao lado do texto que você queria. Reduzir para Markdown descarta a camada de layout e mantém a estrutura legível.

ChatGPT e editores de texto rico

Quando você copia uma resposta formatada de uma interface de chat ou de um editor WYSIWYG, costuma obter HTML com spans específicos do editor e atributos data-*. Colar isso em outra ferramenta leva o ruído adiante; converter para Markdown deixa apenas o conteúdo.

O que é removido e o que sobrevive

A tabela mostra a marcação suja comum e o que acontece com ela durante a conversão.

Marcação de origem	Exemplo	Resultado em Markdown
Estilo inline	`<span style="color:#333">text</span>`	`text` (estilo removido)
Nomes de classe	`<p class="c3 c7">text</p>`	`text` (classe removida)
Marcação Office do Word	`<o:p></o:p>`, estilos `mso-*`	removido por completo
Tags font	`<font face="Calibri">text</font>`	`text`
Contêineres de invólucro	`<div><span>text</span></div>`	`text`
Spans vazios / fantasma	`<span></span>`	removido
Atributos data	`<p data-id="9">text</p>`	`text`
Cabeçalho	`<h2>Title</h2>`	`## Title`
Negrito (semântico ou por estilo)	`<strong>x</strong>` ou `<span style="font-weight:700">x</span>`	`x`
Link	`<a href="/p" class="btn">go</a>`	`[go](/p)`
Lista	`<ul><li>a</li></ul>`	`- a`

Vale ter em mente dois pontos:

Markdown é uma linguagem menor que HTML. Tudo o que tem um equivalente estrutural (cabeçalhos, listas, links, ênfase, tabelas, imagens) é preservado; o que é puramente de apresentação é removido.
«Converter para Markdown» não garante «zero HTML». A especificação do Markdown permite HTML inline, então um conversor pode manter uma tag que não consegue mapear —por exemplo uma tabela complexa ou um elemento não suportado— como um fragmento de HTML bruto em vez de descartar o seu conteúdo. O resultado é limpo o suficiente para usar, mas não é uma promessa de que cada  desapareça em todos os casos.

Converta seu HTML sujo com o FormatArc

HTML para Markdown recebe o HTML colado e produz Markdown. Não há nada para instalar e nada é enviado.

Abra HTML para Markdown.
Cole o HTML bagunçado no painel esquerdo: com os restos do Word, os spans fantasma e tudo o mais.
Clique em Run. O Markdown limpo aparece à direita.

FormatArc convertendo HTML colado e sujo em Markdown limpo

Como a análise do HTML e a emissão do Markdown rodam no seu navegador, um contrato confidencial colado do Word ou um rascunho não publicado de um CMS ficam na sua máquina. Nada é enviado ao FormatArc nem a terceiros. (Para entender por que isso importa, veja conversores online são seguros?).

Quando a conversão não sai limpa

Alguns padrões precisam de um segundo passo.

Tabelas e bordas do Word

Tabelas coladas do Word ou de uma planilha costumam carregar colspan, rowspan ou estilos de borda que não têm equivalente em tabelas de barra. Células mescladas são achatadas e a tabela pode chegar como HTML inline. Para conversões só de tabelas, tabela HTML para Markdown cobre os casos extremos.

Listas aninhadas e quebras de linha

Listas muito aninhadas,   dentro de itens de lista e a mistura de aninhamento ordenado/não ordenado podem sair com linhas em branco a mais ou com a indentação achatada. Confira a saída e ajuste a indentação à mão se um renderizador travar.

HTML inline que sobra na saída

Se um fragmento de HTML sobreviver (um , uma tabela complexa, um bloco <details>), isso é proposital: o conversor manteve o seu conteúdo em vez de descartá-lo. Você pode deixá-lo, já que o Markdown renderiza HTML inline no GitHub e na maioria dos geradores de sites estáticos, ou apagá-lo à mão. Para pré-visualizar como o Markdown misto é renderizado, cole-o em Markdown para HTML.

Navegação e elementos repetidos de cópias web

Se você copiou uma região inteira de uma página e menus ou botões de compartilhar entraram junto, selecione um intervalo mais justo antes de copiar, ou apague a lista de links sobrando do Markdown de saída. Não há forma automática de saber quais links eram navegação e quais eram conteúdo.

Perguntas frequentes

Por que os atributos span e style são removidos?

O Markdown não tem sintaxe para CSS inline, nomes de classe nem spans de invólucro, então um conversor os descarta e mantém o conteúdo estrutural. Esse é o objetivo: você obtém Markdown portátil que qualquer renderizador consegue ler, em vez de HTML cheio de ruído do editor.

Ele remove a marcação mso- do Microsoft Word?

Sim. As propriedades de estilo mso-*, os marcadores <o:p>, as tags  e os comentários condicionais não têm equivalente em Markdown e são removidos. A marcação exata que o Word emite depende de como você copiou, mas nada dela sobrevive como Markdown.

Posso manter os nomes de classe ou o estilo?

Não: o Markdown não consegue representá-los, então eles são removidos de propósito. Se precisar do estilo, guarde uma cópia do HTML original, converta para Markdown pela estrutura e reaplique o CSS no momento da renderização com Markdown para HTML.

É seguro colar um documento confidencial?

Sim. A conversão roda inteiramente no seu navegador com JavaScript; o HTML que você cola nunca é enviado ao FormatArc nem a nenhum servidor de terceiros. Veja conversores online são seguros? para saber como verificar uma ferramenta baseada no navegador.

Por que ainda há algum HTML no meu Markdown?

O Markdown permite HTML inline, então um conversor mantém qualquer construção que não consiga mapear (uma tabela complexa, uma tag não suportada) como fragmento bruto em vez de apagar o seu conteúdo. Você pode deixá-lo ou removê-lo à mão.

Para finalizar

O HTML sujo do Word, do Google Docs, do ChatGPT ou de uma página web vira Markdown limpo com uma única colagem em HTML para Markdown: os spans, os estilos inline, as classes e a marcação do Office são removidos, e a estrutura permanece. Para um percurso mais amplo da conversão de HTML para Markdown, incluindo as opções de CLI, veja o guia de HTML para Markdown. Se o seu objetivo é alimentar um LLM com conteúdo limpo, veja Markdown vs HTML para LLMs.