FormatArc convirtiendo HTML pegado y sucio en Markdown limpioFormatArc convirtiendo HTML pegado y sucio en Markdown limpio
Publicado: 2026-06-16

Pega HTML como Markdown: elimina spans, estilos en línea y restos de Word

Convierte HTML desordenado de Word, Google Docs, ChatGPT o copias de la web en Markdown limpio. Elimina spans, estilos en línea, clases y marcado propio de Word en tu navegador, sin subir nada.

Copiaste un párrafo desde Microsoft Word, un documento de Google o una página web, lo pegaste en tu editor y obtuviste un muro de etiquetas <span style="...">, class="c3" y <o:p> en lugar de texto limpio. El contenido está ahí, pero queda enterrado bajo marcado de presentación que ningún renderizador de Markdown necesita. Esta guía muestra cómo convertir ese HTML sucio en Markdown limpio en un solo paso.

Respuesta rápida

Pega el HTML desordenado en HTML a Markdown y pulsa Run. Los spans, los atributos style en línea, los nombres de class, las etiquetas <font> y el marcado propio de Word no tienen equivalente en Markdown, así que se eliminan: lo que vuelve es la estructura (encabezados, listas, enlaces, tablas) como Markdown sin más. La conversión se ejecuta por completo en tu navegador, así que incluso un documento interno confidencial nunca sale de tu equipo.

En qué se diferencia de un limpiador de HTML

Herramientas como HTML Cleaner o las utilidades de «eliminar estilos en línea» te devuelven HTML limpio: quitan el desorden pero te dejan con etiquetas <p> y <ul>. Eso se queda a un paso si tu destino es un README, una incidencia de GitHub, una wiki o un prompt para un LLM, porque todos esos quieren Markdown.

Un conversor hace las dos cosas a la vez: elimina el ruido de presentación y emite sintaxis Markdown (#, -, [texto](url)). No tienes que limpiar el HTML primero y convertirlo después.

Por qué el HTML pegado está sucio

El desorden depende de dónde copiaste. Cada origen añade su propio tipo de ruido.

Microsoft Word

Word envuelve el texto copiado en marcado propio de Office: propiedades mso-* dentro de atributos style, marcadores de párrafo <o:p>, comentarios condicionales (<!--[if gte mso 9]>) y etiquetas <font face="...">. Nada de eso aporta un significado que el lector necesite.

Ten en cuenta que el marcado exacto depende de la ruta de copia. Pegar directamente desde la app de escritorio de Word, pasar por Outlook o copiar un documento de Word abierto en el navegador pueden producir sopas de etiquetas distintas, a veces más ligeras y a veces más pesadas.

Google Docs

Google Docs se apoya en CSS en línea más que en etiquetas semánticas. La negrita suele ser un <span style="font-weight:700"> en vez de <strong>, y el documento está lleno de nombres de clase generados y de spans «fantasma» vacíos que envuelven cada fragmento de texto. Los nombres de clase se generan automáticamente, así que no deberías confiar en que aparezca ningún nombre concreto.

Copia de páginas web

Copiar una región de una página web en vivo arrastra todo lo que el sitio usó para maquetarla: <div> contenedores, atributos class de utilidad, style en línea y, a veces, enlaces de navegación, botones de compartir o bloques de anuncios que estaban junto al texto que querías. Reducir a Markdown descarta la capa de maquetación y conserva la estructura legible.

ChatGPT y editores de texto enriquecido

Cuando copias una respuesta con formato desde una interfaz de chat o un editor WYSIWYG, a menudo obtienes HTML con spans específicos del editor y atributos data-*. Pegar eso en otra herramienta arrastra el ruido; convertir a Markdown deja solo el contenido.

Qué se elimina y qué sobrevive

La tabla muestra el marcado sucio habitual y qué le ocurre durante la conversión.

Marcado de origen Ejemplo Resultado en Markdown
Estilo en línea <span style="color:#333">text</span> text (estilo eliminado)
Nombres de clase <p class="c3 c7">text</p> text (clase eliminada)
Marcado Office de Word <o:p></o:p>, estilos mso-* eliminado por completo
Etiquetas font <font face="Calibri">text</font> text
Contenedores envoltorio <div><span>text</span></div> text
Spans vacíos / fantasma <span></span> eliminado
Atributos data <p data-id="9">text</p> text
Encabezado <h2>Title</h2> ## Title
Negrita (semántica o por estilo) <strong>x</strong> o <span style="font-weight:700">x</span> **x**
Enlace <a href="/p" class="btn">go</a> [go](/p)
Lista <ul><li>a</li></ul> - a

Conviene tener presente dos cosas:

  • Markdown es un lenguaje más pequeño que HTML. Todo lo que tiene un equivalente estructural (encabezados, listas, enlaces, énfasis, tablas, imágenes) se conserva; lo puramente de presentación se elimina.
  • «Convertir a Markdown» no garantiza «cero HTML». La especificación de Markdown permite HTML en línea, así que un conversor puede mantener una etiqueta que no logra mapear —por ejemplo una tabla compleja o un elemento no soportado— como un fragmento de HTML en bruto en lugar de descartar tu contenido. El resultado es lo bastante limpio para usarlo, pero no es una promesa de que cada <span> desaparezca en todos los casos.

Convierte tu HTML sucio con FormatArc

HTML a Markdown toma el HTML pegado y produce Markdown. No hay nada que instalar y no se sube nada.

  1. Abre HTML a Markdown.
  2. Pega el HTML desordenado en el panel izquierdo: con los restos de Word, los spans fantasma y todo lo demás.
  3. Pulsa Run. El Markdown limpio aparece a la derecha.

FormatArc convirtiendo HTML pegado y sucio en Markdown limpioFormatArc convirtiendo HTML pegado y sucio en Markdown limpio

Como el análisis del HTML y la emisión de Markdown se ejecutan en tu navegador, un contrato confidencial pegado desde Word o un borrador sin publicar de un CMS se quedan en tu equipo. No se envía nada a FormatArc ni a terceros. (Para entender por qué importa, consulta ¿son seguros los conversores online?).

Cuando la conversión no sale limpia

Algunos patrones necesitan un segundo paso.

Tablas y bordes de Word

Las tablas pegadas desde Word o una hoja de cálculo suelen llevar colspan, rowspan o estilos de borde que no tienen equivalente en tablas de tubería. Las celdas combinadas se aplanan y la tabla puede llegar como HTML en línea. Para conversiones solo de tablas, tabla HTML a Markdown cubre los casos límite.

Listas anidadas y saltos de línea

Las listas muy anidadas, los <br> dentro de elementos de lista y la mezcla de anidamiento ordenado/desordenado pueden salir con líneas en blanco de más o con la sangría aplanada. Revisa la salida y corrige la sangría a mano si un renderizador se atasca.

HTML en línea que queda en la salida

Si sobrevive un fragmento de HTML (un <sub>, una tabla compleja, un bloque <details>), es por diseño: el conversor conservó tu contenido en vez de descartarlo. Puedes dejarlo, ya que Markdown renderiza HTML en línea en GitHub y en la mayoría de generadores de sitios estáticos, o borrarlo a mano. Para previsualizar cómo se renderiza el Markdown mixto, pégalo en Markdown a HTML.

Si copiaste una región entera de una página y se colaron menús o botones de compartir, selecciona un rango más ajustado antes de copiar, o borra la lista de enlaces sobrante del Markdown de salida. No hay forma automática de saber qué enlaces eran navegación y cuáles contenido.

Preguntas frecuentes

¿Por qué se eliminan los atributos span y style?

Markdown no tiene sintaxis para CSS en línea, nombres de clase ni spans envoltorio, así que un conversor los descarta y conserva el contenido estructural. Ese es el objetivo: obtienes Markdown portable que cualquier renderizador puede leer, en lugar de HTML cargado de ruido del editor.

¿Elimina el marcado mso- de Microsoft Word?

Sí. Las propiedades de estilo mso-*, los marcadores <o:p>, las etiquetas <font> y los comentarios condicionales no tienen equivalente en Markdown y se eliminan. El marcado exacto que emite Word depende de cómo copiaste, pero nada de él sobrevive como Markdown.

¿Puedo conservar los nombres de clase o el estilo?

No: Markdown no puede representarlos, así que se eliminan a propósito. Si necesitas el estilo, guarda una copia del HTML original, convierte a Markdown para la estructura y vuelve a aplicar el CSS en el momento del renderizado con Markdown a HTML.

¿Es seguro pegar un documento confidencial?

Sí. La conversión se ejecuta por completo en tu navegador con JavaScript; el HTML que pegas nunca se sube a FormatArc ni a ningún servidor de terceros. Consulta ¿son seguros los conversores online? para saber cómo verificar una herramienta basada en el navegador.

¿Por qué queda algo de HTML en mi Markdown?

Markdown permite HTML en línea, así que un conversor conserva cualquier construcción que no logre mapear (una tabla compleja, una etiqueta no soportada) como fragmento en bruto en vez de borrar tu contenido. Puedes dejarlo o quitarlo a mano.

Para terminar

El HTML sucio de Word, Google Docs, ChatGPT o una página web se convierte en Markdown limpio con un solo pegado en HTML a Markdown: los spans, los estilos en línea, las clases y el marcado de Office se eliminan, y la estructura se mantiene. Para un recorrido más amplio de la conversión de HTML a Markdown, incluidas las opciones de CLI, consulta la guía de HTML a Markdown. Si tu objetivo es alimentar a un LLM con contenido limpio, mira Markdown vs HTML para LLMs.