Cómo extraer texto de páginas web

La extracción de texto de una página web se puede realizar de varias formas. El método que elija dependerá del propósito que tenga en mente para el texto. Si todo lo que su empresa necesita es imprimir el texto para usarlo como instrucciones o pautas, puede extraer el texto solo como HTML. Si hay imágenes y texto en la página web y desea mantener la página en su forma original, debe extraer la página web completa. Hay tres formas de extraer el texto y hay dos formas de extraer el texto y las imágenes juntos.

Extraer solo texto

1

Abra la página web de la que desea extraer el texto. Haga clic en el menú "Archivo" y haga clic en la opción "Guardar como" o "Guardar página como". Seleccione "Página web, solo HTML" en el menú desplegable Guardar como tipo, escriba un nombre para el archivo y haga clic en "Guardar". El texto se extraerá y guardará como un archivo HTML con las opciones de formato de página originales intactas. El archivo se puede ver en navegadores web y se puede editar en editores de texto como el Bloc de notas.

2

Haga clic en la opción "Guardar como" o "Guardar página como" y seleccione "Archivos de texto" en el menú desplegable Guardar como tipo. Escriba un nombre para el archivo de texto y haga clic en "Guardar". El texto de la página web se extraerá y guardará como un archivo de texto que se puede ver en editores de texto y programas de documentos como Microsoft Word.

3

Haga clic y arrastre para seleccionar el texto en la página web que desea extraer y presione "Ctrl-C" para copiar el texto. Abra un editor de texto o programa de documentos y presione "Ctrl-V" para pegar el texto de la página web en el archivo de texto o la ventana del documento. Guarde el archivo de texto o documento en su computadora.

Extraer texto e imágenes

1

Haga clic en el menú "Archivo" en su navegador web y haga clic en la opción "Guardar como" o "Guardar página como". Seleccione "Página web, completa" en el menú desplegable Guardar como tipo y escriba un nombre para el archivo. Clic en Guardar." El texto y las imágenes de la página web se extraerán y guardarán. El texto se colocará en un archivo HTML y las imágenes se colocarán en una carpeta en la misma ubicación que el archivo HTML.

2

Haga doble clic en el archivo HTML para ver el texto y las imágenes extraídos. Se abrirán en su navegador web. El otro método para extraer texto e imágenes solo está disponible en el navegador Internet Explorer. Abra la página web deseada en Internet Explorer antes de continuar con el siguiente paso.

3

Haga clic en la opción "Guardar como" en el menú Archivo y seleccione "Archivo web, archivo único (* .mht)" en el menú desplegable Guardar como tipo. Escriba un nombre para el archivo y haga clic en el botón "Guardar". El texto y las imágenes se extraerán de la página web al archivo. Haga doble clic en el archivo para ver el texto y las imágenes extraídos en su navegador web.