Preguntas y Respuestas (muy beta)

La mejor forma de parsear o procesar una página HTML

9 de Marzo de 2010 por Capitán Araña

Estoy haciendo una especie de araña o crawler que recoja información de algunas páginas web.

Hasta ahora lo he hecho procesando la página como un string e ir capturando información con expresiones regulares o funciones de cadenas.

Esto al final es un desastre y es difícilmente mantenible. Conocéis otras fórmulas, alguna otra buena práctica?

Estoy seguro que debe haber, no es posible que otros motores utilicen esta técnica. (Otra cosa es que no lo hagan con PHP, a lo que también estoy abierto)

Deja una respuesta