Articles of goutte

Formulario de inicio de sesión y envío con web-crawler

Entonces, en el rastreador web paso y envío datos como este $client = new Client(); $crawler = $client->request(‘GET’, ‘link’); $form = $crawler->filter(‘.default’)->form(); $crawler = $client->submit($form, array( ‘login’=>’ud’, ‘password’=>’pw’ )); Pero si uso var_dump($crawler); Me doy cuenta de que nunca obtengo datos del sitio web después de iniciar sesión porque me redirige y var_dump toma los […]

¿Cómo ejecutar PHPUnit desde un script PHP?

Estoy creando una aplicación de prueba personalizada usando PHPUnit y Goutte. Me gustaría cargar la biblioteca de Goutte (más los archivos necesarios para las pruebas) dentro de mi propio archivo de arranque y luego iniciar el corredor de prueba de PHPUnit una vez que todo esté bootstrap. No estoy seguro de cómo hacer esto sin […]

Envío de múltiples solicitudes de Goutte de forma asíncrona

Este es el código que estoy usando require_once ‘goutte.phar’; use Goutte\Client; $client = new Client(); for($i=0;$irequest(‘GET’, ‘http://website.com’); echo ”.$crawler->filterXpath(‘//meta[@property=”og:description”]’)->attr(‘content’).”; echo ”.$crawler->filter(‘title’)->text().”; } Esto funciona, pero lleva mucho tiempo procesar? ¿Hay alguna forma de hacerlo más rápido?

Configuración de los parámetros de CURL para fabpot / goutte Client

Estoy trabajando en una red crowler utilizando goutte (fabpot / goutte). Cuando trato de conectarme a un sitio https, arroja un error porque el sitio usa un certificado autofirmado. Estoy tratando de encontrar la manera de establecer los parámetros de curl para ignorar el hecho de que el certificado SSL está autofirmado. Siguiendo las instrucciones […]

¿Puede Goutte / Guzzle ser forzado al modo UTF-8?

Estoy arrastrando desde un sitio UTF-8, usando Goutte , que internamente usa Guzzle. El sitio declara una metaetiqueta de UTF-8, por lo tanto: Sin embargo, el encabezado del tipo de contenido es así: Content-Type: text/html y no: Content-Type: text/html; charset=utf-8 Por lo tanto, cuando raspo, Goutte no detecta que es UTF-8 y toma datos incorrectamente. […]

¿Cómo puedo raspar el contenido del sitio web en PHP desde un sitio web que requiere un inicio de sesión de cookies?

Mi problema es que no solo requiere una cookie básica, sino que solicita una cookie de sesión y una ID generada aleatoriamente. Creo que esto significa que necesito usar un emulador de navegador web con un contenedor de cookies. Intenté usar Snoopy, Goutte y un par de emuladores de otros navegadores web, pero aún no […]