Paano Mag-crawl ng Isang Malaking Site At Mag-extract ng Data Gamit ang Screaming Frog's SEO Spider

Screaming Frog SEO Spider
Oras ng Pagbasa: 3 minuto

Tumutulong kami sa maraming kliyente ngayon Mga paglipat ng marketo. Tulad ng malalaking kumpanya na gumagamit ng mga solusyon sa negosyo tulad nito, ito ay tulad ng isang spider web na hinabi ang sarili sa mga proseso at platform sa maraming taon ... hanggang sa puntong hindi alam ng mga kumpanya ang bawat touchpoint.

Sa pamamagitan ng isang platform ng pagmemerkado sa pagmemerkado sa enterprise tulad ng Marketo, ang mga form ay ang entry point ng data sa buong mga site at landing page. Ang mga kumpanya ay madalas na may libu-libong mga pahina at daan-daang mga form sa buong kanilang mga site na kailangang makilala para sa pag-update.

Ang isang mahusay na tool para dito ay Ang Spreaming Frog's SEO Spider... marahil ang pinakatanyag na platform sa merkado para sa pag-crawl, pag-awdit, at pagkuha ng data mula sa isang site. Ang platform ay mayaman sa tampok at nag-aalok ng daan-daang mga pagpipilian para sa halos bawat gawain na kailangan mo.

Sumisigaw na Frog SEO Spider: Crawl And Extract

Ang isang pangunahing tampok ng Screaming Frog SEO Spider ay maaari kang magsagawa ng mga pasadyang pagkuha ayon sa Regex, XPath, O CSSPath mga detalye Napaka kapaki-pakinabang nito dahil nais naming i-crawl ang mga site ng kliyente at i-audit at makuha ang mga halagang MunchkinID at FormId mula sa mga pahina.

Gamit ang tool, buksan Pag-configure> Pasadya> Pagkuha upang makilala ang mga elemento na nais mong kunin.

hiyawan mula sa pasadyang pagkuha

Pinapayagan ng screen ng pagkuha ang halos walang limitasyong koleksyon ng data:

Sumisigaw na Mga Panuntunan sa Pagkuha ng Frog SEO Spider

Ang Exodo ng Regex, XPath, at CSSPath

Para sa MunchkinID, ang identifier ay matatagpuan sa loob ng form script na nasa loob ng pahina:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Naglalagay kami pagkatapos ng a Panuntunan ng Regex upang makuha ang id mula sa loob ng script tag na ipinasok sa pahina:

Regex: ["']id["']: *["'](.*?)["']

Para sa Form ID, ang data ay nasa isang input tag sa loob ng form na Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Nag-a-apply kami ng Panuntunan ng XPath upang makuha ang id mula sa loob ng form na naipasok sa pahina. Ang query sa XPath ay naghahanap ng isang form na may input na may pangalan ng walang takot, pagkatapos ay ang pagkuha ay nai-save ang halaga:

XPath: //form/input[@name="formid"]/@value

Sumisigaw ng Frog SEO Spider Javascript Rendering

Ang isa pang mahusay na pagpipilian ng Screaming Frog ay hindi ka limitado sa HTML sa pahina, maaari kang mag-render ng anumang JavaScript na maglalagay ng mga form sa loob ng iyong site. Sa loob ng Pag-configure> Spider, maaari kang pumunta sa tab na Rendering at paganahin ito.

Sumisigaw ng Frog SEO Spider Javascript Rendering

Medyo magtatagal ito upang mag-crawl sa site, siyempre, ngunit makakakuha ka ng mga form na naibigay na panig ng kliyente ng JavaScript pati na rin ang mga form na ipinasok sa panig ng server.

Habang ito ay isang napaka-tukoy na application, ito ay isang hindi kapani-paniwalang kapaki-pakinabang sa isa habang nagtatrabaho ka sa mga malalaking site. Talagang gugustuhin mong i-audit kung saan naka-embed ang iyong mga form sa buong site.

Mag-download ng Screaming Frog SEO Spider

Ano sa tingin ninyo?

Ang site na ito ay gumagamit ng Akismet upang mabawasan ang spam. Alamin kung paano naproseso ang data ng iyong komento.