Email Marketing at AutomationMga Tool sa marketing

Paano Mag-crawl ng Isang Malaking Site At Mag-extract ng Data Gamit ang Screaming Frog's SEO Spider

Tinutulungan namin ang ilang kliyente ngayon sa mga paglilipat ng Marketo. Habang ginagamit ng malalaking kumpanya ang mga solusyon sa enterprise tulad nito, para itong spider web na hinahabi ang sarili sa mga proseso at platform sa paglipas ng mga taon hanggang sa hindi na alam ng mga kumpanya ang bawat touchpoint.

Sa isang enterprise marketing automation platform tulad ng Marketo, ang mga form ay ang entry point ng data sa buong site at landing page. Ang mga kumpanya ay madalas na mayroong libu-libong mga pahina at daan-daang mga form sa kanilang mga site na dapat makilala para sa pag-update.

Ang isang mahusay na tool para dito ay Ang Spreaming Frog's SEO Spider… marahil ang pinakasikat na platform sa SEO market para sa pag-crawl, pag-audit, at pagkuha ng data mula sa isang site. Ang platform na mayaman sa tampok ay nag-aalok ng daan-daang mga opsyon para sa halos bawat gawain na kailangan mo. Ang mga tampok ay umaabot nang higit pa sa pag-optimize para sa paghahanap, gayunpaman, na may isang hindi kapani-paniwalang kapaki-pakinabang na tampok para sa pagkuha ng data mula sa iyong site habang ito ay gina-crawl.

Sumisigaw na Frog SEO Spider: Crawl And Extract

Ang isang pangunahing tampok ng Screaming Frog SEO Spider ay maaari kang magsagawa ng mga pasadyang pagkuha ayon sa regex, XPath, O CSSPath mga detalye. Ito ay lubhang kapaki-pakinabang dahil nais naming i-crawl ang mga site ng kliyente at i-audit at makuha ang mga halaga ng MunchkinID at FormId mula sa mga pahina.

Gamit ang tool, buksan Pag-configure> Pasadya> Pagkuha upang makilala ang mga elemento na nais mong kunin.

hiyawan mula sa pasadyang pagkuha

Pinapayagan ng screen ng pagkuha ang halos walang limitasyong koleksyon ng data:

Sumisigaw na Mga Panuntunan sa Pagkuha ng Frog SEO Spider

Ang Exodo ng Regex, XPath, at CSSPath

Para sa MunchkinID, ang identifier ay matatagpuan sa loob ng script ng form na nasa page:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Naglalagay kami pagkatapos ng a Panuntunan ng Regex upang makuha ang id mula sa loob ng script tag na ipinasok sa pahina:

Regex: ["']id["']: *["'](.*?)["']

Para sa Form ID, ang data ay nasa isang input tag sa loob ng form na Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Nag-a-apply kami ng Panuntunan ng XPath upang makuha ang id mula sa loob ng form na ipinasok sa pahina. Ang XPath query ay naghahanap ng isang form na may input na may pangalan ng walang takot, pagkatapos ay ang pagkuha ay nai-save ang halaga:

XPath: //form/input[@name="formid"]/@value

I-extract ang Inline Style Tag

Tinutulungan namin ang isang kliyente na linisin ang isang site kung saan gumamit sila ng mga inline na istilo sa Elementor plugin upang i-customize ang halos bawat elemento gamit ang isang page. Upang matukoy kung saan ginamit ang mga inline na istilo, sinira namin ang site gamit ang ilang panuntunan ng RegEx para sa custom na pagkuha:

  • Span Inline na Estilo:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Inline na Estilo ng Anchor Tag:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Inline na Estilo ng Div Tag:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Inline na Style ng Heading Tag:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"

Mga Pagbubukod

At Martech Zone, inihahatid namin ang site sa maraming wika sa iba't ibang subdomain. Hindi kailangan ang pag-crawl sa mga pagsasaling ito dahil ang lahat ng asset at impormasyon ay nakabatay sa pangunahing site. Dahil dito, pinagana namin ang Configuration ng Ibukod ang Listahan at idinagdag ang sumusunod na panuntunan:

.*\.martech.zone

Magagamit mo rin ito upang laktawan ang pag-crawl sa mga hindi kinakailangang landas tulad ng mga tag sa pamamagitan ng pagdaragdag ng:

martech.zone/tag/.*

Hindi rin namin gustong i-crawl ang aming mga AMP page, na nagtatapos ?amp=1, kaya sa

Configuration > Ibukod seksyon, idinagdag din namin ang:

https?://[^\s]+?\?amp=1

Ang platform ay mayroon ding magandang paraan upang subukan ang ilan Mga URL laban sa mga panuntunan upang matiyak na gumagana nang maayos ang mga ito bago mo i-crawl ang iyong site.

ScreamingFrog > Configuration > Ibukod

Screaming Frog SEO Spider JavaScript Rendering

Ang isa pang magandang opsyon ng Screaming Frog ay hindi ka limitado sa HTML sa pahina, maaari kang mag-render ng anumang JavaScript na maglalagay ng mga form sa loob ng iyong site. Sa loob ng Pag-configure> Spider, maaari kang pumunta sa tab na Rendering at paganahin ito.

Screaming Frog SEO Spider JavaScript Rendering

Medyo magtatagal ito upang mag-crawl sa site, siyempre, ngunit makakakuha ka ng mga form na naibigay na panig ng kliyente ng JavaScript pati na rin ang mga form na ipinasok sa panig ng server.

Habang ito ay isang napaka-tukoy na application, ito ay isang hindi kapani-paniwalang kapaki-pakinabang sa isa habang nagtatrabaho ka sa mga malalaking site. Talagang gugustuhin mong i-audit kung saan naka-embed ang iyong mga form sa buong site.

Mag-download ng Screaming Frog SEO Spider

Pagsisiwalat: Martech Zone ay gumagamit ng mga kaakibat na link nito sa artikulong ito.

Douglas Karr

Douglas Karr ay CMO ng OpenINSIGHTS at ang nagtatag ng Martech Zone. Nakatulong si Douglas sa dose-dosenang matagumpay na mga startup ng MarTech, tumulong sa angkop na pagsusumikap ng higit sa $5 bil sa mga pagkuha at pamumuhunan ng Martech, at patuloy na tinutulungan ang mga kumpanya sa pagpapatupad at pag-automate ng kanilang mga diskarte sa pagbebenta at marketing. Si Douglas ay isang kinikilalang internasyonal na digital na pagbabago at eksperto at tagapagsalita ng MarTech. Si Douglas ay isa ring nai-publish na may-akda ng isang Dummie's guide at isang business leadership book.

Kaugnay na Artikulo

Bumalik sa tuktok na pindutan
Pagsasara

Natukoy ang Adblock

Martech Zone ay kayang ibigay sa iyo ang nilalamang ito nang walang bayad dahil pinagkakakitaan namin ang aming site sa pamamagitan ng kita ng ad, mga link na kaakibat, at mga sponsorship. Ikinalulugod namin kung aalisin mo ang iyong ad blocker habang tinitingnan mo ang aming site.