Семалт преглед: Веб стругање за забаву и профит

Можете да гребите по сајту без потребе за АПИ-јем. Иако су власници сајтова агресивни око заустављања брисања, мање се брину за АПИ-је и уместо тога већи нагласак стављају на веб локације. Чињенице да многе локације не штите на адекватан начин аутоматски ствара слободан пут за стругаре. Неколико једноставних решења помоћи ће вам да прикупите податке који су вам потребни.

Почетак рада са стругањем

Стварање захтева разумевање структуре потребних података и њихове доступности. Ово започиње дохваћањем података. Пронађите УРЛ који враћа потребне информације. Прегледајте веб локацију и проверите како се УРЛ адресе мењају током навигације кроз различите одељке.

Алтернативно, претражите неколико термина на веб локацији и проверите како се УРЛ адресе мењају на основу вашег појма за претрагу. Требали бисте видјети параметар ГЕТ попут к = који се мијења кад год тражите нови израз. Задржите параметре ГЕТ потребне за учитавање података и уклоните остале.

Како се носити са пагинацијом

Стринација вам онемогућава приступ свим подацима који су вам потребни истовремено. Када кликнете на страницу 2, УРЛ-у се додаје параметар оффсет =. Ово је или број елемената на страници или број странице. Повећајте овај број на свакој страници података.

За веб локације које користе АЈАКС повуците картицу мреже у Фиребуг-у или Инспектору. Проверите КСХР захтеве, идентификујте и усредсредите се на оне који вуку ваше податке.

Добијање података са маркирања странице

То се постиже коришћењем ЦСС кука. Кликните десним тастером миша на одређени део података. Повуците Фиребуг или Инспектора и зумирајте кроз стабло ДОМ да бисте добили крајњи <див> који омотава један предмет. Једном када имате исправан чвор са ДОМ стабла, погледајте извор странице да бисте били сигурни да су ваши елементи доступни у необрађеном ХТМЛ-у.

Да бисте успешно скенирали локацију, потребна вам је библиотека за анализу ХТМЛ-а која чита у ХТМЛ-у и претвара је у објекат који можете понављати док не добијете оно што вам треба. Ако ваша ХТТП библиотека захтева да поставите неке колачиће или заглавља, прегледајте локацију на вашем веб претраживачу и потражите заглавље које вам шаље прегледач. Ставите их у речник и проследите са захтевом.

Када вам треба пријава за стругање

Ако морате да креирате налог и пријавите се да бисте добили податке које желите, морате имати добру ХТТП библиотеку за обраду пријава. Пријављивање Сцрапер-а излаже вас на сајтове трећих страна.

Ако ограничење брзине ваше веб услуге зависи од ИП адресе, поставите код који ће погодити веб услугу на Јавасцрипт на страни клијента. Затим проследите резултате на ваш сервер од сваког клијента. Чини се да резултати потичу из толиког броја, а ниједан неће премашити ограничење стопе.

Лоше формирана маркација

Неке марке могу бити тешко потврдити. У таквим случајевима, унесите у свој ХТМЛ парсер ради подешавања толеранције на грешке. Алтернативно, третирајте цео ХТМЛ документ као дугачак низ и не раздвајајте низ.

Док на веб-локацији можете скенирати све врсте података, на неким веб локацијама се користи софтвер за заустављање скенирања, а други забрањују веб сцрап . Такве странице могу вас тужити, па чак и затворити због прикупљања података. Дакле, будите паметни у свим својим скенирањима на вебу и учините то сигурно.