Xwab
Форумыnavigate_nextПрограммирование на PHP

Грабберы
Сообщения
andre95

Научите писать грабы с откритым 80 портом/вырезать рекламу/вырезать все от одного кода до второго/и так дальше. Пожалуста

05 Апр 2011, 17:23
Патриот:)

Нихерасе , ребята я не в курсе

05 Апр 2011, 17:29
andre95

Всмысле

05 Апр 2011, 17:31
Патриот:)

на твой вопрос в поисковике можно найти +100500 ответов

05 Апр 2011, 17:32
MoD

<?php
///первый делом делаем запрос на страницу которую грабим;
$file=file_get_contents("http://адрес/?".$_SERVER[QUERY_STRING]) ;
///дальше указываем кодировку и делаем html разметку;
$file=str_replace('<?xhtml version="1.0" encoding="utf-8"?>','', $file); $file=str_replace('<!DOCTYPE html PUBLIC "-//WAPFORUM//DTD XHTML Mobile 1.0//EN" "http://www.wapforum.org/DTD/xhtml-mobile10.dtd"> <html xml:lang="en">','', $file);
$file=preg_replace('/<head(.*?)<\/head>/si','',$file);
///Дальше нам остаётся вырезать рекламу. На многих сайтах стоит реклама типа playfon.ru и ей подобным, и чтоб убрать этот мусор пользуемся кодом который ниже, на примере стоит адрес demo.1124.ru;
$file = preg_replace('/<a href="http:\/\/demo.1124.ru\/(.*?)<\/a>/si','',$file);
///Дальше учимся вырезать ссылки, текст, счётчики и т.д..
Код который вы видите ниже, с ним можно вырезать всё.Так-же можна заметить код ссылки, счётчика, банера, текс на свой. Для этова вставляем код/текст на который хотим заменить, вместо текста ЗАМЕНЯЕМ, если вы хотите удалить ссылку/текст, картинку, то оставляем пустой;
$file=str_replace('ВЫРЕЗАТЬ','ЗАМЕНЯЕМ', $file); echo $file;
///Внимание! Если написаный граббер этим способом у вас неработает, то это причина:
1) Айпи сервера накотором расположен ваш сайт заблокирован.
2) Вы где-то что-то сделали не так! ?>

05 Апр 2011, 19:08
Локи

 граббы писать удобнее на Node.JS. Ибо можно разбирать страницу используя jQuery например =) но это я так оффтоплю)

05 Апр 2011, 19:25
Патриот:)

Локи, ты не офтопнул , а кинул понты . А вот я офтопнул ю

05 Апр 2011, 19:41
Okula

Локи пишет:
" граббы писать удобнее на Node.JS. Ибо можно разбирать страницу используя jQuery например =) но это я так оффтоплю)"

Граберы удобнее писать на курле и регулярках и не использовать для них никаких внешних библиотек

05 Апр 2011, 19:51
КрошкаБуги

Граберы на регулярках будут работать очень медленно и создавать критические нагрузки на сервер при онлайне уже в 10 тысяч. Их лутше делать строковыми.Это позволит их пользовать даже при 30

05 Апр 2011, 20:01
JESOD

КрошкаБуги, а что значит строковыми? Поясни пожалуйста.

05 Апр 2011, 20:16
Ответить на тему