Istio

Вернуться   Istio > Вебмастерская > Программизм

Меню
Сайт
Анализировать текст
Анализировать сайт
FAQ (частые вопросы)
Подробная инструкция
О проекте
Обратная связь
Форум
Ответ
 
LinkBack Опции темы Опции просмотра
Старый 28.04.2009, 19:57   #1 (permalink)
BOSS
 
Аватар для Mendel
 
Регистрация: 20.02.2009
Сообщений: 550
Mendel начинает нравится окружающим
Отправить сообщение для Mendel с помощью ICQ
По умолчанию История написания простого парсера выдачи порносайта

В данной статье я расскажу как можно автоматизировать некоторые действия в интернете. Никаких тем палить не буду.
Никаких сложных инструментов, супер-бупер знаний и тп.
Просто описываю как можно достать нужную инфу на реальном примере. Это не учебник, это скорее "лог" хода мыслей... я специально не убирал тупиковые ветки, чтобы было естественнее.

Контекст:
========
Существует сайт 89.com на котором размещается большое количество коротких видеороликов "эротического" содержания. Ролики можно просматривать по одному с сайта, просматривая рекламу рекомендующую просмотреть весь фильм за денежку.

Задача:
======
Поскольку покупать мы не собираемся у них, а смотреть такие фильмы по одному, переключаясь затруднительно мы хотим автоматически генерировать плейлист роликов который спокойно просматривать в .. ну пусть будет винампе.

Решение:
=======
Открываем сам сайт.
Ручками открываем ролики по одному (меню со скролом слева).
Изучаем структуру URL открывающегося при просмотре ролика.
Простые наблюдения показывают нам что URL прост как тапки http://www.89.com/av/?v=КАТЕГОРИЯ
Где КАТЕГОРИЯ это название категории - один из нескольких десятков вариантов.
Список вариантов можно вытащить из html-кода главной страницы.
Ну что делать - открываем для примера AMATEUR Video Clips - 89.com смотрим ее исходный код.
Опа! первый прикол а сама страница во фрейме.
Поэтому тут мы получаем новый адрес - http://freexxxvideoclip.aebn.net/ind...EBN006403/.cfm
первое что пугает это расширение cfm ... ну пока не будем по этому поводу переживать.
Пока мы анализируем наш новый URL
freexxxvideoclip.aebn.net/index.cfm/fa/ClipViewergraphics/tid/11111/console_id/1/genrestub/ похоже что это "постоянная составляющая".
В данный момент можете поверить мне на слово, но при реальном анализе это необходимо проверить. Проверим на разных категориях и на разных днях...
amateur - это собственно наша категория, думаю нет смысла объяснять.
/color/5/genre_id/1/refid/ - очень похожа на очередную константу...
AEBN006403 - выглядит как переменная зависяшая от дня.
поскольку AEBN это название их сайта где предлагают купить порно, то очевидно что 006403 это наша новая переменная скорее всего связанная с днем за который показывают ролик.
Пробуем поиграться с ссылками и понимаем что мы пошли в тупиковую сторону - это очередная тупая разводка/обманка - ссылки работают одинаково и без этого элемента, не говоря уже о том что увеличение/уменьшение цифр не дают нам увидеть киношку за вчера/завтра
Ну да ничего... так всегда бывает.

Идем далее.
Сохраним нашу "флешку". это можно сделать любой качалкой... просто обычно браузеры не дают просмотреть код незнакомого им типа документа.
открываем файл в текстовом редакторе, и находим в нем обычный html-код, только размазанный по большому куску файла... бегло пролистав его мы находим ссылку на наш видеоклип.
эта ссылка:
mms://winmedia.freeclip.aebn.net/FreeClip_v2/free_amateur_0006-225.wmv
Ну сейчас давайте глянем как это можно было сделать проще:
Делаем то что надо было сделать с самого начала - щелкаем правой кнопкой по самому клипу, и в свойствах видим тот-же адрес
Собственно очевидно что переменной частью будет только amateur_0006-225
с аматором все ясно... а вот что делать с цифрами?
ну с цифрами мы просто пробуем разные категории, и видим что 225 у нас константа... опять обман
Пробуем увеличить цифру с 6 на семь и ... о чудо - мы получаем клип который будет завтра.

В принципе имея всю необходимую аналитическую информацию для того чтобы писать парсер... мы понимаем что писать его нам не надо
мы можем теперь сгенерировать ссылки самостоятельно и без парсера.

Следующий этап это познакомиться с форматом плейлиста... честно говоря устал я уже от писанины:
сохраняем в винампе плейлист, открываем его в редакторе, видим что у нас получилось... и по аналогии делаем свой плейлист.

Ну а тем кто пришел сюда не учиться чему-то а просто ради слова ПОРНО наконец даю готовый пример - плейлист почти на сутки видео качаем xxx.rar
Ну а если вам надо все-таки парсер, раз уж обещал парсер, то ловите и его - adult.rar там все достаточно прозрачно. Но сами понимаете что сама задача обесценилась в результате побочного продукта анализа... и такое бывает.
Вложения
Тип файла: rar adult.rar (887 байт, 24 просмотров)
Тип файла: rar xxx.rar (1.7 Кб, 26 просмотров)
__________________
подпись
Mendel вне форума   Ответить с цитированием
Старый 16.06.2009, 16:19   #2
Турист
 
Регистрация: 01.06.2009
Сообщений: 27
YesMan пока не обладает репутацией
По умолчанию

Интересно написано, но порно, или эротику смотреть не под каким предлогом не буду, не любитель я такого. А за статью респект!
YesMan вне форума   Ответить с цитированием
Старый 16.06.2009, 19:15   #3
Турист
 
Регистрация: 06.06.2009
Сообщений: 5
Coda пока не обладает репутацией
По умолчанию

Эта статья мне напомнила пословицу: хорошим ребятам открываются двери в рай, а плохим - куда угодно.
Coda вне форума   Ответить с цитированием
Старый 20.06.2009, 21:13   #4
Прохожий
 
Регистрация: 20.06.2009
Сообщений: 2
Kateukr пока не обладает репутацией
По умолчанию

Хоть такое смотрю редко, но теперь если придёться, хоть буду знать как. Спасибо!
Kateukr вне форума   Ответить с цитированием
Старый 21.06.2009, 15:50   #5
Турист
 
Аватар для Amenhotep
 
Регистрация: 03.06.2009
Сообщений: 7
Amenhotep пока не обладает репутацией
По умолчанию

Да, здесь не мужской монастырь, там порно (думаю что) в большей чести.
Mendel, спасибо большое, иногда зацепит какой-нибудь ролик, а передрать нельзя. Для меня предоставленная инфа абсолютно новая, многое не понял - но попробую, поэкспериментирую.
__________________
Sik transit tiranosaurus
Amenhotep вне форума   Ответить с цитированием
Ответ

Метки
xxx, парсер, ПОРНО, ролики, статья

Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Trackbacks are Вкл.
Pingbacks are Вкл.
Refbacks are Вкл.


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Ошибка при использовании маркетинга написания SEO статей. Butterfly SEOнизм 2 02.06.2009 23:27


Часовой пояс GMT +4, время: 16:37.