Некоторое время назад я начал изыскания, направленные на поиск путей получения дешевого контента, который бы нормально кушал яндекс. И не просто кушал бы, а кушал бы с аппетитом, то есть не банил сайты и не отправлял их под АГС. В настоящий момент имеется несколько идей получения контента.
Идея первая - шаблонизация. О ней я писал в своем посте тут (смотрите ближе к середине статьи). На чистой шаблонизации запущен пока один сайт. После запуска прошел месяц. Поначалу абсолютно все статьи (280 штук) на ура зашли в индекс, но в последний ап было выкинуто около половины.
Идея вторая. Копипаст с уникальными вставками. Идея позаимствована у РуАдверта. Его статья тут. Но у него уникальный текст зашит в шаблон, то есть в рамках сайта он уже не уникальный получается. Я модифицировал эту идею следующим образом: отсебятина (как называет уникальные вставки РуАдверт) для каждой статьи сайта сгенерирована из шаблона. Причем, я реализовал два варианта.
Первый: добавление целого абзаца отсебятины (на 500-1000 символов) в конец статьи.
Второй: добавление по 1-2 предложению (100-200 символов) в каждый абзац исходной статьи.
Как мне кажется, Яндексу второй вариант должен больше понравиться, потому что ворованный текст идет не одним большим массивом, а равномерно разбавлен.
Эта идея проходит проверку на девяти сайтах. К сожалению, я сразу не догадался сделать четкое разделение, на каких сайтах будет первый вариант отсебятины, а на каких второй, поэтому все 9 содержат оба варианта статей. Постараюсь проанализировать, каких статей яндекс больше примет, а каких больше выплюнет. Запустил совсем недавно, поэтому пока не могу никакой статистики привести.
Идея третья. Безумная ))))) Суть в следующем. По нужной тематике делаю парсинг (или вручную копирую) статьи с разных сайтов. Записываю их в один файл и скармливаю этот файл скрипту. Скрипт делит текст на отдельные предложения и на выходе дает статьи по 10-20 предложений, выбранных случайным образом. Получается, что каждое отдельное предложение не уникально, но более крупные куски текста уникальны. По такой технологии сгенерировал 200 статей и раскидал их на 3 сайта. Собираюсь нагенерировать еще около 1000, чтобы на каждый сайт приходилось по 400 штук. На таком количестве можно будет делать более объективные выводы.
Опять же, запущено совсем недавно и выводов пока никаких у меня нет.
В более ранних экспериментах выявить стопроцентный источник контента мне не удалось, зато удалось выявить, какие источники 100% НЕЛЬЗЯ использовать. Таковых два:
1) текст, автоматически переведенный с английского языка. На выходе, сами понимаете, мы получаем бред, в котором не соблюдается морфология русского языка. Сайт с таким контентом попал под АГС буквально через 3-4 апа выдачи.
2) иностранный текст. В эксперименте участвовал фан-сайт музыкальной группы (не русской). На сайте было страниц 10 с нормальными русскими статьями, описывающими членов группы и их творчество, а остальное – страницы с текстами песен. Кроме текста песни на странице содержалась буквально пара русских слов типа «Песня bla-bla с альбома bla-bla». Помимо того, что текст не русский, он еще и сильно неуникальный. Но проблема, на мой взгляд, именно в языке, потому что у меня есть другой сайт, тоже построенный на копипасте английского текста, но там гораздо больше добавлено русского текста. Так вот он живет уже полтора года, в индексе 12к страниц и никаких проблем.
Кстати, сайт, который с бредом, очень надежно продолжал сидеть в гугле. Судя по всему, для гугла важна именно уникальность текста и не важно, что он получен из бредо-генератора, в то время как малейший копипаст гуглом безжалостно выкидывается из индекса.
Буду писать отчеты о ходе экспериментов. Очень хотелось бы узнать мнения по поводу вышеописанного. Возможно, кто-то уже тестил такой контент и имеет может поделиться результатами.
вторник, 30 марта 2010 г.
четверг, 11 марта 2010 г.
Спамеры вездесущи.
Сегодня хочу поднять наболевшую тему спама по форумам, гостевухам и пр.
Недавно один мой сайт попал под АГС, чему я был крайне удивлен, так как сайт был абсолютно белый, контент человеческий, с картинками, в общем, всё как любит яшка. Причиной этого попадалова оказалась гостевуха, в которую спам приходил со страшной скоростью, по 300-500 постов в день. Я осознанно не стал делать капчу, чтобы дать посетителям максимальное удобство. Да уж, теперь это удобство и не нужно никому, потому что большинство юзеров шло с поиска.
Когда писал гостувуху, сделал, чтобы любой html-код в каментах безжалостно пропускался через htmlspecialchars, следовательно исходящих ссылок не появлялось. Почти каждый день я заходил в админку и чистил этот срач. Но яша, судя по всему, успевал скушать спамный контент, и это стало просто делом времени, когда АГС доберется до сайта. И он добрался.
Мораль сей басни очень проста: если у вас на сайте есть формы, то просто необходимо защитить их от автопостинга. Тут два варианта: либо капча, либо разрешение на постинг только для зарегистрированных юзеров. Не рекомендую использовать капчу, которых навалом бесплатных есть. Так как под популярные капчи уже созданы авто-распознавалки. На другой сайт я написал капчу сам, совершенно простую, заняло минут 20, зато она самая надежная, потому что нестандартная. Если у вас не суперпопулярный сайт с десятками тысяч посетителей, то едва ли кто-нибудь будет писать разпознавалку под вашу личную капчу.
Недавно один мой сайт попал под АГС, чему я был крайне удивлен, так как сайт был абсолютно белый, контент человеческий, с картинками, в общем, всё как любит яшка. Причиной этого попадалова оказалась гостевуха, в которую спам приходил со страшной скоростью, по 300-500 постов в день. Я осознанно не стал делать капчу, чтобы дать посетителям максимальное удобство. Да уж, теперь это удобство и не нужно никому, потому что большинство юзеров шло с поиска.
Когда писал гостувуху, сделал, чтобы любой html-код в каментах безжалостно пропускался через htmlspecialchars, следовательно исходящих ссылок не появлялось. Почти каждый день я заходил в админку и чистил этот срач. Но яша, судя по всему, успевал скушать спамный контент, и это стало просто делом времени, когда АГС доберется до сайта. И он добрался.
Мораль сей басни очень проста: если у вас на сайте есть формы, то просто необходимо защитить их от автопостинга. Тут два варианта: либо капча, либо разрешение на постинг только для зарегистрированных юзеров. Не рекомендую использовать капчу, которых навалом бесплатных есть. Так как под популярные капчи уже созданы авто-распознавалки. На другой сайт я написал капчу сам, совершенно простую, заняло минут 20, зато она самая надежная, потому что нестандартная. Если у вас не суперпопулярный сайт с десятками тысяч посетителей, то едва ли кто-нибудь будет писать разпознавалку под вашу личную капчу.
понедельник, 1 марта 2010 г.
Как сайты отправляются в сомнительную базу Sape.
Сегодня добавлял очередной сайтик в сапу. Сайт делался по технологии, описанной в позапрошлом посте, но с виду получился вроде приличный, ухоженный. После модерации смотрю – сайт в сомнительной базе. Думаю, блин, неужели модер вчитывался в тексты и пропалил шаблонный контент. Потом приходит простая мысль – посмотреть в логе веб-сервера, какие страницы просмотрел модератор. Каково же было мое удивление, когда я увидел, что кроме главной страницы он ничего не открывал! Отсюда вывод – нужно, чтобы сайт выглядел красиво :-) Поработаю маленько над всякими красивостями и попробую еще раз добавить. По результатам опыта отпишу, какие вещи помогут склонить модера в мою пользу, а какие нет.
Скажи мне, кто твой друг, и я скажу, кто ты. Отсев неблагонадежных площадок при покупке ссылок.
Написал на досуге робота, который обходит сайты с целью поиска всех исходящих ссылок. Данная тулза очень полезна для оценки сайтов, на которых я покупаю ссылки для продвижения, так как если некий сайт без разбора ссылается на порево и прочих шлюх, то нужно обходить его стороной при размещении своих ссылок. Роботу на вход даю файл со списком подопытных сайтов, он их обходит и заносит в базу данных найденные исходящие ссылки с указанием, на какой именно странице эта ссылка, и не стоит ли она в noindex.
Далее провожу поиск по базе на предмет наличия ссылок, содержащих различные адалт-слова в урле и в анкоре. Таких оказывается далеко не единицы, так что всем, кто закупает ссылки в большом количестве, рекомендую обзавестись аналогичной тулзой.
Пока тестировал робота на одном из своих сайтов, обнаружил очень полезное побочное применение данного скрипта. При просмотре результатов сканирования заметил некоторое количество «левых» ссылок на своем сайте. Причем, индексируемых ссылок!!! При ближайшем рассмотрении выяснил, что ссылки были размещены посторонними лицами, используя дыры в движке сайта. В ближайшее время просканирую остальные сайты, а то вдруг где-то тоже есть дыры, через которые на мои сайты всякая дрянь лезет.
Распространять данный скрипт не буду, качество кода крайне низкое. Писал для себя, поэтому не заморачивался вылизыванием кода и написанием обработки различных ошибок выполнения. Я просто знаю, где какой баг, и избегаю их ))))))))Но хочу рассказать о некоторых подвохах, с которыми пришлось столкнуться.
Поначалу я вылавливал ссылки путем поиска в коде страницы фразы «href=», но это приводило к двум побочным эффектам:
1) данному критерию удовлетворяют теги <style>, так как адреса css-файлов стоят после «href=»
2) отлавливались адреса, не являющиеся ссылками, а просто присутствующие в тексте страниц, но которым предшествует “href=”Чтобы избежать этого, регулярное выражение приобрело следующий вид: preg_match_all("/<a[^>]+href=([^ >#]+)/", $page, $matches); Прошу особо обратить внимание, что между «а» и «href» может, например, быть указан css-класс, поэтому в выражении фигурирует «[^>]+».
Второй подвох. Существует возможность записывать скрипты в виде «href=javascript: …», соответственно, перед дальнейшими действиями нужно проверять, действительно ли найдена ссылка или это текст скрипта.
Третий подвох. Теги ссылок могут содержаться в тексте javascript-ов. Самый распространенный пример – счетчик liveinternet. Поэтому, каждую ссылку нужно проверять, не заключается ли она между тегами <script> и </script>.
Далее провожу поиск по базе на предмет наличия ссылок, содержащих различные адалт-слова в урле и в анкоре. Таких оказывается далеко не единицы, так что всем, кто закупает ссылки в большом количестве, рекомендую обзавестись аналогичной тулзой.
Пока тестировал робота на одном из своих сайтов, обнаружил очень полезное побочное применение данного скрипта. При просмотре результатов сканирования заметил некоторое количество «левых» ссылок на своем сайте. Причем, индексируемых ссылок!!! При ближайшем рассмотрении выяснил, что ссылки были размещены посторонними лицами, используя дыры в движке сайта. В ближайшее время просканирую остальные сайты, а то вдруг где-то тоже есть дыры, через которые на мои сайты всякая дрянь лезет.
Распространять данный скрипт не буду, качество кода крайне низкое. Писал для себя, поэтому не заморачивался вылизыванием кода и написанием обработки различных ошибок выполнения. Я просто знаю, где какой баг, и избегаю их ))))))))Но хочу рассказать о некоторых подвохах, с которыми пришлось столкнуться.
Поначалу я вылавливал ссылки путем поиска в коде страницы фразы «href=», но это приводило к двум побочным эффектам:
1) данному критерию удовлетворяют теги <style>, так как адреса css-файлов стоят после «href=»
2) отлавливались адреса, не являющиеся ссылками, а просто присутствующие в тексте страниц, но которым предшествует “href=”Чтобы избежать этого, регулярное выражение приобрело следующий вид: preg_match_all("/<a[^>]+href=([^ >#]+)/", $page, $matches); Прошу особо обратить внимание, что между «а» и «href» может, например, быть указан css-класс, поэтому в выражении фигурирует «[^>]+».
Второй подвох. Существует возможность записывать скрипты в виде «href=javascript: …», соответственно, перед дальнейшими действиями нужно проверять, действительно ли найдена ссылка или это текст скрипта.
Третий подвох. Теги ссылок могут содержаться в тексте javascript-ов. Самый распространенный пример – счетчик liveinternet. Поэтому, каждую ссылку нужно проверять, не заключается ли она между тегами <script> и </script>.
Подписаться на:
Сообщения (Atom)