В поисках дешевого контента, с которым сайты будут жить долго и счастливо.

Некоторое время назад я начал изыскания, направленные на поиск путей получения дешевого контента, который бы нормально кушал яндекс. И не просто кушал бы, а кушал бы с аппетитом, то есть не банил сайты и не отправлял их под АГС. В настоящий момент имеется несколько идей получения контента.
Идея первая - шаблонизация. О ней я писал в своем посте тут (смотрите ближе к середине статьи). На чистой шаблонизации запущен пока один сайт. После запуска прошел месяц. Поначалу абсолютно все статьи (280 штук) на ура зашли в индекс, но в последний ап было выкинуто около половины.

Идея вторая. Копипаст с уникальными вставками. Идея позаимствована у РуАдверта. Его статья тут. Но у него уникальный текст зашит в шаблон, то есть в рамках сайта он уже не уникальный получается. Я модифицировал эту идею следующим образом: отсебятина (как называет уникальные вставки РуАдверт) для каждой статьи сайта сгенерирована из шаблона. Причем, я реализовал два варианта.
Первый: добавление целого абзаца отсебятины (на 500-1000 символов) в конец статьи.
Второй: добавление по 1-2 предложению (100-200 символов) в каждый абзац исходной статьи.
Как мне кажется, Яндексу второй вариант должен больше понравиться, потому что ворованный текст идет не одним большим массивом, а равномерно разбавлен.
Эта идея проходит проверку на девяти сайтах. К сожалению, я сразу не догадался сделать четкое разделение, на каких сайтах будет первый вариант отсебятины, а на каких второй, поэтому все 9 содержат оба варианта статей. Постараюсь проанализировать, каких статей яндекс больше примет, а каких больше выплюнет. Запустил совсем недавно, поэтому пока не могу никакой статистики привести.

Идея третья. Безумная ))))) Суть в следующем. По нужной тематике делаю парсинг (или вручную копирую) статьи с разных сайтов. Записываю их в один файл и скармливаю этот файл скрипту. Скрипт делит текст на отдельные предложения и на выходе дает статьи по 10-20 предложений, выбранных случайным образом. Получается, что каждое отдельное предложение не уникально, но более крупные куски текста уникальны. По такой технологии сгенерировал 200 статей и раскидал их на 3 сайта. Собираюсь нагенерировать еще около 1000, чтобы на каждый сайт приходилось по 400 штук. На таком количестве можно будет делать более объективные выводы.
Опять же, запущено совсем недавно и выводов пока никаких у меня нет.

В более ранних экспериментах выявить стопроцентный источник контента мне не удалось, зато удалось выявить, какие источники 100% НЕЛЬЗЯ использовать. Таковых два:
1) текст, автоматически переведенный с английского языка. На выходе, сами понимаете, мы получаем бред, в котором не соблюдается морфология русского языка. Сайт с таким контентом попал под АГС буквально через 3-4 апа выдачи.
2) иностранный текст. В эксперименте участвовал фан-сайт музыкальной группы (не русской). На сайте было страниц 10 с нормальными русскими статьями, описывающими членов группы и их творчество, а остальное – страницы с текстами песен. Кроме текста песни на странице содержалась буквально пара русских слов типа «Песня bla-bla с альбома bla-bla». Помимо того, что текст не русский, он еще и сильно неуникальный. Но проблема, на мой взгляд, именно в языке, потому что у меня есть другой сайт, тоже построенный на копипасте английского текста, но там гораздо больше добавлено русского текста. Так вот он живет уже полтора года, в индексе 12к страниц и никаких проблем.

Кстати, сайт, который с бредом, очень надежно продолжал сидеть в гугле. Судя по всему, для гугла важна именно уникальность текста и не важно, что он получен из бредо-генератора, в то время как малейший копипаст гуглом безжалостно выкидывается из индекса.

Буду писать отчеты о ходе экспериментов. Очень хотелось бы узнать мнения по поводу вышеописанного. Возможно, кто-то уже тестил такой контент и имеет может поделиться результатами.

Время - деньги!

вторник, 30 марта 2010 г.