Продолжаю обещанный рассказ про прихост. Мои смутные подозрения всё-таки оправдались и у этого хостера оказалось не всё слава богу.
Проблема первая. Постоянно отваливается соедиение с сервером mysql. Лечится просто. Перед вызовом mysql_query нужно вызывать mysql_ping($connect), где $connect – идентификатор подключения, полученный из функции mysql_connect. Вроде, лечение простое, но так ведь не должно быть.
Проблема вторая. Если запустить тяжелый скрипт, то сервер после 10-15 секунд торможения выдает сообщение «сервер временно недоступен». В моем случае достаточно было подсунуть скрипт, в котором обрабатывалось около 50кб текста с многочисленными вызовали строковых функций (которые, как известно, одни из самых ресурсоемких). Это вообще жесть. Такого я еще не видел. Обычно в таких случаях скрипты либо завершаются по истечении max_execution_time, либо работают до конца, пусть и долго. Выход из ситуации нашелся в оптимизации самого скрипта, но это вообще не решение проблемы. Если нужно выполнять тяжелые скрипты, то этот хостинг не для Вас, однозначно.
Проблема третья. Если в скрипте создавать файлы с помощью fopen или file_put_contents, то создаются они от имени апача с правами доступа 644. В итоге, после создания файлов я не могу их редактировать иначе чем от имени апача. Приходится после каждого создания файлов ставить shell_exec (“chmod 0666 file_name”). Либо сначала создавать файл через панель, а потом только писать в него скриптом. И то, и другое – очень кривой костыль. Техподдержка честно ответила, что ничего поделать не может, и рекомендовала и дальше пользоваться моим костылем.
Были еще мелкие вопорсы, но они положительно решились после обращения в поддержку.
Хочу сделать следующий вывод:
За такие деньги – это нормальный хостинг :-) Для сателлитов под сапу – самое оно. Лекгие сайты с нулевой посещаемостью будут пахать спокойно.
С аптаймом проблем пока не было, но и прошло всего три дня. Надо посмотреть подольше.
Это всё касается технической стороны данного хостинга. Продолжаю тестинг сеошной стороны. После апов выдачи буду писать, как дела.
среда, 28 апреля 2010 г.
вторник, 27 апреля 2010 г.
Старших действительно уважают.
За последние несколько дней добавил в сапу несколько сайтов. Все сделаны «под копирку» - дизайн один (с мелкими изменениям), контент брался из одного источника (не копипаст, но качество одинаково паршивое).
Добавил сначала один сайт. Засунули в основную базу. Думаю, как хорошо, такое посредственное Г пошло в основную базу. Добавляю второй – идет в сомнительную. Я уже писал о том, что основным критерием определения базы является красота внешнего вида сайта. Захожу в гимп, рисую красивенькие конопочки, логотипчик, фон. Играю с цветами и шрифтами. Получаю вполне неплохой внешний вид. Удаляю из сапы сайт, добавляю обратно, - опять в сомнительную. Блин, думаю, у модера настроение плохое. Удаляю сайт, добавляю на следующий день в надежде, что либо будет другой модер, либо у того же модера настроение поднимется. Ни фига! Опять в сомнительную. Ладно, плюнул на это дело, выставил цены пониже, чтобы спрос какой-то был, и так и оставил.
Добавляю третий сайт опять с паршивым дизайном, как у первого. Идет в основную базу. Чудеса! Тут до меня начинает доходить, в чем же различие между этими сайтами. А различие в возрасте доменов! В основную базу пошли сайты на доменах старше года, а молоденькие стройными рядами пошли в сомнительную. Остается вопрос – какой возраст является той гранью, до которой сайты будут пихать в сомнительную базу. У меня есть один домен примерно пятимесячный, надо на нем проверить.
Мораль сей басни такова: выгоднее купить домен с возрастом за 300-500 рублей, и сразу рубить с него бабло, чем регить новый за доллар и ждать еще полгода-год, пока доход поднимется до нормальных величин.
А точнее даже так: под текущие планируемые проекты брать возрастные домены, и параллельно регистрировать домены впрок, чтобы задействовать их позже. Впоследствии, покупать домены на стороне не придется вовсе, так как будет запас своих доменов, выдержанных нужное время.
-------
Кстати, за 2 дня тестирования хостинга "прихост" у меня накопилась масса впечатлений. В ближайшее время обязательно отпишу.
Добавил сначала один сайт. Засунули в основную базу. Думаю, как хорошо, такое посредственное Г пошло в основную базу. Добавляю второй – идет в сомнительную. Я уже писал о том, что основным критерием определения базы является красота внешнего вида сайта. Захожу в гимп, рисую красивенькие конопочки, логотипчик, фон. Играю с цветами и шрифтами. Получаю вполне неплохой внешний вид. Удаляю из сапы сайт, добавляю обратно, - опять в сомнительную. Блин, думаю, у модера настроение плохое. Удаляю сайт, добавляю на следующий день в надежде, что либо будет другой модер, либо у того же модера настроение поднимется. Ни фига! Опять в сомнительную. Ладно, плюнул на это дело, выставил цены пониже, чтобы спрос какой-то был, и так и оставил.
Добавляю третий сайт опять с паршивым дизайном, как у первого. Идет в основную базу. Чудеса! Тут до меня начинает доходить, в чем же различие между этими сайтами. А различие в возрасте доменов! В основную базу пошли сайты на доменах старше года, а молоденькие стройными рядами пошли в сомнительную. Остается вопрос – какой возраст является той гранью, до которой сайты будут пихать в сомнительную базу. У меня есть один домен примерно пятимесячный, надо на нем проверить.
Мораль сей басни такова: выгоднее купить домен с возрастом за 300-500 рублей, и сразу рубить с него бабло, чем регить новый за доллар и ждать еще полгода-год, пока доход поднимется до нормальных величин.
А точнее даже так: под текущие планируемые проекты брать возрастные домены, и параллельно регистрировать домены впрок, чтобы задействовать их позже. Впоследствии, покупать домены на стороне не придется вовсе, так как будет запас своих доменов, выдержанных нужное время.
-------
Кстати, за 2 дня тестирования хостинга "прихост" у меня накопилась масса впечатлений. В ближайшее время обязательно отпишу.
пятница, 23 апреля 2010 г.
Кто ж не любит халяву.
Некоторое время назад в шапке известного всем сапорейтинга начала крутиться рекламная ссылка на хостинг prihost.ru. В титле стартовой страницы красуется надпись «Самый доступный хостинг». Смотрим тарифы – действительно доступный. Дешевле я еще не встречал. За 1-2 доллара в месяц можно хостить 10-25 сайтов и иметь все блага цивилизации, такие, как, php, mysql, cron, почтовый сервер, phpmyadmin, и 1-2 ГБ диска.
Я не долго мучился соблазном и всё таки решил попробовать данного хостера. В конце концов, мне это обойдется всего 60 рублей в месяц! Если всё будет ок, то будет очень дешево хостить там сетки сателлитов.
По каким критериям я буду оценивать качество хостинга:
1) должен быть нормальный аптайм, так как это критично для индексации сайтов поисковиками, а также роботом сапы
2) поддержка должна отвечать в разумные сроки. Я не питаю иллюзий насчет круглосуточной поддержки, которая будет сиюминутно отвечать, но ответ в течение 3-5 часов очень желателен. В худшем случае – сутки, но это совсем как крайний случай.
3) и самое главное, что интересует меня как сеошника, - как будет вести себя Яндекс по отношению к сайтам на этом хостинге. Давно известно, что от «репутации» хостинга зависит скорость индексации сайтов и подверженность их АГСу. Ясное дело, что на этом хостинге еще нет крупных трастовых сайтов, а низкие цены, напротив, привлекают огромное количество строителей говносайтов.
Вторая халява, о которой хотел бы упомянуть, - это домены info по 97 центов от godaddy.com. Как их регистрировать, очень подробно описано тут - moneyseo.info/?p=466. Сейчас интерфейс немного отличается от того, который описан в статье, но незначительно, и затруднений возникнуть не должно. Такая низкая цена доступна при регистрации домена на первый год. Продление обойдется не менее восьми долларов, что значительно дороже, чем цена, по которой я сейчас регистрирую домены ru (110 руб).
Но я ведь буду делать сайты под сапу, а посему они будут под повышенным риском попасть под АГС. У сателлита будет больше шансов успеть окупить домен за доллар, чем за 4 доллара. Да и не все сателлиты до сапы доходят. В целях изготовить инструмент массового создания сайтов, я ставлю разные эксперименты, для которых как раз нужны домены подешевле.
Ну а если часть сайтов успешно проживет год, то доход от них будет несравнимо больше, чем 8 баксов за продление домена, и продление будет не обременительно.
В общем, через недельки две-три отпишусь о своих впечатлениях от «Самого доступного хостинга».
Я не долго мучился соблазном и всё таки решил попробовать данного хостера. В конце концов, мне это обойдется всего 60 рублей в месяц! Если всё будет ок, то будет очень дешево хостить там сетки сателлитов.
По каким критериям я буду оценивать качество хостинга:
1) должен быть нормальный аптайм, так как это критично для индексации сайтов поисковиками, а также роботом сапы
2) поддержка должна отвечать в разумные сроки. Я не питаю иллюзий насчет круглосуточной поддержки, которая будет сиюминутно отвечать, но ответ в течение 3-5 часов очень желателен. В худшем случае – сутки, но это совсем как крайний случай.
3) и самое главное, что интересует меня как сеошника, - как будет вести себя Яндекс по отношению к сайтам на этом хостинге. Давно известно, что от «репутации» хостинга зависит скорость индексации сайтов и подверженность их АГСу. Ясное дело, что на этом хостинге еще нет крупных трастовых сайтов, а низкие цены, напротив, привлекают огромное количество строителей говносайтов.
Вторая халява, о которой хотел бы упомянуть, - это домены info по 97 центов от godaddy.com. Как их регистрировать, очень подробно описано тут - moneyseo.info/?p=466. Сейчас интерфейс немного отличается от того, который описан в статье, но незначительно, и затруднений возникнуть не должно. Такая низкая цена доступна при регистрации домена на первый год. Продление обойдется не менее восьми долларов, что значительно дороже, чем цена, по которой я сейчас регистрирую домены ru (110 руб).
Но я ведь буду делать сайты под сапу, а посему они будут под повышенным риском попасть под АГС. У сателлита будет больше шансов успеть окупить домен за доллар, чем за 4 доллара. Да и не все сателлиты до сапы доходят. В целях изготовить инструмент массового создания сайтов, я ставлю разные эксперименты, для которых как раз нужны домены подешевле.
Ну а если часть сайтов успешно проживет год, то доход от них будет несравнимо больше, чем 8 баксов за продление домена, и продление будет не обременительно.
В общем, через недельки две-три отпишусь о своих впечатлениях от «Самого доступного хостинга».
четверг, 1 апреля 2010 г.
Еще один вид контента, который особо подвержен АГСу.
Итак, под АГС угодил сайт, львиная доля которого состояла из синонимайза. Синонимайз был качественный, с соблюдением морфологии. Напрашиваются два варианта возможных причин вылета:
1) Недостаточная уникальность. Вполне понятно, что синонимизированный текст на 2/3, а то и на 3/4 идентичен исходному.
2) Нарушение стиля русского языка. Несмотря на формальное соответствие в тексте падежей, родов и т.п., словосочетания получаются неестественные. Любой текст, даже самый уникальный, состоит из принятых в языке словосочетаний. Имея большую базу нормальных русских текстов, Яндекс может анализировать естественность словосочетаний, а по этому критерию синонимайз не пройдет. Раньше синонимайз более-менее держался.
К настоящему моменту у меня сложилось следующее видение причин АГС. Естественность текста – это главная причина. Любой нечеловеческий текст моментально распознается и карается АГСом. Уникальность текста в рамках сайта важнее, чем уникальность в рамках интернета, то есть лучше копипастить с других сайтов, чем иметь дубли на сайте (путь даже текст больше не встречается на других сайтах). Молодые домены больше подвержены АСГу. Есть два сайта, запущенных два года назад, контент - копипаст с разбавками. Оба держатся стабильно, а один еще и ссылками барыжит по-черному. В то же время все сайты, которые страдали от АГС, были зарегистрированы за последние полгода. Особенно сильно страдали зарегенные 1-2 месяца назад.
В связи с этим определенные надежды я возлагаю на 3 вещи:
1) перемешанный копипаст (см. вчерашний пост там где «Идея третья. Безумная»)
2) разбавленный копипаст (всё тот же пост, идея вторая)
3) закупка ссылок на все страницы сайта
По третьему пункту хочу порассуждать более подробно. В своем первом посте я писал о закупке страниц только на морду, чтобы можно было сменить адреса страниц с целью выйти испод АГС. Так вот, этот метод больше не работает. С полгода назад еще можно было отделаться сменой адресов, сейчас никак. В свою очередь, некоторые оптимизаторы пишут, что закупка ссылок на разные страницы может помочь избежать АГСа и даже выйти испод него. В ближайшее время перенастрою рекламные кампании в сапе, чтобы закупка шла на все страницы.
Ну и буду регить много доменов впрок, чтобы к моменту размещения сайтов у них был возраст побольше.
В пользу надежности копипаста говорит один простой факт: наличие в индексе у Яши большого количества копипаста. При поиске чего-либо в интернете часто можно видеть в выдаче кучу идентичных текстов. В общем, копипаст не плох сам по себе. Главное – уметь его готовить, чтобы вкусно было.
Шаблонный текст, я думаю, еще лучше должен держаться в индексе, но уж очень дорогой ценой такой контент обходится. На написание хорошего шаблона, из которого 50-100 более-менее уникальных статей можно сгенерировать, у меня уходит два часа. Изготовление тысячестраничного сайта таким методом займет около 30 часов чистого времени. Либо можно заказать шаблонизацию текста. Один такой шаблон обойдется в 200 рублей. В итоге 1000 страниц будет стоить 3000 руб. Дорогая цена для нулевика, который еще не факт, что выживет.
1) Недостаточная уникальность. Вполне понятно, что синонимизированный текст на 2/3, а то и на 3/4 идентичен исходному.
2) Нарушение стиля русского языка. Несмотря на формальное соответствие в тексте падежей, родов и т.п., словосочетания получаются неестественные. Любой текст, даже самый уникальный, состоит из принятых в языке словосочетаний. Имея большую базу нормальных русских текстов, Яндекс может анализировать естественность словосочетаний, а по этому критерию синонимайз не пройдет. Раньше синонимайз более-менее держался.
К настоящему моменту у меня сложилось следующее видение причин АГС. Естественность текста – это главная причина. Любой нечеловеческий текст моментально распознается и карается АГСом. Уникальность текста в рамках сайта важнее, чем уникальность в рамках интернета, то есть лучше копипастить с других сайтов, чем иметь дубли на сайте (путь даже текст больше не встречается на других сайтах). Молодые домены больше подвержены АСГу. Есть два сайта, запущенных два года назад, контент - копипаст с разбавками. Оба держатся стабильно, а один еще и ссылками барыжит по-черному. В то же время все сайты, которые страдали от АГС, были зарегистрированы за последние полгода. Особенно сильно страдали зарегенные 1-2 месяца назад.
В связи с этим определенные надежды я возлагаю на 3 вещи:
1) перемешанный копипаст (см. вчерашний пост там где «Идея третья. Безумная»)
2) разбавленный копипаст (всё тот же пост, идея вторая)
3) закупка ссылок на все страницы сайта
По третьему пункту хочу порассуждать более подробно. В своем первом посте я писал о закупке страниц только на морду, чтобы можно было сменить адреса страниц с целью выйти испод АГС. Так вот, этот метод больше не работает. С полгода назад еще можно было отделаться сменой адресов, сейчас никак. В свою очередь, некоторые оптимизаторы пишут, что закупка ссылок на разные страницы может помочь избежать АГСа и даже выйти испод него. В ближайшее время перенастрою рекламные кампании в сапе, чтобы закупка шла на все страницы.
Ну и буду регить много доменов впрок, чтобы к моменту размещения сайтов у них был возраст побольше.
В пользу надежности копипаста говорит один простой факт: наличие в индексе у Яши большого количества копипаста. При поиске чего-либо в интернете часто можно видеть в выдаче кучу идентичных текстов. В общем, копипаст не плох сам по себе. Главное – уметь его готовить, чтобы вкусно было.
Шаблонный текст, я думаю, еще лучше должен держаться в индексе, но уж очень дорогой ценой такой контент обходится. На написание хорошего шаблона, из которого 50-100 более-менее уникальных статей можно сгенерировать, у меня уходит два часа. Изготовление тысячестраничного сайта таким методом займет около 30 часов чистого времени. Либо можно заказать шаблонизацию текста. Один такой шаблон обойдется в 200 рублей. В итоге 1000 страниц будет стоить 3000 руб. Дорогая цена для нулевика, который еще не факт, что выживет.
вторник, 30 марта 2010 г.
В поисках дешевого контента, с которым сайты будут жить долго и счастливо.
Некоторое время назад я начал изыскания, направленные на поиск путей получения дешевого контента, который бы нормально кушал яндекс. И не просто кушал бы, а кушал бы с аппетитом, то есть не банил сайты и не отправлял их под АГС. В настоящий момент имеется несколько идей получения контента.
Идея первая - шаблонизация. О ней я писал в своем посте тут (смотрите ближе к середине статьи). На чистой шаблонизации запущен пока один сайт. После запуска прошел месяц. Поначалу абсолютно все статьи (280 штук) на ура зашли в индекс, но в последний ап было выкинуто около половины.
Идея вторая. Копипаст с уникальными вставками. Идея позаимствована у РуАдверта. Его статья тут. Но у него уникальный текст зашит в шаблон, то есть в рамках сайта он уже не уникальный получается. Я модифицировал эту идею следующим образом: отсебятина (как называет уникальные вставки РуАдверт) для каждой статьи сайта сгенерирована из шаблона. Причем, я реализовал два варианта.
Первый: добавление целого абзаца отсебятины (на 500-1000 символов) в конец статьи.
Второй: добавление по 1-2 предложению (100-200 символов) в каждый абзац исходной статьи.
Как мне кажется, Яндексу второй вариант должен больше понравиться, потому что ворованный текст идет не одним большим массивом, а равномерно разбавлен.
Эта идея проходит проверку на девяти сайтах. К сожалению, я сразу не догадался сделать четкое разделение, на каких сайтах будет первый вариант отсебятины, а на каких второй, поэтому все 9 содержат оба варианта статей. Постараюсь проанализировать, каких статей яндекс больше примет, а каких больше выплюнет. Запустил совсем недавно, поэтому пока не могу никакой статистики привести.
Идея третья. Безумная ))))) Суть в следующем. По нужной тематике делаю парсинг (или вручную копирую) статьи с разных сайтов. Записываю их в один файл и скармливаю этот файл скрипту. Скрипт делит текст на отдельные предложения и на выходе дает статьи по 10-20 предложений, выбранных случайным образом. Получается, что каждое отдельное предложение не уникально, но более крупные куски текста уникальны. По такой технологии сгенерировал 200 статей и раскидал их на 3 сайта. Собираюсь нагенерировать еще около 1000, чтобы на каждый сайт приходилось по 400 штук. На таком количестве можно будет делать более объективные выводы.
Опять же, запущено совсем недавно и выводов пока никаких у меня нет.
В более ранних экспериментах выявить стопроцентный источник контента мне не удалось, зато удалось выявить, какие источники 100% НЕЛЬЗЯ использовать. Таковых два:
1) текст, автоматически переведенный с английского языка. На выходе, сами понимаете, мы получаем бред, в котором не соблюдается морфология русского языка. Сайт с таким контентом попал под АГС буквально через 3-4 апа выдачи.
2) иностранный текст. В эксперименте участвовал фан-сайт музыкальной группы (не русской). На сайте было страниц 10 с нормальными русскими статьями, описывающими членов группы и их творчество, а остальное – страницы с текстами песен. Кроме текста песни на странице содержалась буквально пара русских слов типа «Песня bla-bla с альбома bla-bla». Помимо того, что текст не русский, он еще и сильно неуникальный. Но проблема, на мой взгляд, именно в языке, потому что у меня есть другой сайт, тоже построенный на копипасте английского текста, но там гораздо больше добавлено русского текста. Так вот он живет уже полтора года, в индексе 12к страниц и никаких проблем.
Кстати, сайт, который с бредом, очень надежно продолжал сидеть в гугле. Судя по всему, для гугла важна именно уникальность текста и не важно, что он получен из бредо-генератора, в то время как малейший копипаст гуглом безжалостно выкидывается из индекса.
Буду писать отчеты о ходе экспериментов. Очень хотелось бы узнать мнения по поводу вышеописанного. Возможно, кто-то уже тестил такой контент и имеет может поделиться результатами.
Идея первая - шаблонизация. О ней я писал в своем посте тут (смотрите ближе к середине статьи). На чистой шаблонизации запущен пока один сайт. После запуска прошел месяц. Поначалу абсолютно все статьи (280 штук) на ура зашли в индекс, но в последний ап было выкинуто около половины.
Идея вторая. Копипаст с уникальными вставками. Идея позаимствована у РуАдверта. Его статья тут. Но у него уникальный текст зашит в шаблон, то есть в рамках сайта он уже не уникальный получается. Я модифицировал эту идею следующим образом: отсебятина (как называет уникальные вставки РуАдверт) для каждой статьи сайта сгенерирована из шаблона. Причем, я реализовал два варианта.
Первый: добавление целого абзаца отсебятины (на 500-1000 символов) в конец статьи.
Второй: добавление по 1-2 предложению (100-200 символов) в каждый абзац исходной статьи.
Как мне кажется, Яндексу второй вариант должен больше понравиться, потому что ворованный текст идет не одним большим массивом, а равномерно разбавлен.
Эта идея проходит проверку на девяти сайтах. К сожалению, я сразу не догадался сделать четкое разделение, на каких сайтах будет первый вариант отсебятины, а на каких второй, поэтому все 9 содержат оба варианта статей. Постараюсь проанализировать, каких статей яндекс больше примет, а каких больше выплюнет. Запустил совсем недавно, поэтому пока не могу никакой статистики привести.
Идея третья. Безумная ))))) Суть в следующем. По нужной тематике делаю парсинг (или вручную копирую) статьи с разных сайтов. Записываю их в один файл и скармливаю этот файл скрипту. Скрипт делит текст на отдельные предложения и на выходе дает статьи по 10-20 предложений, выбранных случайным образом. Получается, что каждое отдельное предложение не уникально, но более крупные куски текста уникальны. По такой технологии сгенерировал 200 статей и раскидал их на 3 сайта. Собираюсь нагенерировать еще около 1000, чтобы на каждый сайт приходилось по 400 штук. На таком количестве можно будет делать более объективные выводы.
Опять же, запущено совсем недавно и выводов пока никаких у меня нет.
В более ранних экспериментах выявить стопроцентный источник контента мне не удалось, зато удалось выявить, какие источники 100% НЕЛЬЗЯ использовать. Таковых два:
1) текст, автоматически переведенный с английского языка. На выходе, сами понимаете, мы получаем бред, в котором не соблюдается морфология русского языка. Сайт с таким контентом попал под АГС буквально через 3-4 апа выдачи.
2) иностранный текст. В эксперименте участвовал фан-сайт музыкальной группы (не русской). На сайте было страниц 10 с нормальными русскими статьями, описывающими членов группы и их творчество, а остальное – страницы с текстами песен. Кроме текста песни на странице содержалась буквально пара русских слов типа «Песня bla-bla с альбома bla-bla». Помимо того, что текст не русский, он еще и сильно неуникальный. Но проблема, на мой взгляд, именно в языке, потому что у меня есть другой сайт, тоже построенный на копипасте английского текста, но там гораздо больше добавлено русского текста. Так вот он живет уже полтора года, в индексе 12к страниц и никаких проблем.
Кстати, сайт, который с бредом, очень надежно продолжал сидеть в гугле. Судя по всему, для гугла важна именно уникальность текста и не важно, что он получен из бредо-генератора, в то время как малейший копипаст гуглом безжалостно выкидывается из индекса.
Буду писать отчеты о ходе экспериментов. Очень хотелось бы узнать мнения по поводу вышеописанного. Возможно, кто-то уже тестил такой контент и имеет может поделиться результатами.
четверг, 11 марта 2010 г.
Спамеры вездесущи.
Сегодня хочу поднять наболевшую тему спама по форумам, гостевухам и пр.
Недавно один мой сайт попал под АГС, чему я был крайне удивлен, так как сайт был абсолютно белый, контент человеческий, с картинками, в общем, всё как любит яшка. Причиной этого попадалова оказалась гостевуха, в которую спам приходил со страшной скоростью, по 300-500 постов в день. Я осознанно не стал делать капчу, чтобы дать посетителям максимальное удобство. Да уж, теперь это удобство и не нужно никому, потому что большинство юзеров шло с поиска.
Когда писал гостувуху, сделал, чтобы любой html-код в каментах безжалостно пропускался через htmlspecialchars, следовательно исходящих ссылок не появлялось. Почти каждый день я заходил в админку и чистил этот срач. Но яша, судя по всему, успевал скушать спамный контент, и это стало просто делом времени, когда АГС доберется до сайта. И он добрался.
Мораль сей басни очень проста: если у вас на сайте есть формы, то просто необходимо защитить их от автопостинга. Тут два варианта: либо капча, либо разрешение на постинг только для зарегистрированных юзеров. Не рекомендую использовать капчу, которых навалом бесплатных есть. Так как под популярные капчи уже созданы авто-распознавалки. На другой сайт я написал капчу сам, совершенно простую, заняло минут 20, зато она самая надежная, потому что нестандартная. Если у вас не суперпопулярный сайт с десятками тысяч посетителей, то едва ли кто-нибудь будет писать разпознавалку под вашу личную капчу.
Недавно один мой сайт попал под АГС, чему я был крайне удивлен, так как сайт был абсолютно белый, контент человеческий, с картинками, в общем, всё как любит яшка. Причиной этого попадалова оказалась гостевуха, в которую спам приходил со страшной скоростью, по 300-500 постов в день. Я осознанно не стал делать капчу, чтобы дать посетителям максимальное удобство. Да уж, теперь это удобство и не нужно никому, потому что большинство юзеров шло с поиска.
Когда писал гостувуху, сделал, чтобы любой html-код в каментах безжалостно пропускался через htmlspecialchars, следовательно исходящих ссылок не появлялось. Почти каждый день я заходил в админку и чистил этот срач. Но яша, судя по всему, успевал скушать спамный контент, и это стало просто делом времени, когда АГС доберется до сайта. И он добрался.
Мораль сей басни очень проста: если у вас на сайте есть формы, то просто необходимо защитить их от автопостинга. Тут два варианта: либо капча, либо разрешение на постинг только для зарегистрированных юзеров. Не рекомендую использовать капчу, которых навалом бесплатных есть. Так как под популярные капчи уже созданы авто-распознавалки. На другой сайт я написал капчу сам, совершенно простую, заняло минут 20, зато она самая надежная, потому что нестандартная. Если у вас не суперпопулярный сайт с десятками тысяч посетителей, то едва ли кто-нибудь будет писать разпознавалку под вашу личную капчу.
понедельник, 1 марта 2010 г.
Как сайты отправляются в сомнительную базу Sape.
Сегодня добавлял очередной сайтик в сапу. Сайт делался по технологии, описанной в позапрошлом посте, но с виду получился вроде приличный, ухоженный. После модерации смотрю – сайт в сомнительной базе. Думаю, блин, неужели модер вчитывался в тексты и пропалил шаблонный контент. Потом приходит простая мысль – посмотреть в логе веб-сервера, какие страницы просмотрел модератор. Каково же было мое удивление, когда я увидел, что кроме главной страницы он ничего не открывал! Отсюда вывод – нужно, чтобы сайт выглядел красиво :-) Поработаю маленько над всякими красивостями и попробую еще раз добавить. По результатам опыта отпишу, какие вещи помогут склонить модера в мою пользу, а какие нет.
Скажи мне, кто твой друг, и я скажу, кто ты. Отсев неблагонадежных площадок при покупке ссылок.
Написал на досуге робота, который обходит сайты с целью поиска всех исходящих ссылок. Данная тулза очень полезна для оценки сайтов, на которых я покупаю ссылки для продвижения, так как если некий сайт без разбора ссылается на порево и прочих шлюх, то нужно обходить его стороной при размещении своих ссылок. Роботу на вход даю файл со списком подопытных сайтов, он их обходит и заносит в базу данных найденные исходящие ссылки с указанием, на какой именно странице эта ссылка, и не стоит ли она в noindex.
Далее провожу поиск по базе на предмет наличия ссылок, содержащих различные адалт-слова в урле и в анкоре. Таких оказывается далеко не единицы, так что всем, кто закупает ссылки в большом количестве, рекомендую обзавестись аналогичной тулзой.
Пока тестировал робота на одном из своих сайтов, обнаружил очень полезное побочное применение данного скрипта. При просмотре результатов сканирования заметил некоторое количество «левых» ссылок на своем сайте. Причем, индексируемых ссылок!!! При ближайшем рассмотрении выяснил, что ссылки были размещены посторонними лицами, используя дыры в движке сайта. В ближайшее время просканирую остальные сайты, а то вдруг где-то тоже есть дыры, через которые на мои сайты всякая дрянь лезет.
Распространять данный скрипт не буду, качество кода крайне низкое. Писал для себя, поэтому не заморачивался вылизыванием кода и написанием обработки различных ошибок выполнения. Я просто знаю, где какой баг, и избегаю их ))))))))Но хочу рассказать о некоторых подвохах, с которыми пришлось столкнуться.
Поначалу я вылавливал ссылки путем поиска в коде страницы фразы «href=», но это приводило к двум побочным эффектам:
1) данному критерию удовлетворяют теги <style>, так как адреса css-файлов стоят после «href=»
2) отлавливались адреса, не являющиеся ссылками, а просто присутствующие в тексте страниц, но которым предшествует “href=”Чтобы избежать этого, регулярное выражение приобрело следующий вид: preg_match_all("/<a[^>]+href=([^ >#]+)/", $page, $matches); Прошу особо обратить внимание, что между «а» и «href» может, например, быть указан css-класс, поэтому в выражении фигурирует «[^>]+».
Второй подвох. Существует возможность записывать скрипты в виде «href=javascript: …», соответственно, перед дальнейшими действиями нужно проверять, действительно ли найдена ссылка или это текст скрипта.
Третий подвох. Теги ссылок могут содержаться в тексте javascript-ов. Самый распространенный пример – счетчик liveinternet. Поэтому, каждую ссылку нужно проверять, не заключается ли она между тегами <script> и </script>.
Далее провожу поиск по базе на предмет наличия ссылок, содержащих различные адалт-слова в урле и в анкоре. Таких оказывается далеко не единицы, так что всем, кто закупает ссылки в большом количестве, рекомендую обзавестись аналогичной тулзой.
Пока тестировал робота на одном из своих сайтов, обнаружил очень полезное побочное применение данного скрипта. При просмотре результатов сканирования заметил некоторое количество «левых» ссылок на своем сайте. Причем, индексируемых ссылок!!! При ближайшем рассмотрении выяснил, что ссылки были размещены посторонними лицами, используя дыры в движке сайта. В ближайшее время просканирую остальные сайты, а то вдруг где-то тоже есть дыры, через которые на мои сайты всякая дрянь лезет.
Распространять данный скрипт не буду, качество кода крайне низкое. Писал для себя, поэтому не заморачивался вылизыванием кода и написанием обработки различных ошибок выполнения. Я просто знаю, где какой баг, и избегаю их ))))))))Но хочу рассказать о некоторых подвохах, с которыми пришлось столкнуться.
Поначалу я вылавливал ссылки путем поиска в коде страницы фразы «href=», но это приводило к двум побочным эффектам:
1) данному критерию удовлетворяют теги <style>, так как адреса css-файлов стоят после «href=»
2) отлавливались адреса, не являющиеся ссылками, а просто присутствующие в тексте страниц, но которым предшествует “href=”Чтобы избежать этого, регулярное выражение приобрело следующий вид: preg_match_all("/<a[^>]+href=([^ >#]+)/", $page, $matches); Прошу особо обратить внимание, что между «а» и «href» может, например, быть указан css-класс, поэтому в выражении фигурирует «[^>]+».
Второй подвох. Существует возможность записывать скрипты в виде «href=javascript: …», соответственно, перед дальнейшими действиями нужно проверять, действительно ли найдена ссылка или это текст скрипта.
Третий подвох. Теги ссылок могут содержаться в тексте javascript-ов. Самый распространенный пример – счетчик liveinternet. Поэтому, каждую ссылку нужно проверять, не заключается ли она между тегами <script> и </script>.
пятница, 19 февраля 2010 г.
Поставь работу в Sape на поток.
Хочу поделиться некоторыми советами, которые помогут достичь хороших результатов в работе в sape. К другим биржам всё перечисленное далее также применимо.
Итак, начну с определения исходных условий работы:
1. Для получения хорошего дохода нам необходимо много сайтов
2. Страниц на каждом сайте должно быть в пределах 1000
3. Сайты должны быть устойчивы к АГС
4. Сайты должны быть достаточно приличными, чтобы попасть в основную базу sape.
Как видите, первые два пункта напрямую противоречат двум последующим, так как чем быстрее и дешевле делаешь сайт, тем хуже он получится. Наша задача – найти максимально быстрый и дешевый способ получения «качественных» сайтов. Пишу «качественных» в кавычках, потому что речь идет не о реальном качестве для людей, а именно о качестве в глазах поисковиков и модераторов sape.
Для себя я нашел следующее решение, описание которого я разделю на две части.
Часть первая. Создание технической части сайта.
Я написал собственный движок, устроенный следующим образом. Структура сайта крайне проста: все статьи разделены по рубрикам (тематикам). Выбор рубрики можно сделать в меню навигации, которое отображается на всех страницах сайта. Соответственно на сайте будет два типа страниц: с выбором статьи из выбранной рубрики и непосредственно страницы с текстом статьи. Для этих целей я создал два html-шаблона страниц: страница перечисления статей из выбранной рубрики и страница вывода текста статей. Все оформление вынесено в отдельный файл ccs.
Контент хранится в БД, строки которой содержат заголовок статьи, текст статьи и название рубрики, к которой она относится.
Таким образом мы разделяем хранение дизайна сайта и хранение контента, а также максимально упрощаем изменение дизайна.
В шаблонах в нужных местах содержатся комментарии вида "<!--menu-->", "<!--content-->", "<!--list_rubriki-->"
.
Контент привязывается к шаблону php-скриптами. Скрипт читает из БД названия рубрик и вставляет их в шаблон вместо комментария "<!--menu-->". Аналогично читает и вставляет заголовки и тексты статей. Этот подход считается неоптимальным с точки зрения производительности, так как строковые функции работают медленно, но мы же с вами делаем сайт, для которого не стоит задача принимать тысячи посетителей, поэтому это абсолютно не критично, зато очень просто в написании.
Скриптов у меня всего три:
1. скрипт стартовой страницы (index.php)
2. скрипт, отвечающий за выбор статей их рубрик (nav.php)
3. скрипт, отображающий статьи (view.php)
На главной будем выводить ссылки на последние 2-3 статьи в каждой рубрике. Как можно заметить, второй скрипт кажется избыточным, ведь можно прописать навигацию по рубрикам в том же index.php и передавать в этот скрипт параметры типа “?rubrika=1”, но нам же нужна устойчивость против АГС, поэтому все ссылки с главной страницы ведут на скпирт nav.php, в который передаются параметры рубрики. Скрипт index.php отвечает ТОЛЬКО за вывод стартовой страницы. Это очень важный момент! Далее поясню, какая тут связь с АГС.
Для добавления статей написал простую форму без всяких красивостей (ведь всё равно её никто не будет видеть, кроме меня) и не немее простенький скрипт для добавления записей в ДБ. Все операции по редактированию или удалению статей делаю в phpMyAdmin. Эти действия не так часто нужны, чтобы тратить сове время на написание полноценной CMS.
Вся работа заняла пару-тройку часов. В итоге имеем очень легкий и мобильный движок. Достаточно скопировать эти 6 файлов на хостинг, создать БД, создать таблицу необходимой структуры и прописать в трех скриптах имя БД. Имя таблицы будет везде одинаковое.
Часть вторая. Наполнение сайта.
Берем контент, откуда можем, и наполняем ))) Тут не может быть какого-то волшебного способа получить уникальный качественный конткент много и за дешево. Но однозначно не советую злоупотреблять автоматическим переводчиком или синонимайзером. Достоверно доказано, что с таким контентом риск попадания под АГС стремится к 100%. Второй аргумент – это прохождение модерации сайта в sape. Если модератор увидит результаты вашего бредо-генератора, то вы попадете в сомнительную базу сайтов, что снизит доход почти до нуля. Хочу поделиться одним приемом, который использую я. Находим или пишем сами статью по теме сайта. Много не надо, 1-2 тысяч знаков вполне достаточно. Пишем шаблон, как хорошо описано тут. Ну или покупаем шаблон, если времени у вас мало, а денег много. Заходим на seogenerator и размножаем полученный шаблон на сто вариантов со случайным выбором. Пишем шаблон для заголовка и тоже размножаем те же сто раз. При этом шаблон заголовка не обязательно должен точно отражать суть статьи, даже наоборот, нам нужно создать внешнюю видимость, что эти статьи совершенно разные. Скачиваем оба файла с результатами размножения и загоняем на хостинг. Далее пишем нехитрый скрипт, который будет читать из файлов заголовки и тексты статей, и совать их в базу. Рубрику можно тоже ставить случайным образом, чтобы создать видимость разнообразного контента.
Повторяем операцию 10 раз, получаем 1000 страниц на сайте. Если шаблон вы напишете качественный, то снизите риск попадания под АГС к минимуму. Тут основная работа – это написать шаблоны. Но всё равно за несколько часов это делается и вы получите готовый к заработку сайт.
Так как мы собираемся не один сайт, а как можно большее их количество, то размножение страниц лучше делать следующим образом. Создавать сразу 5-10 сайтов, и размноженные статьи лить по 10-20 штук на каждый сайт. Распределяя таким образом полученные из шаблона статьи, мы добьемся большего разнообразия контента на каждом отдельном сайте. Это несколько понизит вероятность, что модератор sape отправит сайты в позорную сомнительную базу.
Но, так как контент на сайтах, откровенно говоря, будет всё-таки не особо качественный, риск попадания под АГС сохраняется. Если сайт попал под АГС, самый быстрый способ вывести его из этого состояния – сменить адреса страниц. Все имеющиеся страницы станут недоступны. Роботы, запрашивая проиндексированные ранее страницы, будут получать 404. А на стартовой странице ссылки будут вести уже на другие адреса, которые благополучно проиндексируются. Для этого-то мы и свели роль скрипта index.php к минимуму. Ведь мы не можем его переименовать. Зато нам ничего не стоит переименовать файлы view.php и nav.php, а также исправить ссылки в скриптах, чтобы они указывали на новые имена файлов.
Либо имена файлов можно оставить прежние, в htaccess прописать соответствующий rewrite_rule, но ссылки всё равно придется менять.
Проданные ссылки при этой операции мы не теряем, потому что мы их уже потеряли на этапе попадания сайта под АГС. Когда новые страницы попадут в индекс, делаем переиндексацию сайта в sape и продолжаем торговать. В среднем, сомнительный сайт живет до попадания под АГС где-то 2-3 месяца. Этого срока вполне достаточно, чтобы распродать ссылок и получить с них некий доход.
Но желательно, всё же, размещать более-менее качественный контент, чтобы ваши сапо-сайты жили долго и счастливо, принося Вам доход. Лично я считаю, что лучше делать меньше сайтов, но достаточно качественных, чтобы не попасть под АГС или бан, чем штамповать по 10 говносайтов в день, в течение месяца получать от них копейки и, потеряв их в неравной битве против АГС, садиться и делать новые. Если же ваши сайты качественные, то с каждым новым сайтом ваш доход будет только расти. Плюс к этому, на стабильно живущие сайты не страшно и ссылок закупать для наращивания ТИЦа
Переименование скриптов также крайне желательно делать перед созданием на движке очередного сайта. Также, не повредит немного редактировать шаблоны. Существует мнение, яндекс прослеживает похожесть сайтов по схожему html коду (то есть шаблон) и схожей струкруте (имена файлов), и если один из сайтов «клонов» нарвется на сакции, то карательная рука яндекса пройдется по всем его братьям. На личном опыте подтвержить это не могу, но предосторожность не помешает.
Ну и напоследок стоит упомянуть, что для наращивания ТИЦа все покупаемые ссылки должны вести на стартовую страницу, так как адреса внутренних страниц нам с большой вероятностью придется иногда менять.
Итак, кто еще не поставил работу в сапе на поток, берите на вооружение описанные методы.
Итак, начну с определения исходных условий работы:
1. Для получения хорошего дохода нам необходимо много сайтов
2. Страниц на каждом сайте должно быть в пределах 1000
3. Сайты должны быть устойчивы к АГС
4. Сайты должны быть достаточно приличными, чтобы попасть в основную базу sape.
Как видите, первые два пункта напрямую противоречат двум последующим, так как чем быстрее и дешевле делаешь сайт, тем хуже он получится. Наша задача – найти максимально быстрый и дешевый способ получения «качественных» сайтов. Пишу «качественных» в кавычках, потому что речь идет не о реальном качестве для людей, а именно о качестве в глазах поисковиков и модераторов sape.
Для себя я нашел следующее решение, описание которого я разделю на две части.
Часть первая. Создание технической части сайта.
Я написал собственный движок, устроенный следующим образом. Структура сайта крайне проста: все статьи разделены по рубрикам (тематикам). Выбор рубрики можно сделать в меню навигации, которое отображается на всех страницах сайта. Соответственно на сайте будет два типа страниц: с выбором статьи из выбранной рубрики и непосредственно страницы с текстом статьи. Для этих целей я создал два html-шаблона страниц: страница перечисления статей из выбранной рубрики и страница вывода текста статей. Все оформление вынесено в отдельный файл ccs.
Контент хранится в БД, строки которой содержат заголовок статьи, текст статьи и название рубрики, к которой она относится.
Таким образом мы разделяем хранение дизайна сайта и хранение контента, а также максимально упрощаем изменение дизайна.
В шаблонах в нужных местах содержатся комментарии вида "<!--menu-->", "<!--content-->", "<!--list_rubriki-->"
.
Контент привязывается к шаблону php-скриптами. Скрипт читает из БД названия рубрик и вставляет их в шаблон вместо комментария "<!--menu-->". Аналогично читает и вставляет заголовки и тексты статей. Этот подход считается неоптимальным с точки зрения производительности, так как строковые функции работают медленно, но мы же с вами делаем сайт, для которого не стоит задача принимать тысячи посетителей, поэтому это абсолютно не критично, зато очень просто в написании.
Скриптов у меня всего три:
1. скрипт стартовой страницы (index.php)
2. скрипт, отвечающий за выбор статей их рубрик (nav.php)
3. скрипт, отображающий статьи (view.php)
На главной будем выводить ссылки на последние 2-3 статьи в каждой рубрике. Как можно заметить, второй скрипт кажется избыточным, ведь можно прописать навигацию по рубрикам в том же index.php и передавать в этот скрипт параметры типа “?rubrika=1”, но нам же нужна устойчивость против АГС, поэтому все ссылки с главной страницы ведут на скпирт nav.php, в который передаются параметры рубрики. Скрипт index.php отвечает ТОЛЬКО за вывод стартовой страницы. Это очень важный момент! Далее поясню, какая тут связь с АГС.
Для добавления статей написал простую форму без всяких красивостей (ведь всё равно её никто не будет видеть, кроме меня) и не немее простенький скрипт для добавления записей в ДБ. Все операции по редактированию или удалению статей делаю в phpMyAdmin. Эти действия не так часто нужны, чтобы тратить сове время на написание полноценной CMS.
Вся работа заняла пару-тройку часов. В итоге имеем очень легкий и мобильный движок. Достаточно скопировать эти 6 файлов на хостинг, создать БД, создать таблицу необходимой структуры и прописать в трех скриптах имя БД. Имя таблицы будет везде одинаковое.
Часть вторая. Наполнение сайта.
Берем контент, откуда можем, и наполняем ))) Тут не может быть какого-то волшебного способа получить уникальный качественный конткент много и за дешево. Но однозначно не советую злоупотреблять автоматическим переводчиком или синонимайзером. Достоверно доказано, что с таким контентом риск попадания под АГС стремится к 100%. Второй аргумент – это прохождение модерации сайта в sape. Если модератор увидит результаты вашего бредо-генератора, то вы попадете в сомнительную базу сайтов, что снизит доход почти до нуля. Хочу поделиться одним приемом, который использую я. Находим или пишем сами статью по теме сайта. Много не надо, 1-2 тысяч знаков вполне достаточно. Пишем шаблон, как хорошо описано тут. Ну или покупаем шаблон, если времени у вас мало, а денег много. Заходим на seogenerator и размножаем полученный шаблон на сто вариантов со случайным выбором. Пишем шаблон для заголовка и тоже размножаем те же сто раз. При этом шаблон заголовка не обязательно должен точно отражать суть статьи, даже наоборот, нам нужно создать внешнюю видимость, что эти статьи совершенно разные. Скачиваем оба файла с результатами размножения и загоняем на хостинг. Далее пишем нехитрый скрипт, который будет читать из файлов заголовки и тексты статей, и совать их в базу. Рубрику можно тоже ставить случайным образом, чтобы создать видимость разнообразного контента.
Повторяем операцию 10 раз, получаем 1000 страниц на сайте. Если шаблон вы напишете качественный, то снизите риск попадания под АГС к минимуму. Тут основная работа – это написать шаблоны. Но всё равно за несколько часов это делается и вы получите готовый к заработку сайт.
Так как мы собираемся не один сайт, а как можно большее их количество, то размножение страниц лучше делать следующим образом. Создавать сразу 5-10 сайтов, и размноженные статьи лить по 10-20 штук на каждый сайт. Распределяя таким образом полученные из шаблона статьи, мы добьемся большего разнообразия контента на каждом отдельном сайте. Это несколько понизит вероятность, что модератор sape отправит сайты в позорную сомнительную базу.
Но, так как контент на сайтах, откровенно говоря, будет всё-таки не особо качественный, риск попадания под АГС сохраняется. Если сайт попал под АГС, самый быстрый способ вывести его из этого состояния – сменить адреса страниц. Все имеющиеся страницы станут недоступны. Роботы, запрашивая проиндексированные ранее страницы, будут получать 404. А на стартовой странице ссылки будут вести уже на другие адреса, которые благополучно проиндексируются. Для этого-то мы и свели роль скрипта index.php к минимуму. Ведь мы не можем его переименовать. Зато нам ничего не стоит переименовать файлы view.php и nav.php, а также исправить ссылки в скриптах, чтобы они указывали на новые имена файлов.
Либо имена файлов можно оставить прежние, в htaccess прописать соответствующий rewrite_rule, но ссылки всё равно придется менять.
Проданные ссылки при этой операции мы не теряем, потому что мы их уже потеряли на этапе попадания сайта под АГС. Когда новые страницы попадут в индекс, делаем переиндексацию сайта в sape и продолжаем торговать. В среднем, сомнительный сайт живет до попадания под АГС где-то 2-3 месяца. Этого срока вполне достаточно, чтобы распродать ссылок и получить с них некий доход.
Но желательно, всё же, размещать более-менее качественный контент, чтобы ваши сапо-сайты жили долго и счастливо, принося Вам доход. Лично я считаю, что лучше делать меньше сайтов, но достаточно качественных, чтобы не попасть под АГС или бан, чем штамповать по 10 говносайтов в день, в течение месяца получать от них копейки и, потеряв их в неравной битве против АГС, садиться и делать новые. Если же ваши сайты качественные, то с каждым новым сайтом ваш доход будет только расти. Плюс к этому, на стабильно живущие сайты не страшно и ссылок закупать для наращивания ТИЦа
Переименование скриптов также крайне желательно делать перед созданием на движке очередного сайта. Также, не повредит немного редактировать шаблоны. Существует мнение, яндекс прослеживает похожесть сайтов по схожему html коду (то есть шаблон) и схожей струкруте (имена файлов), и если один из сайтов «клонов» нарвется на сакции, то карательная рука яндекса пройдется по всем его братьям. На личном опыте подтвержить это не могу, но предосторожность не помешает.
Ну и напоследок стоит упомянуть, что для наращивания ТИЦа все покупаемые ссылки должны вести на стартовую страницу, так как адреса внутренних страниц нам с большой вероятностью придется иногда менять.
Итак, кто еще не поставил работу в сапе на поток, берите на вооружение описанные методы.
Ярлыки:
sape
Подписаться на:
Сообщения (Atom)