Борьба с уникальностью контента или повышаем индекс и выдачу в поиске

Started by Dr_Brown on 2014-03-21 16:41 — 11 replies, 3949 views

#1
Как известно поисковики любят уникальный контент...Соответственно если вы пользуетесь парсером, или автоматическим грабером, вряд ли Вы редактируете раздачи на предмет наличия ссылок на сторонний ресурс, ну например ресурс с которого Вы стырили релиз.
К примеру очень часто встречается в раздачах фильмов MediaInfo, где указан:
.............
Правообладатель: специально для rutracker.org (ex torrents.ru)
..........
Имея данную строку в релизе, особенно если он был ранее залит рушку, шансы что он будет по вашему трекеру в индексе или в выдаче в поиске практически равны нулю. Редактировать сотни раздач руками, или удалять из каждой MediaInfo полный бред.
Также очень часто встречается такие моменты как :

Релиз от : картинка релиз группы

Было замечено, что например картинки релиз групп с рушки имеют ссылку вида:

http://static.rutracker.org/.....


Также в релизах очень часто присутствуют ссылки типа: источник, мои раздачи, мой супер пупер том я апрель и прочая байда.
Как же бороться с этой хренью спросите Вы ?
Ответ очень прост, наш движок имеет ряд функционала который позволяет избавиться от ненужной информации в релизах, это:
1. Автоцензор
2. Бан картинок ненужных хостингов
3. Требуется установка мода Nightmare http://torrentpier.com/threads/Атрибут-rel-nofollow-к-внешним-ссылкам.14152/

Реализация:

1. Поставить мод Nightmare

2. Зайти в админку и настроить Автоцензор, например Ваш трекер это "supertrack.ru", прописываем:

*Rutracker* - замена supertrack
*rutracker* - замена на supertrack
*rutracker.org* - замена на supertrack
*torrents.ru* - замена на supertrack

Уже после данной манипуляции в раздачах фильмов MediaInfo будет выглядеть как:
.............
Правообладатель: специально для supertrack (ex supertrack)
..........
Неплохо, да.....?

3. Боремся с картинками релиз групп рушки.......

Открываем page_header.tpl ищем:
function fixPostImage($img)
{
    var banned_image_hosts = /imagebanana|hidebehind/i;  // imageshack
    var src = $img[0].src;
    if (src.match(banned_image_hosts)) {
        $img.wrap('<a href="'+ this.src +'" target="_blank"></a>').attr({ src: "{SITE_URL}images/tr_oops.gif", title: "{L_SCREENSHOTS_RULES}" });
    }
    return $img;
}

Меняем на:

function fixPostImage($img)
{
    var banned_image_hosts = /static.supertrack |hidebehind/i;  // imageshack
    var src = $img[0].src;
    if (src.match(banned_image_hosts)) {
        $img.wrap('<a href="'+ this.src +'" target="_blank"></a>').attr({ src: "{SITE_URL}images/картинка вашей релиз группы", title: "{L_SCREENSHOTS_RULES}" });
    }
    return $img;
}

После данных манипуляций, все картинки релиз групп рушки заменятся на ваши, так как в ссылке сначала цензор поменяет static.rutracker.org на static.supertrack, а затем скрипт забанит картинку и заменит на вашу....
А на все ссылки вида, например, источник или мои релизы: http://rutracker.org/forum/......и т.д. цензор поменяет на http://supertrack/forum/...... и мод Nightmare простовит на таких ссылках тег rel="noffollow", что исключить индексацию данных ссылок, так при попытке перейти по ней вы будете переброшены на страница не найдена.
Данное решение является половинчатым, так как:
1. картинки релиз групп например, могут быть залиты например на fastpic, и было бы глупо банить полностью данный хостинг
2. Наличие битых ссылок в раздаче
Однако это решение поможет закрыть ненужную инфу в 95% раздач.
Я не призываю пользоваться данным решением, и каждый сам под себя настроит автоцензор, однако решение основано на родном функционале и без установки каких либо модов.
Спасибо за внимание, удачи!
#2
А не дано просто прописать в парсере что не надо парсить))
#3
Ребята не старайтесь без харошего адвоката новые фильмы выдвигать на первые страницы, а релиз группы ето хоть какое то прекрытие, поверте мне письма о правообладание не очень приятно читать.
п.с для познавательной цели могу выложить парочку.
#4
ENERGY,тут не про борьбу с правиками

drew, все уже спарсено до нас....

дай регулярку как обрезать ?
#5
Типа таго.
Spoiler content hidden.
#6
$text = str_replace('что надо заменить', 'на что или оставить поле пустым', $text);
#7
drew, Да пустым...
#8
Меняем на:
поисковикам похер на js. делать это нужно ещё до сохранения в бд. А то что js.... то он только для живых людей, не для ботов.
#9
dimka3210, ага, html код страницы интерпретируют обратно 😀😀😀 ясновидящие такие...
#10
обратно
обратно?))
1) у тебя есть код "а",
2) ты его js меняешь на "б".

Поисковик не выполняет js, в каком состоянии код?)