+  HandyCache форум
|-+  Главная категория» Общие вопросы» Дефолтные списки HandyCache
Имя пользователя:
Пароль:
Страниц: 1 ... 5 6 [7] 8 9 ... 18   Вниз
  Отправить эту тему    Печать  
Автор Тема: Дефолтные списки HandyCache  (Прочитано 369129 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Кирилл
Beta tester
*****

Репутация: +5/-1
Offline Offline

Сообщений: 124


« Ответ #120 : 22 июня 2007, 11:28:32 »

5. Еще одно правило для ликвидации мусора - режет хитропопые нечисловые сессии по признаку последовательности буквы-цифры-буквы-цифры (на самом деле не только буквы, а вообще любые символы, которые не должны быть в обычной ситуации вперемешку с цифрами).
#5#~#True#~#(?<=[?&])([^=?&]++=)?[^&]*?[^-\d&%+.=*/()]++\d++[^-\d&%+.=*/()]++\d++[^&]*+&?#~##~#True#~#True

Михаил
Разные ответы с параметром и без него не страшны. Хуже, когда эти ссылки реально генерятся в обоих вариантах и дают разный результат. Мне пока такие не попадались.
Амперсанды сразу после удаленного параметра отсекаются всегда.
Концевые амперсанды и знаки вопроса после удаления всех параметров режутся отдельным правилом ближе к концу списка - так проще.
Цитировать
Есть гарантия, что каждый из параметров, перечисленных в правиле 3, можно отнести к "лишним"?
Несколько месяцев тестирования дома и на работе в локалке на 12 пользователей.
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #121 : 22 июня 2007, 11:44:36 »

Концевые амперсанды и знаки вопроса после удаления всех параметров режутся отдельным правилом ближе к концу списка - так проще.Несколько месяцев тестирования дома и на работе в локалке на 12 пользователей.
Да, так и нужно. Ты его не привел - отсюда и вопрос возник.
Цитировать
Разные ответы с параметром и без него не страшны. Хуже, когда эти ссылки реально генерятся в обоих вариантах и дают разный результат. Мне пока такие не попадались.
Они имеют место быть по смыслу: параметр может присутствовать и иметь значение, может отсутствовать. Значение "0" при этом, имхо, ничуть не "хуже" любого другого числа.
Сообщить модератору   Записан
Кирилл
Beta tester
*****

Репутация: +5/-1
Offline Offline

Сообщений: 124


« Ответ #122 : 22 июня 2007, 12:04:34 »

Михаил
В принципе любое необратимое преобразование перед кешированием некорректно.
Но на практике мы имеем сессии, домены с числами и т.д. и т.п.
Нулевое значение числового параметра по моему опыту - известное умолчание. Более того, непроинициализированные параметры - дырка в безопасности. Так что удаление нулей опасно для тех и только для тех сайтов, которые сознательно используют ссылки с нулем и без него как разные. Вот примеры таких сайтов и нужны Улыбка
Цитировать
Да, так и нужно. Ты его не привел - отсюда и вопрос возник.
Оно у меня давно хвосты подчищает, еще с первого моего появления здесь Улыбка
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #123 : 22 июня 2007, 12:36:51 »

5. Еще одно правило для ликвидации мусора - режет хитропопые нечисловые сессии по признаку последовательности буквы-цифры-буквы-цифры (на самом деле не только буквы, а вообще любые символы, которые не должны быть в обычной ситуации вперемешку с цифрами).
Приведи примеры, чтоб легче было представить, о чем речь идет.
Нулевое значение числового параметра по моему опыту - известное умолчание. Более того, непроинициализированные параметры - дырка в безопасности.
Шутишь?  Улыбка Если б каждый параметр инициализировался явно, длина URL успешно конкурировала бы с длиной обозначаемого им файла. Параметры, не инициализированные явно (это не означает, что они вообще не инициализированы) - и есть основной случай умолчания. Значение "0", имхо, к умолчанию относится в гораздо меньшей степени. Это конкретное число, которое может означать что угодно.
В твоем же правиле "0" подразумевается всегда эквивалентным значению по умолчанию.
Сообщить модератору   Записан
Кирилл
Beta tester
*****

Репутация: +5/-1
Offline Offline

Сообщений: 124


« Ответ #124 : 22 июня 2007, 12:54:21 »

Михаил
Не шучу.
В том же PHP параметры передаются как обычные переменные.
А теперь дырочка - если ты будешь использовать переменную, не предполагая ее в качестве параметра и не инициализируешь ее, то ее сможет инициализировать хакер, подставив свое значение в параметр.
Цитировать
Значение "0", имхо, к умолчанию относится в гораздо меньшей степени. Это конкретное число, которое может означать что угодно.
А по факту неуказанные параметры-числа в серверных скриптах инициализируются нулем Улыбка
Разница будет только для тех сайтов, которые разбирают URL по старинке, ручками плюс отличают неуказанный параметр от нулевого. Вдобавок для них неуказание нулевого параметра - осмысленная корректная ситуация. Тогда и только тогда нельзя будет выбрасывать параметры с нулевым значением.
Тот же undefined в качестве строки по умолчанию менее надежен.
Цитировать
Приведи примеры, чтоб легче было представить, о чем речь идет.
Все твои примеры с прошлой страницы успешно обрабатываются этим правилом.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #125 : 22 июня 2007, 14:06:25 »

Все твои примеры с прошлой страницы успешно обрабатываются этим правилом.

А мои - нет: Подмигивающий
http://count.rbc.ru/banner.gif?sid=banner_news.20070618115734.62592&lid=banner_news&id=62592&rnd=606267
http://count.rbc.ru/banner.gif?sid=cnews_top.default.20070619122712.29598&lid=cnews_top&id=29598&rnd=718832
и т.д.

А еще оно режет параметры экрана s=1024x768x32 , с чем мы боролись на предыдущей странице...
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #126 : 22 июня 2007, 21:33:32 »

Кирилл
Попал только что на http://us.codejunkies.com/codes.asp?c=US&cr=USD&cs=$&r=0&l=1&p=7
увидел параметр "r=0" и захотел ради интереса глянуть, что же будет без него. Загрузилось соершенно другое. Правило с удалением нулевых значений по-прежнему вызывает сомнения.
Так что удаление нулей опасно для тех и только для тех сайтов, которые сознательно используют ссылки с нулем и без него как разные.
Давай чтоб понять получше хотя б посмотрим на то, для каких сайтов это правило, не просто безопасно, а необходимо. Приведи, плиз, примеры сайтов, которые "сознательно используют ссылки с нулем и без него" как одинаковые. "Вот примеры таких сайтов и нужны" в первую очередь. Улыбка
Сообщить модератору   Записан
Кирилл
Beta tester
*****

Репутация: +5/-1
Offline Offline

Сообщений: 124


« Ответ #127 : 23 июня 2007, 07:39:10 »

DenZZZ
Цитировать
А мои - нет:
А твои - и не должно: их успешно режет мое правило 2 Подмигивающий Как оооооочень длинные числа.
Не стоит пытаться побороть все сессии одним правилом: в моем наборе таких правил уже три. И они проще и эффективнее чем одно, выполняющее все их функции.
Кстати, в твоих примерах мой набор грохнет заодно и параметр rnd - по имени.
Цитировать
А еще оно режет параметры экрана s=1024x768x32 , с чем мы боролись на предыдущей странице...
Вот с этим я бороться не стал.
Михаил
Цитировать
Приведи, плиз, примеры сайтов, которые "сознательно используют ссылки с нулем и без него" как одинаковые.
Любой форум Улыбка
Цитировать
Попал только что на http://us.codejunkies.com/codes.asp?c=US&cr=USD&cs=$&r=0&l=1&p=7
увидел параметр "r=0" и захотел ради интереса глянуть, что же будет без него. Загрузилось соершенно другое. Правило с удалением нулевых значений по-прежнему вызывает сомнения.
Согласен. В список по умолчанию нулевые параметры сейчас включать не стоит.
Сообщить модератору   Записан
Villi
Старожил
****

Репутация: +1/-3
Offline Offline

Сообщений: 347


WWW
« Ответ #128 : 28 июня 2007, 09:14:14 »

Дайте пожалуйста мне правило, чтобы НС не загружал флешки, а то я в университете установил НС, а там такого правила нету Грустный
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #129 : 28 июня 2007, 09:44:34 »

Дайте пожалуйста мне правило, чтобы НС не загружал флешки

#4#~#True#~#\.(flv|swf)(\?|$)#~##~#
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #130 : 29 июня 2007, 18:10:55 »

Еще одно правило для Переадресации - охватывает все новостные сайты Google (ru,com,de,az,...):
#5#~#True#~#.*news.google\.\w+/news/url\?.*url=([^;&]*).*#~#\1#~#False#~#True

Соответственно изменить необходимо правило проверки наличия нераскодированных символов:
#5#~#True#~#^[^?]*%(2[56f]|3[adf])#~#\0#~#False#~#True

И добавить три декодирующих правила, которые все вместе теперь будут выглядеть так:
#5#~#True#~#%2f#~#/#~#True#~#False
#5#~#True#~#%3a#~#:#~#True#~#False
#5#~#True#~#%3f#~#?#~#True#~#False
#5#~#True#~#%3d#~#=#~#True#~#False
#5#~#True#~#%26#~#&#~#True#~#False
#5#~#True#~#%25#~#%#~#True#~#False
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #131 : 01 июля 2007, 16:27:15 »

Нежданно-негаданно обнаружил, что пустые параметры в URL тоже выполняют какую-то функцию: из URL-а
http://google.com/pagead/adclick?sa=L&ai=&adurl=http://www.google.com
выкинул "ai=&"
и ответ "200 ОК" превратился в "400 Bad Request".
Может, погорячились мы с их удалением при преобразовании URL?
Кто знает точно, какова их роль?

Теперь еще про переадресацию:
http://pagead2.googlesyndication.com/pagead/(iclk|adclick)?sa=L&ai=&adurl=http://handycache.ru
http://pagead.googlesyndication.com/pagead/(iclk|adclick)?sa=L&ai=&adurl=http://handycache.ru
http://www.googlesyndication.com/pagead/(iclk|adclick)?sa=L&ai=&adurl=http://handycache.ru
http://googlesyndication.com/pagead/(iclk|adclick)?sa=L&ai=&adurl=http://handycache.ru
http://google.com/pagead/(iclk|adclick)?sa=L&ai=&adurl=http://handycache.ru
http://code.google.com/pagead/(iclk|adclick)?sa=L&ai=&adurl=http://handycache.ru
        и все др. домены google и googlesyndication
Все это примеры гугловской переадресации, которые можно уложить в примерно такое универсальное правило:
#5#~#True#~#.*google(syndication)?\.\w{2,4}/pagead/(iclk|adclick)?(.*&)?sa=L&(.*&)?ai=&(.*&)?adurl=([^&]*).*#~#\6#~#False#~#True
Пусть ускорятся и те, кто не хочет отказываться от гугловской рекламы.
« Последнее редактирование: 01 июля 2007, 17:16:47 от Михаил » Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #132 : 01 июля 2007, 17:52:16 »

И снова список "Переадресация". На этот раз смотрим на другой популярный поисковик Yahoo:
http://us.ard.yahoo.com/*http://handycache.ru
http://us.ard.yahoo.com/SIG=12jjt2npt/M=533106.8794185.10129908.7714426/D=yahoo_top/S=2716149:SM3/_ylt=ApEw9DLF7tjRDBk0_7EtmP71cSkA/Y=YAHOO/EXP=1160004448/*http://handycache.ru
http://rds.yahoo.com/_ylt=/**http://handycache.ru
http://rds.yahoo.com/search/submit/(travel|free|mobile_free|mrss_free|PI|p4p|product|yexpress|ystd|...)/*-http://handycache.ru
http://rds.yahoo.com/search/submit/ystdblahblahblahasdfjklhwkljfhakldfhasdf/*http://handycache.ru/
http://rds.yahoo.com/*http://handycache.ru/
http://rds.yahoo.com/**http://handycache.ru
http://de.ard.yahoo.com/SIG=12lnn77nh/M=200084491.201287525.202593797.200702075/D=finfr/S=97107386:FB2/Y=FR/EXP=1163448820/A=200544671/R=0/SIG=113es77l7/*http://handycache.ru
Универсальное правило будет примерно таким:
#5#~#True#~#.*yahoo\.com/(.*/)?\*[*-]?#~##~#False#~#True

Теперь возвращаемся к Гуглу:
http://(www|maps|eval|sketchup|browsersync|desktop|toolbar|earth|picasa|toolbarqueries|...).google.(com|ru|co.uk|...)/(url|local_url)?q=http://handycache.ru
Все это переадресует нас на Handycache.ru.
Получим тоже достаточно общее правило:
#5#~#True#~#.*google\.[^?/]+/(local_)?url\?q=http#~#http#~#False#~#True

Теперь обратимся к последнему варианту основного правила для редиректов:
#5#~#True#~#.+/(redir(ect)?|rd)(\w*\.\w{2,4})?\?.*?(http[^;&]*).*#~#\4#~#False#~#True
Выявились такие пока необрабатываемые им cлучаи:
http://animaldiversity.ummz.umich.edu/local/redirect.php/http://yandex.ru
http://www.topix.net/redir/loc=prss-myway/http%3A%2F%2Fhandycache.ru
http://www.cibera.de/ibero/servlet/servlets.Redir/lang=de/domain=ibero?resid=4735&url=http%3A%2F%2Fhandycache.ru
http://www.walmart.com/third_party_redirector.gsp?vendor=LIQUID_AUDIO&service=CATALOG_SERVICE&url=http%3A%2F%2Fhandycache.ru
http://www.walmart.com/third_party_redirector.gsp?url=https%3A%2F%2Fwww.google.com&vendor=GE&service=CREDITAPP
http://www.usa.visa.com/track/dyredir.jsp?rDirl=http://handycache.ru
http://www109.americanexpress.com/rightp/ads_redirect.jsp?location=http://handycache.ru
http://www.aol.com/ams/clickThruRedirect.adp?1073762100,2147779757x2147568413,http://handycache.ru
http://www.pbs.org/teachersource/previews/redir/http://handycache.ru
http://www.indiapress.org/directory/redirect/r.php?a=http://handycache.ru
http://www.searchguild.com/redir/o.php?out=http://handycache.ru
http://jdl.sun.com/webapps/getjava/BrowserRedirect?host=http://handycache.ru
https://www.godaddy.com/gdshop/redirect/go.asp?se=%2B&app%5Fhdr=&ci=6629&url=http://handycache.ru
http://www.microsoft.com/windows2000/SelectBox-redir.aspx?s=http://handycache.ru
Надобно и их в это правило подвязать. Кто возьмется?
« Последнее редактирование: 01 июля 2007, 18:45:05 от Михаил » Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #133 : 02 июля 2007, 13:27:14 »

Все это примеры гугловской переадресации, которые можно уложить в примерно такое универсальное правило:
#5#~#True#~#.*google(syndication)?\.\w{2,4}/pagead/(iclk|adclick)?(.*&)?sa=L&(.*&)?ai=&(.*&)?adurl=([^&]*).*#~#\6#~#False#~#True

Не знаю, где ты взял такие URL-ы, но твое правило не работает на гугловской рекламе, например, нашего сайта!

http://pagead2.googlesyndication.com/pagead/adclick?sa=L&ai=BqECiL7-IRsHXC4KC0-bla-bla-bla&num=2&adurl=http://stl.p.a1.traceworks.com/walkto/%3FSTLCMPID%3D-bla-bla-bla&client=ca-pub-5855005891756540&nm=10&nh=1&jca=8719

http://www.googleadservices.com/pagead/adclick?sa=L&ai=BXiv35cCIRvS5C6bmSfbt-bla-bla-bla&num=1&adurl=http://www.google.com/toolbar/ie7/intl/ru/&client=ca-pub-5855005891756540&nm=3&nh=1&jca=2194

Цитировать
Пусть ускорятся и те, кто не хочет отказываться от гугловской рекламы.

Во-первых, ускорение в несколько миллисекунд на 1 клик погоды не делает!

Во-вторых, Гугл платит только за переход по рекламным ссылкам! Это один из способов поддержки проекта/сайта, разместившего рекламу! А раз пользователь хочет ее видеть, то пусть от этого будет польза не только ему, но и сайту/проекту, где размещена эта реклама!

В-третьих, не нужно пытаться объять необъятное! Дефолтный список должен содержать небольшое количество популярных и одновременно "безвредных" для ВСЕХ пользователей правил!
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #134 : 02 июля 2007, 14:35:02 »

Не знаю, где ты взял такие URL-ы, но твое правило не работает на гугловской рекламе, например, нашего сайта!
потому что параметр "ai=" в приведенных тобой URL-ах непустой. Мне попадались только пустые. Если учесть это - сработает.
#5#~#True#~#.*google(syndication)?\.\w{2,4}/pagead/(iclk|adclick)\?(.*&)?sa=L&(.*&)?ai=.*&adurl=([^&]*).*#~#\5#~#False#~#True
А googleadservices вообще не учитывалось. Можно добавить.
Цитировать
Во-первых, ускорение в несколько миллисекунд на 1 клик погоды не делает!
Тогда надобно убрать весь нынешний дефолтный список А как не делающий погоды?
Между тем часто задержка весьма ощутима даже на глаз.
Цитировать
Во-вторых, Гугл платит только за переход по рекламным ссылкам! Это один из способов поддержки проекта/сайта, разместившего рекламу! А раз пользователь хочет ее видеть, то пусть от этого будет польза не только ему, но и сайту/проекту, где размещена эта реклама!
Решать пользователю. Как насчет безжалостно обрубаемых ЧС счетчиков? Почему забота о сайтах такая выборочная?
Цитировать
В-третьих, не нужно пытаться объять необъятное! Дефолтный список должен содержать небольшое количество популярных и одновременно "безвредных" для ВСЕХ пользователей правил!
Согласен. Только вот вреда это правило принесет не больше других. Другое дело, что оно может оказаться реально невостребованным ввиду блокирования этих URL-ов Черным списком у большинства пользователей. По этой причине не настаиваю на обязательном включении в дефолтный список А. Если кому нужно, пусть имеет ввиду эти редиректы. Либо в дефолтном списке можно его по умолчанию отключенным сделать.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #135 : 04 июля 2007, 08:59:16 »

NapA, пора выходить на финишную прямую. Не мог бы ты выложить итоговый вариант дефолтных списков с учетом высказанных предложений и принципа "не навреди". Улыбка Надо посмотреть, что получилось...
Сообщить модератору   Записан
NapA
Beta tester
*****

Репутация: +5/-0
Offline Offline

Сообщений: 53



WWW
« Ответ #136 : 07 июля 2007, 04:16:23 »

Извиняюсь за задержку, отдыхал немного...
Вот, выкладываю очередной вариант списков. Если что-то не добавил (или добавил, но не то) прошу не пинать, а указать пальцем Улыбка После отдыха голова не хочет работать.

Всех с победой Сочи!

* lists.rar (3.38 Кб - загружено 105 раз.)
Сообщить модератору   Записан

DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #137 : 09 июля 2007, 16:29:07 »

Вот, выкладываю очередной вариант списков. Если что-то не добавил (или добавил, но не то) прошу не пинать, а указать пальцем


Черный список:

Правило №3:
True#~#(\b|\.|_)(\d*|cy|form|fs|hits?|img|live|load|log|m[my]|n(ew)?|r|sex|stats?|the|tops?|vip|xxx)?c(ou)?nt[gr]?((e[вr]|ing)?s?)?[^a-z]#~#countr(ies|y)#~##~#0
\. можно убрать, т.к. точка входит в \b
Русскую букву "в" надо заменить на латинскую "d"


И группировку правил по категориям блокируемого все-таки лучше сделать, т.к. это пока единственный доступный способ указать назначение правила. Так будет удобнее для новичков...



Запись в кэш:

Поставь правило .* с последней позиции на первую, так виднее.



Не обновлять:

Добавь для образца правило с отрицательным критерием свежести:
#5#~#True#~#forum\.ru-board\.com/topic\.cgi\?#~##~##~#-168:00
чтобы было видно, что критерий может быть отрицательным.
Сообщить модератору   Записан
NapA
Beta tester
*****

Репутация: +5/-0
Offline Offline

Сообщений: 53



WWW
« Ответ #138 : 09 июля 2007, 16:44:46 »

DenZzz

Черный список:
Точку ставил, потому что правило не срабатывало на каком-то url, с точкой заработало. Хотя "точка" граница слова... Вобщем, точку убрал.
Букву "в" заменил.

Запись в кэш:
ОК.

Не обновлять:
ОК.
Сообщить модератору   Записан

NapA
Beta tester
*****

Репутация: +5/-0
Offline Offline

Сообщений: 53



WWW
« Ответ #139 : 10 июля 2007, 13:33:46 »

Сделал сортировку правил в ЧС по группам.

* lists.rar (3.44 Кб - загружено 100 раз.)
Сообщить модератору   Записан

Страниц: 1 ... 5 6 [7] 8 9 ... 18   Вверх
  Отправить эту тему    Печать  

 
Перейти в: