+  HandyCache форум
|-+  Главная категория» Общие вопросы» Дефолтные списки HandyCache
Имя пользователя:
Пароль:
Страниц: 1 ... 4 5 [6] 7 8 ... 18   Вниз
  Отправить эту тему    Печать  
Автор Тема: Дефолтные списки HandyCache  (Прочитано 369955 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #100 : 19 июня 2007, 10:49:45 »

NapA
1. Чтоб уж добить редиректы: почему в БС запрещается переадресация yandex\.ru/redir\?
У меня отлично редиректит, например:
http://yandex.ru/redir?dtype=shop&uid=30182111764166471&categid=43&price=10901.61&url=http%3A//www.verba.ru/cgi/price/price.pl%3Fgroup%3D342%26id%3D35832%26cmd%3Dshow_tech_info&ext=&pp=1000&cp=10&shop_id=639&pof=1506
Посмотри, плиз, может ложные срабатывания были? Если нет, то поправь, пожалуйста, БС.

2. В БС все правила для ICQ можно объединить в одно - так же как в ЧС.

DenZzz
Редиректом является еще /rd\.(php|pl)\?
Писалось об этом в гостевой у NapA. Имхо, надо тоже добавить.
« Последнее редактирование: 19 июня 2007, 11:49:17 от Михаил » Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #101 : 19 июня 2007, 13:18:51 »

Редиректом является еще /rd\.(php|pl)\?

Вообще, вариантов много! Вот еще пара экземпляров:
http://www.cnews.ru/cgi-bin/redirect_cnews.cgi?http://top.rbc.ru/incidents/19/06/2007/106785.shtml
http://r.gismeteo.ru/rdr2.php?sh+http://www.gazeta.ru/export/gismeteo.shtml

А если так сделать:
#5#~#True#~#.+/(redir(ect)?|rd)(\w*\.\w{2,4})?\?.*?(http[^;&]*).*#~#\4#~#False#~#True
Проверь по своим логам на ложные срабатывания...
« Последнее редактирование: 19 июня 2007, 13:31:13 от DenZzz » Сообщить модератору   Записан
rubel
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 14


« Ответ #102 : 19 июня 2007, 14:59:47 »

DenZzz
Вот ты везде говоришь что в списке Не обновлять нужно на конце ставить $.
Но ведь часто попадаются файлы вида http://testsbox.ru/autotest.js?bs=10
Эта с сайта http://ifolder.ru/
Я гуляю по страницам сайта и каждый раз тогда эта шняга будет загружаться заново?
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #103 : 19 июня 2007, 16:38:10 »

DenZzz
Вот ты везде говоришь что в списке Не обновлять нужно на конце ставить $.

Я везде говорю добавить к расширениям файлов (\?|$) , где нет и ВМЕСТО $ !!!
Не нужно передергивать мои слова!
  Злой
« Последнее редактирование: 19 июня 2007, 16:44:25 от DenZzz » Сообщить модератору   Записан
rubel
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 14


« Ответ #104 : 19 июня 2007, 17:54:40 »

DenZzz
Теперь понял, у меня везде записано просто \.(js|css)
А что даёт добавление  (\?|$) ?
Цитировать
Не нужно передергивать мои слова!
Злопамятный ты,однако.А ведь мы земляки,оба из Самары. Улыбка

Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #105 : 19 июня 2007, 20:01:21 »

Обидно, имхо, будет, если НС не сможет по умолчанию отсекать сессии на собственном форуме (ну и в довесок на всех форумах с этим же движком):

http://handycache.ru/forum/index.php?action=quotefast;quote=4370;sesc=c5a4f39aca9b4fec9330f960ae5e9dcd;xml

http://handycache.ru/component/option,com_smf/Itemid,10/action,post2/start,0/msg,4374/sesc,0f8ce0295cb4a2d7c590b9770ee246ed/board,1/

Для этого можно доработать правило:
(?<=[?&;/])(php)?s(esc?)?(sion)?_?s?(id)?[=,][-\w]{7,}($|[&;/])

Хотя для таких URL-ов скорее надо запрещать запись в кэш (что уже частично реализовано в БС).

Прогнал такое правило через логи. Ложные срабатывания:
s=journal
s=240x400, s=1024*768, s=102476832 и т.п. (т.е. screen size)
Выход - сделать более 7 минимальный размер либо, скажем, для размера от 7 до 13 требовать наличия только цифр, а для бОльших допускать и буквы.
« Последнее редактирование: 19 июня 2007, 20:11:23 от Михаил » Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #106 : 19 июня 2007, 21:07:02 »

А что даёт добавление  (\?|$) ?

Исключает ложные срабатывания на середину URL, например:
http://www.troika.ru/cm_index_rus.jsp - это вовсе не скрипт, а динамическая страница
http://forum.bmp.net.ua  - попадает под правило \.bmp , хотя это не картинка, а форум
и т.д.

Цитировать
Злопамятный ты,однако.

Нет, просто не люблю, когда меня упрекают в том, чего я никогда не делал! Улыбка
Добавлено: 19 Июня 2007, 21:47:04

Обидно, имхо, будет, если НС не сможет по умолчанию отсекать сессии на собственном форуме (ну и в довесок на всех форумах с этим же движком):

http://handycache.ru/forum/index.php?action=quotefast;quote=4370;sesc=c5a4f39aca9b4fec9330f960ae5e9dcd;xml

http://handycache.ru/component/option,com_smf/Itemid,10/action,post2/start,0/msg,4374/sesc,0f8ce0295cb4a2d7c590b9770ee246ed/board,1/

Подобные ссылки у меня вообще в "Белом списке" с запретом на кэширование!
Первая - вставка быстрой цитаты из конкретного поста
Вторая - отправка поста POST-методом

Зачем их хранить? Будешь отправлять посты в оффлайне? Подмигивающий
Добавлено: 19 Июня 2007, 22:01:49

Вот мои правила для БС:

#10#~#True#~#^handycache\.ru/forum/index\.php\?action=(keepalive|post|quotefast)#~##~##~#True#~#True#~#False#~#False#~#False#~#False

#10#~#True#~#^handycache\.ru/component/option,com_smf/Itemid,\d+/action,#~##~##~#True#~#True#~#False#~#False#~#False#~#False
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #107 : 19 июня 2007, 22:29:54 »

Зачем их хранить? Будешь отправлять посты в оффлайне? Подмигивающий
Чего тему развиваешь? Вроде я так в заключение и написал:
Цитировать
Хотя для таких URL-ов скорее надо запрещать запись в кэш (что уже частично реализовано в БС).
http://ferrydust.com/textpattern/css.php?s=journal
в качестве ложного срабатывания остается по-любому (если не считать screen size'ы)

Приведенные правила для handycache.ru неплохо б, имхо, обобщить для всех форумов/сайтов с этим движком.
« Последнее редактирование: 19 июня 2007, 22:34:09 от Михаил » Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #108 : 19 июня 2007, 23:14:22 »

Чего тему развиваешь? Вроде я так в заключение и написал

Что ж тогда не удалил свое правило...

либо, скажем, для размера от 7 до 13 требовать наличия только цифр, а для бОльших допускать и буквы.

#5#~#True#~#(?<=[?&])(php)?s(es)?(sion)?_?s?(id)?=(\d{7,}|[^&]{13,})($|&)#~##~#False#~#True
#5#~#True#~#[?&]$#~##~#False#~#False


Сейчас нашел в логах СИД короче 7 символов, правда в рекламе:
http://feed1.altastat.com/ad?board=1550&sid=1976
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #109 : 20 июня 2007, 02:05:21 »

DenZzz
Для универсальности (есть достаточно много сайтов с этим же движком) правила во всех списках, касающиеся сайта (форума) handycache.ru можно, имхо, распространить на остальные сайты, откинув в начале правил ^handycache.ru

К примеру, твои два правила БС лучше заменить на:

#10#~#True#~#/forum/index\.php\?.*\baction=(keepalive|post|quotefast)#~##~##~#True#~#True#~#False#~#False#~#False#~#False
Оно пройдет и для многих форумов, использующих другие движки.

#10#~#True#~#/component/option,com_smf/Itemid,\d+/action,#~##~##~#True#~#True#~#False#~#False#~#False#~#False

Были, по-моему, правила с handycache.ru и в других списках.
« Последнее редактирование: 20 июня 2007, 02:18:42 от Михаил » Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #110 : 20 июня 2007, 10:31:07 »

Из первого правила для БС для универсальности лучше, наверное, исключить даже /forum:

#10#~#True#~#/index\.php\?.*\baction=(keepalive|post|quotefast)#~##~##~#True#~#True#~#False#~#False#~#False#~#False

Были, по-моему, правила с handycache.ru и в других списках.
В списке Т и Н:
handycache\.ru/forum/index\.php\?.*(avatar|image)$
заменить чем-нибудь типа
/index\.php\?.*(avatar|image)|/avatars?/index\.php\?

В Преобразовании URL
True#~#(handycache\.ru/component/option,com_smf/Itemid,\d+/topic,\d+)(\.\d+)?(;all)?[./].*#~#\1\2\3#~#False#~#True#~#0
на
True#~#(/component/option,com_smf/Itemid,\d+/topic,\d+)(\.\d+)?(;all)?[./].*#~#\1\2\3#~#False#~#True#~#0
Хотя, честно сказать, это правило мне не совсем понятно.
« Последнее редактирование: 20 июня 2007, 10:56:10 от Михаил » Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #111 : 20 июня 2007, 11:45:00 »

заменить чем-нибудь типа
/index\.php\?.*(avatar|image)|/avatars?/index\.php\?

Конструкция /avatars?/index\.php\? гипотетическая или есть реальные форумы, на которых она будет работать? В моих логах такого не нашлось...

Цитировать
Из первого правила для БС для универсальности лучше, наверное, исключить даже /forum

Опять же есть реальные примеры без /forum ?

Цитировать
True#~#(/component/option,com_smf/Itemid,\d+/topic,\d+)(\.\d+)?(;all)?[./].*#~#\1\2\3#~#False#~#True#~#0
Хотя, честно сказать, это правило мне не совсем понятно.

Прочти здесь...
« Последнее редактирование: 20 июня 2007, 11:57:42 от DenZzz » Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #112 : 20 июня 2007, 12:19:01 »

Конструкция /avatars?/index\.php\? гипотетическая или есть реальные форумы, на которых она будет работать? В моих логах такого не нашлось...
Есть в логах такой
http://s9.invisionfree.com/avatars/index.php?act=idx
Поленился его поначалу открыть, теперь посмотрел - он отношения к теме не имеет. Наверное, не нужен этот довесок в правиле.

Цитировать
Опять же есть реальные примеры без /forum ?
http://andyr.mrezha.ru/smf/index.php?PHPSESSID=e50d1c569f26d2752149a6a0ae5e8de4&action=quotefast;quote=...
http://www.gunduzgece.com/index.php?action=quotefast;quote=...
http://thedambook.com/smf/index.php?amp;action=quotefast;quote=...

И еще 18 шт.

У этих action= довольно большой набор вариантов значений. Их можно творчески перебрать на предмет возможного присоединения некоторых к keepalive|quotefast|post. Может, Rick, более плотно общающийся с форумным движком, поможет.
« Последнее редактирование: 20 июня 2007, 12:23:36 от Михаил » Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #113 : 20 июня 2007, 12:58:48 »

У этих action= довольно большой набор вариантов значений. Их можно творчески перебрать на предмет возможного присоединения некоторых к keepalive|quotefast|post.

ИМХО, кроме action=dlattach остальные можно резать...
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #114 : 20 июня 2007, 15:28:57 »

ИМХО, кроме action=dlattach остальные можно резать...
Х.з., какие могут попасться.
К примеру,
http://photo.gala.net/index.php?action=view&id=120274842 - писать в кэш надо
http://gov.kaliningrad.ru/index.php?action=gk&sa=view&gk=1070 - тоже надо
http://faq.altlinux.ru/index.php?action=listq&nf=1&qid=472 - и здесь.
Лучше, имхо, вписать в правило только доподлинно известные.
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #115 : 20 июня 2007, 21:48:22 »

В логах есть еще много примеров с act=post (видать, разновидность action=post):
http://www.ww2.ru/forum/index.php?act=Post&CODE=00&f=2

http://spartanband.net/forums/index.php?s=d2c5ccf1f7d621c91c0a495ac5e92e9d&act=Post&CODE=06&f=3&t=81&p=828

http://vulgo.ru/index.php?act=post&do=reply_post&f=4&t=439

http://www.kagul.ru/forum/index.php?act=post&do=reply_post&f=16&t=477

Итого правило в БС для предотвращения записи в кэш форумного "мусора" примет вид:
#10#~#True#~#/index\.php\?.*\bact(ion)?=(keepalive|post|quotefast)#~##~##~#True#~#True#~#False#~#False#~#False#~#False
Сообщить модератору   Записан
Кирилл
Beta tester
*****

Репутация: +5/-1
Offline Offline

Сообщений: 124


« Ответ #116 : 21 июня 2007, 15:39:48 »

Вот мои сборщики мусора из URL:
1. Вырезка пустых и нулевых параметров
#5#~#True#~#(?<=[?&])[^=?&]++=0?(&|$)#~##~#True#~#True
2. Вырезка сессий по значению (длинные числа, в т.ч. шестнадцатиричные)
#5#~#True#~#(?<=[?&])[^=?&]++=[^&%]*?(?>[0-9a-f.+\-]{11,})[^&]*+&?#~##~#True#~#True
3. Вырезка параметров по имени
#5#~#True#~#(?<=[?&])(auth_token|updated|searchid|SID|PHPSESSID|SESSID|rndnum|rnd|highlight|postdays|postorder|in|inn|from|out|site|click|fid|adduser|aduser|ac|refererID|referrer|RC|SHT|SIT|vsrs_id|wid|ref|wm|wm_login|wmid|oppopup|sub|trade|hitID|adid|rid|dcwid|AID|uid|adv|partner|siteid|ref_id|acc_id|adtype|partner_idpid|Webmaster|WebmasterID|resellerid|af|refCode|cl|pt|pd_info|to|lay|LID|fid|bid|source_id|acct_id|adID|kid|bfmid|likref|aff|link_id|rs|wm_refer|refer|count|gcsid|refby|linkfrom|afl|revid|refid|site_id|fp|rvs|ACC|adv_id|ad|aff_id|referer|LinkId|hit|revs|random|linkin_id|refs|nats|subprogram_id|pps)=[^&]*+&?#~##~#True#~#True
4. Вырезка цифр из доменного имени
#5#~#True#~#((^|(?<=\.))((?>[a-z]+)))(?>\d+)\.#~#\1.#~#False#~#True

Правила 1-3 работают стабильно и хорошо себя зарекомендовали. 4 пока активно тестируется.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #117 : 22 июня 2007, 07:47:55 »

Вот мои сборщики мусора из URL:

В чем смысл двойных квантификаторов: ++ , *+ ?

Цитировать
2. Вырезка сессий по значению (длинные числа, в т.ч. шестнадцатиричные)

В сессиях бывают и просто буквы (не шестнадцатеричные)! Обсуждалось на предыдущих страницах...

Цитировать
4. Вырезка цифр из доменного имени

Это правило срабатывает и для доменов 2-го уровня, что не желательно! Часто эти цифры имеют не случайное значение и не меняются для данного сайта. Да и восстановить потом исходный URL этого сайта, например, в Историке будет невозможно...
Сообщить модератору   Записан
Кирилл
Beta tester
*****

Репутация: +5/-1
Offline Offline

Сообщений: 124


« Ответ #118 : 22 июня 2007, 09:18:56 »

DenZZZ
Цитировать
В чем смысл двойных квантификаторов: ++ , *+ ?
Это "сверхжадные" варианты обычных квантификаторов - захватывают по максимуму, даже если это приводит к несовпадению следующей части шаблона.
(X)*+ эквивалентно (?>(X)*)
Работает намного быстрее, чем просто * и +, в записи прозрачнее и лаконичнее, чем (?>)
Цитировать
В сессиях бывают и просто буквы (не шестнадцатеричные)! Обсуждалось на предыдущих страницах...
Я пробовал вырезать просто длинные параметры - увы, ломает ряд сайтов. В результате предпочел правило, которое режет не все (но многое Улыбка ), зато ничего не ломает.
Вообще в сочетании с вырезкой сессий по имени параметра - работает на ура, сессий в кеше давно уже не видел.
Вообще, ВСЕ примеры Михаила с просто буквами были срезаны моим правилом 3 Подмигивающий
Цитировать
Это правило срабатывает и для доменов 2-го уровня, что не желательно! Часто эти цифры имеют не случайное значение и не меняются для данного сайта. Да и восстановить потом исходный URL этого сайта, например, в Историке будет невозможно...
Потому и тестируется Подмигивающий
« Последнее редактирование: 22 июня 2007, 10:00:53 от Кирилл » Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #119 : 22 июня 2007, 10:53:16 »

К "пустому", имхо, можно отнести и значение параметра, равное "undefined":
-http://www.wzor.net/js/awstats_misc_tracker.js?screen=1024x768&cdi=32&java=true&shk=undefined&fla=undefined&rp=undefined&mov=undefined&wma=undefined&pdf=undefined&uid=awsuser_id1174243732049r4843&sid=awssession_id1177954405294r5129

-http://counter.hitslink.com/statistics.asp?v=1&s=100&acct=Myopera&an=Opera&sr=&ck=17&rf=&sl=undefined&av=9.20%20%28Windows%20NT%205.1%3B%20U%3B%20ru%29&l=ru&pf=Win32&pg=/desktopteam/blog/&cd=32&rs=1024%20x%20768&tz=-240&je=true&tks=1178094322472

Кирилл
Параметр "0" не обязательно является "пустым".
Взятый навскидку URL рисует разные картинки при v=0 и без оного:
http://file.aaanet.ru/tools/vote_img.php?v=0

В правиле 3 не обрубается [?&], если они остались на конце URL. Оставшийся знак вопроса может дать совсем иную страницу:
http://hunter.shop.by/shcart/?step=0
Обратного (когда другую страницу даст убранный знак вопроса) пока не встречал.

Есть уверенность, что каждый из параметров, перечисленных в правиле 3, можно отнести к "лишним"?
« Последнее редактирование: 22 июня 2007, 11:16:16 от Михаил » Сообщить модератору   Записан
Страниц: 1 ... 4 5 [6] 7 8 ... 18   Вверх
  Отправить эту тему    Печать  

 
Перейти в: