+  HandyCache форум
|-+  Главная категория» Новые предложения» Анализ (правка) HTML-кода страниц
Имя пользователя:
Пароль:
Страниц: [1] 2 3  Все   Вниз
  Отправить эту тему    Печать  
Автор Тема: Анализ (правка) HTML-кода страниц  (Прочитано 35905 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Shasoft2
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 17


« : 04 апреля 2007, 14:32:56 »

Если бы ещё сделать в HC обработку правил для вырезания ненужных данных из html страниц, то вообще было бы супер.
А то придется ещё что-нибудь ставить для отсечения банеров и ненужной рекламы.



! Реализовано в HC с версии 1.0 RC2 (1.0.0.175) от 27.05.2009 на основе расширений на языке скриптов Lua !
« Последнее редактирование: 06 июля 2009, 11:04:51 от DenZzz » Сообщить модератору   Записан
Rick
Администратор
*****

Репутация: +15/-1
Offline Offline

Сообщений: 868


WWW
« Ответ #1 : 04 апреля 2007, 14:56:29 »

Если бы ещё сделать в HC обработку правил для вырезания ненужных данных из html страниц
Для этого служит Черный список - вырезается что угодно: хоть картинки, хоть страницы целиком. А если интегрировать HandyCache в браузер, до добавление элементов в Черный список производится прямо из контекстного меню в браузере.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #2 : 04 апреля 2007, 14:59:41 »

Если бы ещё сделать в HC обработку правил для вырезания ненужных данных из html страниц, то вообще было бы супер.

Может, ты говоришь о правке HTML-кода страниц, чтобы на них даже не было намека на существование там когда-то рекламы?

Загрузку баннеров и прочей рекламы с целью экономии трафика HC и сейчас неплохо блокирует своим "Черным списком"... Подмигивающий
Сообщить модератору   Записан
Shasoft2
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 17


« Ответ #3 : 04 апреля 2007, 15:07:04 »

На данный момент мне бы хотелось безвозвратно удалять панели WebWrappera.
Да и другой ненужный контент тоже. К примеру на gismeteo панель с новостями.
В общем делать в HC то, что может делать Proximitron.
Сообщить модератору   Записан
Shasoft2
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 17


« Ответ #4 : 04 апреля 2007, 15:10:01 »

Точнее www.webwarper.net, но думаю, что мысль понятна. Улыбка

P.S. Кстати, обрезка картинок по размерам тоже бы не помешала.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #5 : 04 апреля 2007, 15:19:32 »

На данный момент мне бы хотелось безвозвратно удалять панели WebWrappera.

Это элементарно делается всего 1 простым правилом в "Черном списке":
#4#~#True#~#webwarper\.net/ww/~wwservicescriptgz/#~##~#

Цитировать
К примеру на gismeteo панель с новостями.

А это другим простым правилом:
#4#~#True#~#top\.rbc\.ru/include/#~##~#

Так чего же тебя не устраивает? Непонимаю
Сообщить модератору   Записан
Shasoft2
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 17


« Ответ #6 : 04 апреля 2007, 15:31:31 »

У меня реклама то и так режется. Т.е. банеры не показываются.
Но хотелось бы саму панель удалять, чтобы место не занимало.
И к тому же webwarper добавляет в поля ввода текста свою месагу, а это тоже не очень хорошо.
Вот я и предлагаю добавить функции, аналогичные proxymitron-у
Сообщить модератору   Записан
mai62
Автор HC
*****

Репутация: +226/-4
Offline Offline

Сообщений: 6383


« Ответ #7 : 04 апреля 2007, 15:49:30 »

Shasoft2
Цитировать
Вот я и предлагаю добавить функции, аналогичные proxymitron-у
Подобное предложение звучало уже не раз. Что меня останавливает:
1. Нужен движок. Самый лучший вариант - понимающий правила proxomitron-а (поскольку в инете полно правил на все случаи жизни). Сам писать я не возьмусь - у меня нет времени сделать это на достойном уровне.
2. Для парсинга/правки страницы ее нужно сначала собрать в памяти целиком. Значит появится дополнительный расход ресурсов и задержка между появлением частей страницы на компе, где стоит НС, и передачей их клиенту.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #8 : 04 апреля 2007, 15:57:53 »

Но хотелось бы саму панель удалять, чтобы место не занимало.

Правило выше блокирует появление панели Webwarper'а!

Цитировать
И к тому же webwarper добавляет в поля ввода текста свою месагу, а это тоже не очень хорошо.

Да, потому что месага отправляется через сервер Webwarper'а!
А разве Proxomitron умеет вырезать эту месагу из отправляемого поста? И у него нет при этом проблем с открытыми сессиями, авторизацией и т.п. на этих форумах?

Цитировать
Вот я и предлагаю добавить функции, аналогичные proxymitron-у

Т.е. правку HTML-кода страницы? Проблемы реализации этого mai62 уже озвучил...

P.S. А то, что ты перечислил выше, HC давно умеет! Подмигивающий
Сообщить модератору   Записан
Shasoft2
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 17


« Ответ #9 : 04 апреля 2007, 16:21:44 »

Вот что добавляет webwraper в поля ввода текста (хотя скорее всего только в многострочные поля) [Posted by 69.41.173.145 via http://algart.net/ww This is added while posting a message to avoid misuse.
Try: http://webwarper.net/webwarper.exe Example of viewing: http://webwarper.net/ww/~av/lycos.com ]
и удалить это не получается.

Это правило у меня панель не удаляет, но тут я склоняюсь к тому, что просто криво настроил.

Я сам программист и трудности понимаю. Честно говоря я уже сам сел писать прокси, чтобы трафик сжимать через сервер, но тут скачал новую версию HC, а там уже есть перенаправление. Так что свою разработку забросил.

Как я понимаю:
1. У вас ведь URL-ы преобразовываются с использованием RegExp, так что мешает применить эти же функции для преобразования страниц? Или там не расчитано на большие объемы?
2. Понятно, что нужно собрать. Идеи такие: собираем страницу объемом до (можно объем через настройки сделать) к примеру 1 Мб, если собрали, то тогда обрабатываем её правилами, иначе начинаем отдавать данные браузеру и правила не используем. После обработки определяем новый размер данных и устанавливаем в заголовке Content-Length в нужное значение, удаляя "Transfer-Encoding: chunked", если оно было.
Сообщить модератору   Записан
mai62
Автор HC
*****

Репутация: +226/-4
Offline Offline

Сообщений: 6383


« Ответ #10 : 04 апреля 2007, 17:26:45 »

Shasoft2
Цитировать
Я сам программист...
Программист - это хорошо  Отлично!, нам их не хватает  Плачущий
НС пока не поддерживает плагины, но уже сейчас можно писать полезные утилиты. Посмотри, например,  это
Цитировать
1. У вас ведь URL-ы преобразовываются с использованием RegExp, так что мешает применить эти же функции для преобразования страниц? Или там не расчитано на большие объемы?
Явных ограничений нет, но движок использует рекурсивный вызов функций и при сложных выражениях изрядно жрет стэк (в какой-то степени возможности движка можно испытать в тренажере НС). Опять же правила от proxomitron нельзя будет использовать, что снижает ценность такой реализации.
Я знаю, что существует проект с открытым исходным кодом, который умеет обрабатывать правила proxomitron. Год назад результат не очень впечатлял: большая нагрузка на процессор и глюки. Возможно сейчас там что-то изменилось к лучшему.
Сообщить модератору   Записан
Shasoft2
Новичок
*

Репутация: +0/-0
Offline Offline

Сообщений: 17


« Ответ #11 : 04 апреля 2007, 17:39:14 »

У меня свой проект - читалка книг для сотового ( http://shasoft.com )
Зайдешь, пользователям на форуме ответишь и уже пару мегов ушло. Мелочь,  а неприятно.
Но теперь вернусь к своему проекту, а то с написанием своего прокси совсем что-то его забросил.

P.S. Кстати, ваш форум с WebWraper-то не дружит. Как я понимаю, он для отбивания спама как-то проверяет IP?
А то что-то не получается через WebWraper месагу запостить.
Сообщить модератору   Записан
mai62
Автор HC
*****

Репутация: +226/-4
Offline Offline

Сообщений: 6383


« Ответ #12 : 04 апреля 2007, 18:01:09 »

Shasoft2
Цитировать
У меня свой проект...
Заглянул на твой сайт и форум. Интересная востребованная программа  Отлично!
Желаю удачи в дальнейшем развитии.

Извините за оффтоп.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #13 : 04 апреля 2007, 20:01:41 »

P.S. Кстати, ваш форум с WebWraper-то не дружит.

Наш форум поддерживает GZIP и без всякого WebWarper'а, поэтому нет никакого смысла ходить сюда через WebWarper! Подмигивающий
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #14 : 04 апреля 2007, 20:30:01 »

Цитировать
Для парсинга/правки страницы ее нужно сначала собрать в памяти целиком. Значит появится дополнительный расход ресурсов и задержка между появлением частей страницы на компе, где стоит НС, и передачей их клиенту
Значит не стоит нам парсить страницы. Задержка, для меня, - слишком высокая цена.
Пусть баннеры вырезает браузер. Он с этим лучше справляется.
Сообщить модератору   Записан
Дем
Постоялец
***

Репутация: +6/-3
Offline Offline

Сообщений: 167



« Ответ #15 : 05 апреля 2007, 14:46:30 »

Цитировать
Для парсинга/правки страницы ее нужно сначала собрать в памяти целиком. Значит появится дополнительный расход ресурсов и задержка между появлением частей страницы на компе, где стоит НС, и передачей их клиенту
Целиком не обязательно. Достаточно буфера в размер выкусываемого куска.
Кстати, можно и альтернативный вариант - добавлять в файл некий жаваскрипт, который и займётся выкусыванием.
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #16 : 05 апреля 2007, 15:33:15 »

Кстати, можно и альтернативный вариант - добавлять в файл некий жаваскрипт, который и займётся выкусыванием.
Не дело это. WebWarper трудно использовать из-за того, что он портит страницы скриптами.
Если еще HC начнет так делать...
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #17 : 02 июня 2007, 12:36:43 »

Нужен движок. Самый лучший вариант - понимающий правила proxomitron-а (поскольку в инете полно правил на все случаи жизни). Сам писать я не возьмусь - у меня нет времени сделать это на достойном уровне.
Пользователю для работы с НС придется знать и регэкспы, и язык Проксомитрона. Это, на мой взгляд, не очень хорошо. Лучше, имхо, базироваться на регэкспах. Дополнения к языку придумаем.
Сообщить модератору   Записан
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #18 : 03 июня 2007, 17:18:06 »

Пользователю для работы с НС придется знать и регэкспы, и язык Проксомитрона. Это, на мой взгляд, не очень хорошо. Лучше, имхо, базироваться на регэкспах. Дополнения к языку придумаем.

Фильтры Проксомитрона тоже базируются на RegExp-ах!

Изобретать свой "велосипед" не имеет смысла! Как уже сказал mai62, в инете полно готовых фильтров для Проксомитрона на все случаи жизни, поэтому придумывать свой синтаксис и писать свои аналогичные фильтры, как минимум, не рационально!

Кроме того, это облегчит миграцию пользователей с Проксомитрона на HC - многие сейчас используют их в связке, потому что HC пока не поддерживает правку HTML-кода и заголовков...
Сообщить модератору   Записан
Михаил
Gold beta tester
*****

Репутация: +337/-14
Offline Offline

Сообщений: 5513



« Ответ #19 : 03 июня 2007, 22:32:38 »

Изобретать свой "велосипед" не имеет смысла!
Не согласен. Если этот велосипед будет лучше ехать, то стоит.
Сообщить модератору   Записан
Страниц: [1] 2 3  Все   Вверх
  Отправить эту тему    Печать  

 
Перейти в: