Главная
Форум
Контакты
Купить
Поддержи проект
Поиск
Искать:
Расширенный поиск
[Закрыть]
Правила форума
Войти
Регистрация
Russian
English
HandyCache форум
Главная категория
»
Новые предложения
»
Анализ (правка) HTML-кода страниц
Имя пользователя:
1 час
1 день
1 неделя
1 месяц
Навсегда
Пароль:
Страниц: [
1
]
2
3
Все
Вниз
« предыдущая тема
следующая тема »
Отправить эту тему
Печать
Автор
Тема: Анализ (правка) HTML-кода страниц (Прочитано 35905 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Shasoft2
Новичок
Репутация: +0/-0
Offline
Сообщений: 17
Анализ (правка) HTML-кода страниц
«
:
04 апреля 2007, 14:32:56 »
Если бы ещё сделать в HC обработку правил для вырезания ненужных данных из html страниц, то вообще было бы супер.
А то придется ещё что-нибудь ставить для отсечения банеров и ненужной рекламы.
! Реализовано в HC с версии 1.0 RC2 (1.0.0.175) от 27.05.2009 на основе расширений на языке скриптов Lua !
«
Последнее редактирование: 06 июля 2009, 11:04:51 от DenZzz
»
Сообщить модератору
Записан
Rick
Администратор
Репутация: +15/-1
Offline
Сообщений: 868
Re: Анализ (правка) HTML-кода страниц
«
Ответ #1 :
04 апреля 2007, 14:56:29 »
Цитата: Shasoft2 от 04 апреля 2007, 14:32:56
Если бы ещё сделать в HC обработку правил для вырезания ненужных данных из html страниц
Для этого служит Черный список - вырезается что угодно: хоть картинки, хоть страницы целиком. А если интегрировать HandyCache в браузер, до добавление элементов в Черный список производится прямо из контекстного меню в браузере.
Сообщить модератору
Записан
DenZzz
Модератор
Репутация: +179/-11
Offline
Сообщений: 5589
Re: Анализ (правка) HTML-кода страниц
«
Ответ #2 :
04 апреля 2007, 14:59:41 »
Цитата: Shasoft2 от 04 апреля 2007, 14:32:56
Если бы ещё сделать в HC обработку правил для вырезания ненужных данных из html страниц, то вообще было бы супер.
Может, ты говоришь о правке HTML-кода страниц, чтобы на них даже не было намека на существование там когда-то рекламы?
Загрузку баннеров и прочей рекламы с целью экономии трафика HC и сейчас неплохо блокирует своим "Черным списком"...
Сообщить модератору
Записан
Shasoft2
Новичок
Репутация: +0/-0
Offline
Сообщений: 17
Re: Анализ (правка) HTML-кода страниц
«
Ответ #3 :
04 апреля 2007, 15:07:04 »
На данный момент мне бы хотелось безвозвратно удалять панели WebWrappera.
Да и другой ненужный контент тоже. К примеру на gismeteo панель с новостями.
В общем делать в HC то, что может делать Proximitron.
Сообщить модератору
Записан
Shasoft2
Новичок
Репутация: +0/-0
Offline
Сообщений: 17
Re: Анализ (правка) HTML-кода страниц
«
Ответ #4 :
04 апреля 2007, 15:10:01 »
Точнее
www.webwarper.net
, но думаю, что мысль понятна.
P.S. Кстати, обрезка картинок по размерам тоже бы не помешала.
Сообщить модератору
Записан
DenZzz
Модератор
Репутация: +179/-11
Offline
Сообщений: 5589
Re: Анализ (правка) HTML-кода страниц
«
Ответ #5 :
04 апреля 2007, 15:19:32 »
Цитата: Shasoft2 от 04 апреля 2007, 15:07:04
На данный момент мне бы хотелось безвозвратно удалять панели WebWrappera.
Это элементарно делается всего 1 простым правилом в "Черном списке":
#4#~#True#~#webwarper\.net/ww/~wwservicescriptgz/#~##~#
Цитировать
К примеру на gismeteo панель с новостями.
А это другим простым правилом:
#4#~#True#~#top\.rbc\.ru/include/#~##~#
Так чего же тебя не устраивает?
Сообщить модератору
Записан
Shasoft2
Новичок
Репутация: +0/-0
Offline
Сообщений: 17
Re: Анализ (правка) HTML-кода страниц
«
Ответ #6 :
04 апреля 2007, 15:31:31 »
У меня реклама то и так режется. Т.е. банеры не показываются.
Но хотелось бы саму панель удалять, чтобы место не занимало.
И к тому же webwarper добавляет в поля ввода текста свою месагу, а это тоже не очень хорошо.
Вот я и предлагаю добавить функции, аналогичные proxymitron-у
Сообщить модератору
Записан
mai62
Автор HC
Репутация: +226/-4
Offline
Сообщений: 6383
Re: Анализ (правка) HTML-кода страниц
«
Ответ #7 :
04 апреля 2007, 15:49:30 »
Shasoft2
Цитировать
Вот я и предлагаю добавить функции, аналогичные proxymitron-у
Подобное предложение звучало уже не раз. Что меня останавливает:
1. Нужен движок. Самый лучший вариант - понимающий правила proxomitron-а (поскольку в инете полно правил на все случаи жизни). Сам писать я не возьмусь - у меня нет времени сделать это на достойном уровне.
2. Для парсинга/правки страницы ее нужно сначала собрать в памяти целиком. Значит появится дополнительный расход ресурсов и задержка между появлением частей страницы на компе, где стоит НС, и передачей их клиенту.
Сообщить модератору
Записан
DenZzz
Модератор
Репутация: +179/-11
Offline
Сообщений: 5589
Re: Анализ (правка) HTML-кода страниц
«
Ответ #8 :
04 апреля 2007, 15:57:53 »
Цитата: Shasoft2 от 04 апреля 2007, 15:31:31
Но хотелось бы саму панель удалять, чтобы место не занимало.
Правило выше блокирует появление панели Webwarper'а!
Цитировать
И к тому же webwarper добавляет в поля ввода текста свою месагу, а это тоже не очень хорошо.
Да, потому что месага отправляется через сервер Webwarper'а!
А разве Proxomitron умеет вырезать эту месагу из отправляемого поста? И у него нет при этом проблем с открытыми сессиями, авторизацией и т.п. на этих форумах?
Цитировать
Вот я и предлагаю добавить функции, аналогичные proxymitron-у
Т.е. правку HTML-кода страницы? Проблемы реализации этого
mai62
уже озвучил...
P.S. А то, что ты перечислил выше, HC давно умеет!
Сообщить модератору
Записан
Shasoft2
Новичок
Репутация: +0/-0
Offline
Сообщений: 17
Re: Анализ (правка) HTML-кода страниц
«
Ответ #9 :
04 апреля 2007, 16:21:44 »
Вот что добавляет webwraper в поля ввода текста (хотя скорее всего только в многострочные поля) [Posted by 69.41.173.145 via
http://algart.net/ww
This is added while posting a message to avoid misuse.
Try:
http://webwarper.net/webwarper.exe
Example of viewing:
http://webwarper.net/ww/~av/lycos.com
]
и удалить это не получается.
Это правило у меня панель не удаляет, но тут я склоняюсь к тому, что просто криво настроил.
Я сам программист и трудности понимаю. Честно говоря я уже сам сел писать прокси, чтобы трафик сжимать через сервер, но тут скачал новую версию HC, а там уже есть перенаправление. Так что свою разработку забросил.
Как я понимаю:
1. У вас ведь URL-ы преобразовываются с использованием RegExp, так что мешает применить эти же функции для преобразования страниц? Или там не расчитано на большие объемы?
2. Понятно, что нужно собрать. Идеи такие: собираем страницу объемом до (можно объем через настройки сделать) к примеру 1 Мб, если собрали, то тогда обрабатываем её правилами, иначе начинаем отдавать данные браузеру и правила не используем. После обработки определяем новый размер данных и устанавливаем в заголовке Content-Length в нужное значение, удаляя "Transfer-Encoding: chunked", если оно было.
Сообщить модератору
Записан
mai62
Автор HC
Репутация: +226/-4
Offline
Сообщений: 6383
Re: Анализ (правка) HTML-кода страниц
«
Ответ #10 :
04 апреля 2007, 17:26:45 »
Shasoft2
Цитировать
Я сам программист...
Программист - это хорошо
, нам их не хватает
НС пока не поддерживает плагины, но уже сейчас можно писать полезные утилиты. Посмотри, например,
это
Цитировать
1. У вас ведь URL-ы преобразовываются с использованием RegExp, так что мешает применить эти же функции для преобразования страниц? Или там не расчитано на большие объемы?
Явных ограничений нет, но движок использует рекурсивный вызов функций и при сложных выражениях изрядно жрет стэк (в какой-то степени возможности движка можно испытать в тренажере НС). Опять же правила от proxomitron нельзя будет использовать, что снижает ценность такой реализации.
Я знаю, что существует проект с открытым исходным кодом, который умеет обрабатывать правила proxomitron. Год назад результат не очень впечатлял: большая нагрузка на процессор и глюки. Возможно сейчас там что-то изменилось к лучшему.
Сообщить модератору
Записан
Shasoft2
Новичок
Репутация: +0/-0
Offline
Сообщений: 17
Re: Анализ (правка) HTML-кода страниц
«
Ответ #11 :
04 апреля 2007, 17:39:14 »
У меня свой проект - читалка книг для сотового (
http://shasoft.com
)
Зайдешь, пользователям на форуме ответишь и уже пару мегов ушло. Мелочь, а неприятно.
Но теперь вернусь к своему проекту, а то с написанием своего прокси совсем что-то его забросил.
P.S. Кстати, ваш форум с WebWraper-то не дружит. Как я понимаю, он для отбивания спама как-то проверяет IP?
А то что-то не получается через WebWraper месагу запостить.
Сообщить модератору
Записан
mai62
Автор HC
Репутация: +226/-4
Offline
Сообщений: 6383
Re: Анализ (правка) HTML-кода страниц
«
Ответ #12 :
04 апреля 2007, 18:01:09 »
Shasoft2
Цитировать
У меня свой проект...
Заглянул на твой сайт и форум. Интересная востребованная программа
Желаю удачи в дальнейшем развитии.
Извините за оффтоп.
Сообщить модератору
Записан
DenZzz
Модератор
Репутация: +179/-11
Offline
Сообщений: 5589
Re: Анализ (правка) HTML-кода страниц
«
Ответ #13 :
04 апреля 2007, 20:01:41 »
Цитата: Shasoft2 от 04 апреля 2007, 17:39:14
P.S. Кстати, ваш форум с WebWraper-то не дружит.
Наш форум поддерживает GZIP и без всякого WebWarper'а, поэтому нет никакого смысла ходить сюда через WebWarper!
Сообщить модератору
Записан
Сергей
Beta tester
Репутация: +9/-2
Offline
Сообщений: 621
Re: Анализ (правка) HTML-кода страниц
«
Ответ #14 :
04 апреля 2007, 20:30:01 »
Цитировать
Для парсинга/правки страницы ее нужно сначала собрать в памяти целиком. Значит появится дополнительный расход ресурсов и задержка между появлением частей страницы на компе, где стоит НС, и передачей их клиенту
Значит не стоит нам парсить страницы. Задержка, для меня, - слишком высокая цена.
Пусть баннеры вырезает браузер. Он с этим лучше справляется.
Сообщить модератору
Записан
Дем
Постоялец
Репутация: +6/-3
Offline
Сообщений: 167
Re: Анализ (правка) HTML-кода страниц
«
Ответ #15 :
05 апреля 2007, 14:46:30 »
Цитировать
Для парсинга/правки страницы ее нужно сначала собрать в памяти целиком. Значит появится дополнительный расход ресурсов и задержка между появлением частей страницы на компе, где стоит НС, и передачей их клиенту
Целиком не обязательно. Достаточно буфера в размер выкусываемого куска.
Кстати, можно и альтернативный вариант - добавлять в файл некий жаваскрипт, который и займётся выкусыванием.
Сообщить модератору
Записан
Сергей
Beta tester
Репутация: +9/-2
Offline
Сообщений: 621
Re: Анализ (правка) HTML-кода страниц
«
Ответ #16 :
05 апреля 2007, 15:33:15 »
Цитата: Дем от 05 апреля 2007, 14:46:30
Кстати, можно и альтернативный вариант - добавлять в файл некий жаваскрипт, который и займётся выкусыванием.
Не дело это. WebWarper трудно использовать из-за того, что он портит страницы скриптами.
Если еще HC начнет так делать...
Сообщить модератору
Записан
Михаил
Gold beta tester
Репутация: +337/-14
Offline
Сообщений: 5513
Re: Анализ (правка) HTML-кода страниц
«
Ответ #17 :
02 июня 2007, 12:36:43 »
Цитата: mai62 от 04 апреля 2007, 15:49:30
Нужен движок. Самый лучший вариант - понимающий правила proxomitron-а (поскольку в инете полно правил на все случаи жизни). Сам писать я не возьмусь - у меня нет времени сделать это на достойном уровне.
Пользователю для работы с НС придется знать и регэкспы, и язык Проксомитрона. Это, на мой взгляд, не очень хорошо. Лучше, имхо, базироваться на регэкспах. Дополнения к языку придумаем.
Сообщить модератору
Записан
DenZzz
Модератор
Репутация: +179/-11
Offline
Сообщений: 5589
Re: Анализ (правка) HTML-кода страниц
«
Ответ #18 :
03 июня 2007, 17:18:06 »
Цитата: Михаил от 02 июня 2007, 12:36:43
Пользователю для работы с НС придется знать и регэкспы, и язык Проксомитрона. Это, на мой взгляд, не очень хорошо. Лучше, имхо, базироваться на регэкспах. Дополнения к языку придумаем.
Фильтры Проксомитрона тоже базируются на RegExp-ах!
Изобретать свой "велосипед" не имеет смысла! Как уже сказал
mai62
, в инете полно готовых фильтров для Проксомитрона на все случаи жизни, поэтому придумывать свой синтаксис и писать свои аналогичные фильтры, как минимум, не рационально!
Кроме того, это облегчит миграцию пользователей с Проксомитрона на HC - многие сейчас используют их в связке, потому что HC пока не поддерживает правку HTML-кода и заголовков...
Сообщить модератору
Записан
Михаил
Gold beta tester
Репутация: +337/-14
Offline
Сообщений: 5513
Re: Анализ (правка) HTML-кода страниц
«
Ответ #19 :
03 июня 2007, 22:32:38 »
Цитата: DenZzz от 03 июня 2007, 17:18:06
Изобретать свой "велосипед" не имеет смысла!
Не согласен. Если этот велосипед будет лучше ехать, то стоит.
Сообщить модератору
Записан
Страниц: [
1
]
2
3
Все
Вверх
Отправить эту тему
Печать
« предыдущая тема
следующая тема »
Перейти в:
Пожалуйста, выберите назначение:
-----------------------------
Главная категория
-----------------------------
=> Общие вопросы
=> Новые предложения
=> Дополнения, плагины
=> Сжатие трафика
=> English forum
=> Indonesian forum
-----------------------------
Гостевая
-----------------------------
=> Гостевая
-----------------------------
Дела домашние
-----------------------------
=> Сайт и форум HandyCache
=> Курилка
© 2006-2014 HandyCache Team. Все права защищены.
Загружается...