HandyCache форум

Главная категория => Новые предложения => Тема начата: Илья от 16 апреля 2007, 15:43:28



Название: "Опережающая загрузка" и "агрессивное кэширование" (для оффлайн просмотра)
Отправлено: Илья от 16 апреля 2007, 15:43:28
Тут мне понадобились HTML коды. :search: Ну набрел я на сайт _http://html.manual.ru/ ну типа мне всё понравилось... Так вопрос: мне нужно загрузить полностью всё что находиться на сайте _http://html.manual.ru/ (всмысле то что находиться после  _http://html.manual.ru/  в имени) Какими прогами нужно воспользоваться,...  ::) . Справочник я бы скачал ноооо... его сначало надо найти а времени нет :'(. Может это какнить можно будет потом использовать в НС?

P.S. To mai62 скоро будет готова плагиновая структура? И если не сложно то сколько времени осталось для её реализации?


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: DenZzz от 16 апреля 2007, 15:52:40
мне нужно загрузить полностью всё что находиться на сайте _http://html.manual.ru/ (всмысле то что находиться после  _http://html.manual.ru/  в имени) Какими прогами нужно воспользоваться,...  ::) .

WGET-ом или каким-нибудь оффлайн браузером...

P.S. Вообще-то, на том сайте есть мануал в архиве: _http://html.manual.ru/html.manual.ru.zip


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Илья от 16 апреля 2007, 16:14:01
 ??? Мда, ладно пасиб тебе. А НС будет такая возможность? Это ведь удобно. Ввел адрес и она тебе всё что есть после адреса загрузила. И ты ни чё не делаешь. Это было бы классно  :thanks:


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: DenZzz от 16 апреля 2007, 16:28:41
А НС будет такая возможность? Это ведь удобно. Ввел адрес и она тебе всё что есть после адреса загрузила. И ты ни чё не делаешь. Это было бы классно

Для этого надо анализировать HTML-код, а HC этого пока не умеет...

Перенесу эту тему в "Новые предложения (http://handycache.ru/component/option,com_smf/Itemid,10/board,4.0/)", а там посмотрим насколько это будет востребовано пользователями... ;)


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Сергей от 16 апреля 2007, 16:39:08
Зачем захламлять HC лишними функциями?
Есть же Offline Explorer для этого. Кстати, у меня HC и OE работают в связке и помогают друг другу ;)


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: DenZzz от 16 апреля 2007, 17:22:38
Зачем захламлять HC лишними функциями?

С одной стороны, основная функция HC - экономия трафика, а закачка всего сайта "не глядя" этому противоречит.

Но с другой стороны, было много отзывов об использовании HC для оффлайн просмотра ранее посещенных страниц. Тогда HC экономит время (деньги) Dial-Up'никам с повременным тарифом или когда, например, надо быстро закачать сайт для домашнего оффлайн просмотра!

Поэтому возможность загрузки сайтов HC бы не помешала! Тем более, что на пару с Историком он уже умеет доставать из кэша ранее посещенные страницы. Тогда не нужны будут всякие OE, кстати, платные! ;)

Осталось научить HC самостоятельно наполнять свой кэш связанными страницами сайта без участия пользователя. Разумеется, для этого сначала надо научиться анализировать HTML-код + потребуются дополнительные блоки настроек и фильтров.

В общем, в отдаленной перспективе реализация такой возможности не помешала бы...  :)


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Сергей от 16 апреля 2007, 17:27:11
Все равно такой гибкости как в OE не получим. А для тех, кого смущает платность, есть GNUтый аналог - WGet ;)


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Илья от 16 апреля 2007, 17:29:53
Зачем захламлять HC лишними функциями?
Есть же Offline Explorer для этого. Кстати, у меня HC и OE работают в связке и помогают друг другу ;)
Если можно то по подробнее о Offline Explorer.
Есть www.сайт.ru\download.php и www.сайт.ru\index.html
НС надо узнать их с использованием только www.сайт.ru\ и загрузить в кеш.
Вот чё я хочу. Если вы конечно поняли ;)


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Сергей от 16 апреля 2007, 17:37:44
Если на  www.сайт.ru есть ссылки на download.php и index.html, то OE их загрузит.
HC сам не лезет по ссылкам на странице. Это бы называлось тогда агрессивным кэшированием. Такую фичу в принципе можно было бы добавить. Для тех кому не жалко трафика а важна скорость открытия ссылок. Пользователь еще выбирает куда кликнуть а HC бы уже скачал все ссылки и мгновенно выдал результат :)


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Илья от 17 апреля 2007, 09:15:07
А возможно не имея ссылок ни наодин сайт, просто просканировать сервер и получить ссылки?
А насчет агрессивного кеширования, комуто это будет удобнее чем самому лазить по сайту и грузить все ссылки. Это быстрее и удобнее.


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Сергей от 17 апреля 2007, 10:34:12
Что значит просканировать? Мы не можем просто пробежаться по каталогам как на ftp сервере. Там и каталогов то может и не быть. Поэтому, чтобы получить все ссылки надо скачать все страницы сайта. :(


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Илья от 17 апреля 2007, 12:37:39
А как тогда можно узнать ссылки на страницы, которые есть на етом сервере?
Yandex как работает?


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Сергей от 17 апреля 2007, 13:18:49
Так и работает ;)
Скачивает и из страницы читает ссылки.
Думаешь есть способ узнать содержимое файла не скачивая?
Хотя вот гугл придумал специальные файлы sitemap (https://www.google.com/webmasters/tools/docs/ru/protocol.html) со списком страниц сайта.
Но его тоже надо скачивать, как минимум.


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Илья от 17 апреля 2007, 16:32:15
Короче, я подумал... и придумал алгоритм работы этого вида кеширования:
Код:
Сначало береться URL по которому потом и исчутся и загружаются страницы.
После этот URL записываеться в файл "URL".
Потом загружается сама страница.
После загрузки просматриваеться HTML код <A HREF="URL/*">
Все найденные ссылки пишутся в файл "URL"
После того как главная страница загрузилась и найдены ссылки, береться первая попавшая ся ссылка.
Загружается...
Сканируется и ишится HTML код <A HREF="URL/*">.
Ссылки которые были найдены в прошлые разы не записываются.
Ну примерно так это должно выглядеть.

Потом доработаем алгоритм и отправим его mai62






Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: cepera_ang от 17 апреля 2007, 19:07:58
Думаешь ты первый это придумал? А теперь представь, что у тебя на сайте находится ссылка например на рекламу порно, а оттуда еще 100 ссылок на такие сайты, а там на каждом еще по 100. Вот и представь сколько будет закачиваться этот сайт. Можно конечно такие фишки предусмотреть, но это получится сложный-сложный алгоритм, как раз уже давно реализованный во всяких офлайн-браузерах. В них зачастую десятки опций... Зачем изобретать велосипед?
ЗЫ А если по ссылкам RAR архив на 4 гбайт?


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: v0lt от 17 апреля 2007, 20:56:47
+1
Ставишь любой нормальный офлайн браузер, делаешь им копию сайта.
Копию можно выкинуть и юзать историк.

С нуля такое писать изврат (нормальные сайтокачалки даже скрипты пытаются анализировать)


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Илья от 18 апреля 2007, 09:23:13
А если можно, то ссылочку можно? И сам оф браузер. А какой лучше?


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: cepera_ang от 18 апреля 2007, 09:30:02
Offline Explorer, Teleport Pro, может еще что-нибудь гуру посоветуют. Сам ничем не пользуюсь, поэтому подсказать не могу.


Название: Re: Загрузка всех страниц сайта для оффлайн просмотра
Отправлено: Nebul@ от 19 апреля 2007, 07:53:52
Неплох WebZIP, очень неплох. Стараюсь мигрировать на бесплатные  - HTTPTrack и wGET но пока не "асилил", учу команды.


Название: "Опережающая загрузка" и сохранение сайта до уровня N
Отправлено: Hamlet от 15 августа 2007, 13:08:09
Итак следующая "хотелка", предназначенная на этот раз в основном для пользователей Dial-Up (таких мало, но они остались)

1. Добавить возможность включения опережающей загрузки по ссылкам на странице, т.е. я захожу на страницу, она загружается, а после в кеш подгружаются страницы, расположенные по ссылкам на основной. Подобная функция удобна для тех, кто платит за время, а не за траффик и позволит ускорить работу, например, на форумах. Т.е. я зашел на первую страницу топика и пока читаю ее в кеш грузятся остальные страницы. Таким образом, переход на следующие страницы будет быстрым, если они к моменту прочтения загрузятся.

2. И как следствие напрашивается возможность загрузки сайта полностью в кеш до определенного уровня. Очень полезно для сайтов с онлайн документацией или для порно-сайтов :) шутка. Стоит добавить параметры загрузки, как у некоторых подобных продуктов:
- только текст
- текст и графика
- все
Кроме того, можно ограничивать размер объектов, загружаемых в кеш, чтобы исключить загрузки каких-нибудь слишком "тяжелых" архивов или графики.

Вот, собственно, и все на сегодня.


Название: Re: "Опережающая загрузка" и сохранение сайта до уровня N
Отправлено: Rick от 15 августа 2007, 13:42:53
т.е. я захожу на страницу, она загружается, а после в кеш подгружаются страницы, расположенные по ссылкам на основной.
HandyCache понятия не имеет, какие ссылки размещены на странице.


Название: Re: "Опережающая загрузка" и сохранение сайта до уровня N
Отправлено: Михаил от 15 августа 2007, 14:31:52
Hamlet
Добавление возможности парсинга кода страниц предлагается давно (http://handycache.ru/component/option,com_smf/Itemid,10/topic,397.0/).
Пока, увы, ее нет.


Название: Re: "Опережающая загрузка" и сохранение сайта до уровня N (для оффлайн просмотра)
Отправлено: DenZzz от 15 августа 2007, 15:58:27
Hamlet

Уже обсуждалось! Объединил темы. Читай с первого поста...


Название: Re: "Опережающая загрузка" и "агрессивное кэширование" (для оффлайн просмотра)
Отправлено: hello от 30 декабря 2007, 14:34:05
я сейчас качаю Portable Offline Explorer, буду его через прокси юзать, но я хотел просто скачать с одного сайта кучу валлпаперов и всяких картинок, чтобы потом по нему легко было ходить!


Название: Re: "Опережающая загрузка" и "агрессивное кэширование" (для оффлайн просмотра)
Отправлено: cepera_ang от 30 декабря 2007, 15:00:58
я сейчас качаю Portable Offline Explorer, буду его через прокси юзать, но я хотел просто скачать с одного сайта кучу валлпаперов и всяких картинок, чтобы потом по нему легко было ходить!
И?