Илья
|
|
« : 16 апреля 2007, 15:43:28 » |
|
Тут мне понадобились HTML коды. Ну набрел я на сайт _http://html.manual.ru/ ну типа мне всё понравилось... Так вопрос: мне нужно загрузить полностью всё что находиться на сайте _http://html.manual.ru/ (всмысле то что находиться после _http://html.manual.ru/ в имени) Какими прогами нужно воспользоваться,... : . Справочник я бы скачал ноооо... его сначало надо найти а времени нет . Может это какнить можно будет потом использовать в НС? P.S. To mai62 скоро будет готова плагиновая структура? И если не сложно то сколько времени осталось для её реализации?
|
|
|
|
|
DenZzz
|
|
« Ответ #1 : 16 апреля 2007, 15:52:40 » |
|
мне нужно загрузить полностью всё что находиться на сайте _http://html.manual.ru/ (всмысле то что находиться после _http://html.manual.ru/ в имени) Какими прогами нужно воспользоваться,... : . WGET-ом или каким-нибудь оффлайн браузером... P.S. Вообще-то, на том сайте есть мануал в архиве: _http://html.manual.ru/html.manual.ru.zip
|
|
|
|
|
Илья
|
|
« Ответ #2 : 16 апреля 2007, 16:14:01 » |
|
Мда, ладно пасиб тебе. А НС будет такая возможность? Это ведь удобно. Ввел адрес и она тебе всё что есть после адреса загрузила. И ты ни чё не делаешь. Это было бы классно
|
|
|
|
|
DenZzz
|
|
« Ответ #3 : 16 апреля 2007, 16:28:41 » |
|
А НС будет такая возможность? Это ведь удобно. Ввел адрес и она тебе всё что есть после адреса загрузила. И ты ни чё не делаешь. Это было бы классно
Для этого надо анализировать HTML-код, а HC этого пока не умеет... Перенесу эту тему в " Новые предложения", а там посмотрим насколько это будет востребовано пользователями...
|
|
|
|
|
Сергей
|
|
« Ответ #4 : 16 апреля 2007, 16:39:08 » |
|
Зачем захламлять HC лишними функциями? Есть же Offline Explorer для этого. Кстати, у меня HC и OE работают в связке и помогают друг другу
|
|
|
|
|
DenZzz
|
|
« Ответ #5 : 16 апреля 2007, 17:22:38 » |
|
Зачем захламлять HC лишними функциями?
С одной стороны, основная функция HC - экономия трафика, а закачка всего сайта "не глядя" этому противоречит. Но с другой стороны, было много отзывов об использовании HC для оффлайн просмотра ранее посещенных страниц. Тогда HC экономит время (деньги) Dial-Up'никам с повременным тарифом или когда, например, надо быстро закачать сайт для домашнего оффлайн просмотра! Поэтому возможность загрузки сайтов HC бы не помешала! Тем более, что на пару с Историком он уже умеет доставать из кэша ранее посещенные страницы. Тогда не нужны будут всякие OE, кстати, платные! Осталось научить HC самостоятельно наполнять свой кэш связанными страницами сайта без участия пользователя. Разумеется, для этого сначала надо научиться анализировать HTML-код + потребуются дополнительные блоки настроек и фильтров. В общем, в отдаленной перспективе реализация такой возможности не помешала бы...
|
|
|
|
|
Сергей
|
|
« Ответ #6 : 16 апреля 2007, 17:27:11 » |
|
Все равно такой гибкости как в OE не получим. А для тех, кого смущает платность, есть GNUтый аналог - WGet
|
|
|
|
|
Илья
|
|
« Ответ #7 : 16 апреля 2007, 17:29:53 » |
|
Зачем захламлять HC лишними функциями? Есть же Offline Explorer для этого. Кстати, у меня HC и OE работают в связке и помогают друг другу Если можно то по подробнее о Offline Explorer. Есть www.сайт.ru\download.php и www.сайт.ru\index.html НС надо узнать их с использованием только www.сайт.ru\ и загрузить в кеш. Вот чё я хочу. Если вы конечно поняли
|
|
|
|
|
Сергей
|
|
« Ответ #8 : 16 апреля 2007, 17:37:44 » |
|
Если на www.сайт.ru есть ссылки на download.php и index.html, то OE их загрузит. HC сам не лезет по ссылкам на странице. Это бы называлось тогда агрессивным кэшированием. Такую фичу в принципе можно было бы добавить. Для тех кому не жалко трафика а важна скорость открытия ссылок. Пользователь еще выбирает куда кликнуть а HC бы уже скачал все ссылки и мгновенно выдал результат
|
|
|
|
|
Илья
|
|
« Ответ #9 : 17 апреля 2007, 09:15:07 » |
|
А возможно не имея ссылок ни наодин сайт, просто просканировать сервер и получить ссылки? А насчет агрессивного кеширования, комуто это будет удобнее чем самому лазить по сайту и грузить все ссылки. Это быстрее и удобнее.
|
|
|
|
|
Сергей
|
|
« Ответ #10 : 17 апреля 2007, 10:34:12 » |
|
Что значит просканировать? Мы не можем просто пробежаться по каталогам как на ftp сервере. Там и каталогов то может и не быть. Поэтому, чтобы получить все ссылки надо скачать все страницы сайта.
|
|
|
|
|
Илья
|
|
« Ответ #11 : 17 апреля 2007, 12:37:39 » |
|
А как тогда можно узнать ссылки на страницы, которые есть на етом сервере? Yandex как работает?
|
|
|
|
|
Сергей
|
|
« Ответ #12 : 17 апреля 2007, 13:18:49 » |
|
Так и работает Скачивает и из страницы читает ссылки. Думаешь есть способ узнать содержимое файла не скачивая? Хотя вот гугл придумал специальные файлы sitemap со списком страниц сайта. Но его тоже надо скачивать, как минимум.
|
|
|
|
|
Илья
|
|
« Ответ #13 : 17 апреля 2007, 16:32:15 » |
|
Короче, я подумал... и придумал алгоритм работы этого вида кеширования: Сначало береться URL по которому потом и исчутся и загружаются страницы. После этот URL записываеться в файл "URL". Потом загружается сама страница. После загрузки просматриваеться HTML код <A HREF="URL/*"> Все найденные ссылки пишутся в файл "URL" После того как главная страница загрузилась и найдены ссылки, береться первая попавшая ся ссылка. Загружается... Сканируется и ишится HTML код <A HREF="URL/*">. Ссылки которые были найдены в прошлые разы не записываются.
Ну примерно так это должно выглядеть. Потом доработаем алгоритм и отправим его mai62
|
|
|
|
|
cepera_ang
|
|
« Ответ #14 : 17 апреля 2007, 19:07:58 » |
|
Думаешь ты первый это придумал? А теперь представь, что у тебя на сайте находится ссылка например на рекламу порно, а оттуда еще 100 ссылок на такие сайты, а там на каждом еще по 100. Вот и представь сколько будет закачиваться этот сайт. Можно конечно такие фишки предусмотреть, но это получится сложный-сложный алгоритм, как раз уже давно реализованный во всяких офлайн-браузерах. В них зачастую десятки опций... Зачем изобретать велосипед? ЗЫ А если по ссылкам RAR архив на 4 гбайт?
|
|
|
|
|
v0lt
|
|
« Ответ #15 : 17 апреля 2007, 20:56:47 » |
|
+1 Ставишь любой нормальный офлайн браузер, делаешь им копию сайта. Копию можно выкинуть и юзать историк.
С нуля такое писать изврат (нормальные сайтокачалки даже скрипты пытаются анализировать)
|
|
|
|
|
Илья
|
|
« Ответ #16 : 18 апреля 2007, 09:23:13 » |
|
А если можно, то ссылочку можно? И сам оф браузер. А какой лучше?
|
|
|
|
|
cepera_ang
|
|
« Ответ #17 : 18 апреля 2007, 09:30:02 » |
|
Offline Explorer, Teleport Pro, может еще что-нибудь гуру посоветуют. Сам ничем не пользуюсь, поэтому подсказать не могу.
|
|
|
|
|
Nebul@
Новичок
Репутация: +0/-0
Offline
Сообщений: 16
aka Туманность
|
|
« Ответ #18 : 19 апреля 2007, 07:53:52 » |
|
Неплох WebZIP, очень неплох. Стараюсь мигрировать на бесплатные - HTTPTrack и wGET но пока не "асилил", учу команды.
|
|
|
|
|
Hamlet
Новичок
Репутация: +0/-0
Offline
Сообщений: 8
|
|
« Ответ #19 : 15 августа 2007, 13:08:09 » |
|
Итак следующая "хотелка", предназначенная на этот раз в основном для пользователей Dial-Up (таких мало, но они остались) 1. Добавить возможность включения опережающей загрузки по ссылкам на странице, т.е. я захожу на страницу, она загружается, а после в кеш подгружаются страницы, расположенные по ссылкам на основной. Подобная функция удобна для тех, кто платит за время, а не за траффик и позволит ускорить работу, например, на форумах. Т.е. я зашел на первую страницу топика и пока читаю ее в кеш грузятся остальные страницы. Таким образом, переход на следующие страницы будет быстрым, если они к моменту прочтения загрузятся. 2. И как следствие напрашивается возможность загрузки сайта полностью в кеш до определенного уровня. Очень полезно для сайтов с онлайн документацией или для порно-сайтов шутка. Стоит добавить параметры загрузки, как у некоторых подобных продуктов: - только текст - текст и графика - все Кроме того, можно ограничивать размер объектов, загружаемых в кеш, чтобы исключить загрузки каких-нибудь слишком "тяжелых" архивов или графики. Вот, собственно, и все на сегодня.
|
|
|
|
|
|