+  HandyCache форум
|-+  Главная категория» Новые предложения» Поиск текста в кэше HandyCache
Имя пользователя:
Пароль:
Страниц: [1]   Вниз
  Отправить эту тему    Печать  
Автор Тема: Поиск текста в кэше HandyCache  (Прочитано 9315 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Qua
Новичок
*

Репутация: +1/-0
Offline Offline

Сообщений: 22



« : 24 января 2007, 01:42:02 »

Так уж сложилось, что многие файлы в кэше HandyCache не имеют расширений, указывающих на их тип.
Сложилось и так, что некоторые поисковики не ищут в таких файлах, т.к. в них нельзя указать, что надо индексировать файлы не имеющих расширения.  Плачущий

Вопрос:
Как индексировать файлы не имеющие расширений? Причём, такие файлы могут быть просто текстовыми (txt, html), а могут - gzip'ованными?!  Непонимаю

Предложение - возможно вместо пустого расширения или .new указывать расширения - *.new.txt, *.new.jpg или *.new.gzip

Разумеется в HC полноценное распознавание типа файлов (или, например, его кодировки) не встроишь, но ведь HC понимает, что данный файл получен gzip и мог бы добавлять это расширение. А при запросе этой страницы браузером (браузер ведь будет спрашивать данные страницы без расширения) HC выдает такие страницы без расширения.
Сообщить модератору   Записан

И др., и пр., и т.д., и т.п.
DenZzz
Модератор
*****

Репутация: +179/-11
Offline Offline

Сообщений: 5589



« Ответ #1 : 24 января 2007, 08:54:37 »

Qua

Цитировать
Как индексировать файлы не имеющие расширений? Причём, такие файлы могут быть просто текстовыми (txt, html), а могут - gzip'ованными?!

Архивариус 3000 все это умеет! Он может искать и в файлах без расширений, и внутри GZIP и понимает еще кучу всяких форматов!

Цитировать
Предложение - возможно вместо пустого расширения или .new указывать расширения - *.new.txt, *.new.jpg или *.new.gzip

Я категорически против такого коверкания исходного пути! Тогда во многих случаях восстановить исходный URL будет невозможно!

HC придется запоминать, сам ли он добавил это расширение или оно уже было в URL !
Кроме того, сторонние программы (Историк, Архивариус и т.п.) не смогут правильно восстановить исходный URL !

Цитировать
но ведь HC понимает, что данный файл получен gzip и мог бы добавлять это расширение.

HC ставит такому файлу атрибут "системный", а не портит имя файла расширением - в общем, правильно делает!
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #2 : 24 января 2007, 10:02:17 »

Архивариус распознает gz по сигнатурам, и HC тоже так делает. Аттрибут системный, как я понимаю, остался со старых времен.

Сообщить модератору   Записан
Дем
Постоялец
***

Репутация: +6/-3
Offline Offline

Сообщений: 167



« Ответ #3 : 24 января 2007, 10:14:00 »

Вообще говоря, большинство бинарных файлов чётко опознаются по их первым NNN байтов. И в НС это уже есть (кроме флешек, вроде)
Ну а сжатые, помимо этого - по сигнатуре содержимого. Хотя, как правило - они текстовые.
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #4 : 24 января 2007, 10:37:31 »

HC  не распаковывает GZ. просто дописывает в конец заголовки, которые сервер сообщил и потом использует в автономке.
Сообщить модератору   Записан
Андрей Зорин
Гость
« Ответ #5 : 03 апреля 2007, 14:26:57 »

Архивариус 3000 - это конечно очень круто. Но очень.
Да и не бесплатно.
Короче, меня абсолютно устраивает Yandex Desctop.

Можете ли вы сделать для него плагин со следующей функциональностью?
1. Что бы он мог искать в кэше HandyCache
2. Что бы результат поиска возвращался в виде
http://total-film.ru/forum/lofiversion/index.php/t304.html
а не
file:///C:/Cache/total-film.ru/forum/lofiversion/index.php/t304.html

http://desktop.yandex.ru/plugins.xml
Сообщить модератору   Записан
Rick
Администратор
*****

Репутация: +15/-1
Offline Offline

Сообщений: 868


WWW
« Ответ #6 : 03 апреля 2007, 14:58:28 »

Андрей Зорин
Цитировать
Я же в подобных случаях открываю "Яндекс Персональный" и просто ищу у себя на компьютере. Один минус - не дружит он с кэшем HandyCache, воспринимает его просто как папки с html-файлами.
А как же надо? Чтобы в результате показывался не локальный файл, а ссылка на страницу в инете?

Цитировать
Для подавляющего большинства сайтов этого хватает, но вот некоторые... Увы, веб-страницы они генерируют, то есть эти самые страницы на диске не сохраняются.
HandyCache может кэшировать все - даже то, что браузеры не кэшируют.
Сообщить модератору   Записан
Андрей Зорин
Гость
« Ответ #7 : 03 апреля 2007, 15:27:38 »

Цитировать
А как же надо? Чтобы в результате показывался не локальный файл, а ссылка на страницу в инете?
Да. Я практически абсолютный 0 во всех этих делах, но как я понимаю, это должно быть аналогично поиску в кэше FF. Для него в Yandex Desctop специальный плагин.
Результат выводится с подобной ссылкой http://127.0.0.1:9375/hl?url=ff.ds.1/AACB735D
Цитировать
Для подавляющего большинства сайтов этого хватает, но вот некоторые... Увы, веб-страницы они генерируют, то есть эти самые страницы на диске не сохраняются.
С этим я разобрался - добавил в тип файлов html расширение .php.  Смущен Теперь находит и там.
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #8 : 03 апреля 2007, 18:44:03 »

Программа развивается, оказывается Улыбка

Посмотрел. Первые впечатления такие:
Нельзя индексировать файлы без расширения html
Не вижу как изменять шаблон вывода результатов
Но зато добавили API для плагинов. Это дает надежду.
Оперный кэш уже индексирует. Значит и с HC справится.
« Последнее редактирование: 03 апреля 2007, 19:02:10 от Сергей » Сообщить модератору   Записан
mai62
Автор HC
*****

Репутация: +226/-4
Offline Offline

Сообщений: 6383


« Ответ #9 : 03 апреля 2007, 19:14:35 »

Может найдется Сишный программер, разомнет руки? Там есть примеры плагинов, кому не слабО?  Подмигивающий
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #10 : 03 апреля 2007, 19:29:10 »

Даже пошаговая инструкция с картинками есть Улыбка 
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #11 : 03 апреля 2007, 19:40:57 »

добавил в тип файлов html расширение .php. 
А можно там добавить пустое расширение?
Сообщить модератору   Записан
Андрей Зорин
Гость
« Ответ #12 : 03 апреля 2007, 21:17:54 »

Цитировать
Нельзя индексировать файлы без расширения html
Можно - щёлкаешь по html и добавляешь свои расширения. Я таким способом .php добавил
Цитировать
Не вижу как изменять шаблон вывода результатов
А оно сильно надо? Можно фильтровать по типам файлов
Цитировать
А можно там добавить пустое расширение?
Можно. Но толку не заметил. Попробовал * - кажется тоже без толку. ИМХО оно и правильно - зачем в картинках и прочем мусоре копаться?

Повторяю - я отдаю себе отчёт, что Архивариус круче, но... смотри выше. Вдобавок Архивариус  поиска возвращает в виде file:///, а в Яндексе ИМХО через плагин можно сделать в виде http://

ОФФ: Не могу никак зарегистрироваться на форуме -
http://handycache.ru/component/option,com_smf/Itemid,10/action,register2/
- и тишина Грустный
Сообщить модератору   Записан
Сергей
Beta tester
*****

Репутация: +9/-2
Offline Offline

Сообщений: 621



« Ответ #13 : 03 апреля 2007, 21:49:28 »

В том то и дело, что я заставил Архивариус выдавать результат в виде http://
Делалось это путем модификации щаблона вывода результатов поиска.
Небольшой JavaScript исправлял ссылки file:/// на "правильные"

В яндексе можно реализовать более красиво. Через плагин интерфейса к кэшу HC.
Да и возможности Архивариуса для нас избыточны.
Сообщить модератору   Записан
Copoka
Новичок
*

Репутация: +0/-1
Offline Offline

Сообщений: 2


« Ответ #14 : 23 февраля 2008, 22:39:10 »


  • ... было бы не плохо на мой взгляд сделать поиск текста на страницах в кэше ...
    ... что то типа программы AVSearch ...
    ... но более лояльный на поиск текста ... 
    ... потому что к примеру AVSearch не может найти текст в UTF-8 ... :-(((
    ... думаю что это не было бы лишним ...
    ... найти то, что уже где то есть в кэше ...
Сообщить модератору   Записан
Страниц: [1]   Вверх
  Отправить эту тему    Печать  

 
Перейти в: