2
iNNOCENtЦитата:
1) Некий робот раз в n (10?) минут считывает последние запросы с Dreamstime и сохраняет их в базу. Причём, сохраняется дата и время запроса + целиком запросы (словосочетания), без дробления на слова.
ладно еще дата, а вот что вам даст время запроса, помойму это будет бесполезный параметр. Кроме того, время и дата запроса могут очень сильно разростить базу до неимоверных размеров, что приведет сервис к очень медленной работе. Также время запроса скажет только о том, когда тот или иной дизайнер(и тд) искал карточку, на пример, утром, до обеда или после...
Со временем - согласен, погорячился. А вот с датой - можно было бы более гибко задавать период поиска (напр. за день, 3 дня, неделю, месяц, три месяца и т.д.). Хотя, в принципе, это может и излишне.
А насчёт размера базы - то тут можно посчитать. Если получится дату сохранять один раз на "сеанс" считывания данных с Dreams (а не для каждого отдельного словосочетания), то 1kb ИМХО будет выши крыши на один "сеанс", что при интервале считывания данных раз в 10 минут нам даёт 144 kb в день или порядка 50MB в год, что мне не представляется ужасным...
Кстати, мне кажется было бы полезным не делать сервис 100% online, а скорее сделать небольшую прогу, доступную для скачивания и выкладывать обновления базы (последние в заархивированном виде будут весить совсем копейки). Это и пользователям было бы удобнее (не надо быть всё время online) и не потребует никаких серверных мощностей.
Цитата:
Мне кажется, и не тоьлко мне, что оптимально использовать статистику слова за неделю. сразу будут видны всплески и падения таких слов в запросах.
Словосочетания добавлю.
А вот здесь позволю не согласиться. Статистика за неделю может чисто статистически быть нерепрезентативной, особенно по словосочетаниям. Кроме того, часто наоборот будет полезнее иметь "сглаженную" статистику, т.е. что ищется более-менее постоянно, а не в связи с каким-то наступающим или прошедшим событием, праздником и т.д. В таком случае будет гораздо интереснее иметь статистику за 3 месяца, полгода или даже год (если удастся её собрать)...
А статистика за неделю нужна только в том случае, если есть желание уловить пик спроса, а не сделать стабильно продающуюся фотографию.
Цитата:
А зачем делить на общее количество запросов, ведь количество упоминаний данного запроса за период имеет тот же смысл, чем больше упоминаний, тем выше рейтинг. Ведь во всех случаях будет формироваться топ за промежуток времени, деление ничего не даст.
Какая разница, если вам выдаст что слово girl(например) упоминалось за неделю 235 раз, а запросов было 10 345? или вам выдаст рейтинг слова girl 0,0227???
Делить на количество запросов имеет смысл для того, чтобы можно было сравнивать рейтинг по запросам за разные промежутки времени. Чтобы не получалось, что рейтинг за месяц в четыре раза выше рейтинга за неделю только потому, что период выборки в четыре раза длиннее. А сравнивать интересно было бы, прежде всего, чтобы понять тенденции спроса (например относя рейтинг определённых слов за последний месяц к их рейтингу за последние 3 месяца, можно определить, например, растёт ли в данный момент спрос на рождественскую тематику или падает).
Ещё раз подчёркиваю, что статистика за неделю мне кажется нерепрезентативной ни для чего кроме как улавливания каких-то кратковременных колебаний (что тоже, безусловно, интересно, не далеко не единственное возможное применение данной ст-ки).
Цитата:
Кроме этого, дримс выдает не все слова, а только либо первые либо последние за прошедшие 10 мин. Еще заметил, что ночью он пару раз обновлял статистику раз в 15 и раз в 20 минут... вроде...
Против этого можно сделать элементарную защиту - если считанные вновь данные совпадают с предыдущими, то мы их игнорируем и не сохраняем. Можно, так же, сделать и более гибкую проверку - сравнивать не весь результат, а искать, скажем, 3 или 4 идущих подряд одинаковых запроса - это на случай, если за период обновления данных было слишком мало новых запросов и список обновился частично, что впрочем очень маловероятно...
Кроме того, при сборе данной статистики, мне кажется, не стоит особо париться, если какие-то запросы будут пропущены - гораздо "опаснее" если данные будут дублироваться. Поэтому, может, имеет смысл сделать более редкие запросы и добавить проверку на дубликат (как описано выше) - в этом случае мы за неделю или любой другой период накопим меньше данных, но со временем статистика всё равно обретёт репрезентативность.
В любом случае - предлагаю не зацикливаться на каком-то одном применении данных - мне кажется гораздо полезнее собрать массив данных, к-е можно будет потом анализировать и так и сяк...