КЛУБ СТОКОВЫХ ФОТОГРАФОВ, ИЛЛЮСТРАТОРОВ, ВИДЕОГРАФОВ и ИИ-ШНИКОВ

Текущее время: 20 07 2025, 23:57

Часовой пояс: UTC + 2 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 90 ]  На страницу Пред.  1, 2, 3, 4, 5, 6  След.
Автор Сообщение
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 11:05 
Не в сети

Зарегистрирован: 07 06 2007, 13:18
Сообщения: 83
Откуда: Moscow
shalex84 писал(а):
2 iNNOCENt
Цитата:
1) Некий робот раз в n (10?) минут считывает последние запросы с Dreamstime и сохраняет их в базу. Причём, сохраняется дата и время запроса + целиком запросы (словосочетания), без дробления на слова.
ладно еще дата, а вот что вам даст время запроса, помойму это будет бесполезный параметр. Кроме того, время и дата запроса могут очень сильно разростить базу до неимоверных размеров, что приведет сервис к очень медленной работе. Также время запроса скажет только о том, когда тот или иной дизайнер(и тд) искал карточку, на пример, утром, до обеда или после...

Со временем - согласен, погорячился. А вот с датой - можно было бы более гибко задавать период поиска (напр. за день, 3 дня, неделю, месяц, три месяца и т.д.). Хотя, в принципе, это может и излишне.

А насчёт размера базы - то тут можно посчитать. Если получится дату сохранять один раз на "сеанс" считывания данных с Dreams (а не для каждого отдельного словосочетания), то 1kb ИМХО будет выши крыши на один "сеанс", что при интервале считывания данных раз в 10 минут нам даёт 144 kb в день или порядка 50MB в год, что мне не представляется ужасным...

Кстати, мне кажется было бы полезным не делать сервис 100% online, а скорее сделать небольшую прогу, доступную для скачивания и выкладывать обновления базы (последние в заархивированном виде будут весить совсем копейки). Это и пользователям было бы удобнее (не надо быть всё время online) и не потребует никаких серверных мощностей.

Цитата:
Мне кажется, и не тоьлко мне, что оптимально использовать статистику слова за неделю. сразу будут видны всплески и падения таких слов в запросах.
Словосочетания добавлю.


А вот здесь позволю не согласиться. Статистика за неделю может чисто статистически быть нерепрезентативной, особенно по словосочетаниям. Кроме того, часто наоборот будет полезнее иметь "сглаженную" статистику, т.е. что ищется более-менее постоянно, а не в связи с каким-то наступающим или прошедшим событием, праздником и т.д. В таком случае будет гораздо интереснее иметь статистику за 3 месяца, полгода или даже год (если удастся её собрать)...

А статистика за неделю нужна только в том случае, если есть желание уловить пик спроса, а не сделать стабильно продающуюся фотографию.

Цитата:
А зачем делить на общее количество запросов, ведь количество упоминаний данного запроса за период имеет тот же смысл, чем больше упоминаний, тем выше рейтинг. Ведь во всех случаях будет формироваться топ за промежуток времени, деление ничего не даст.
Какая разница, если вам выдаст что слово girl(например) упоминалось за неделю 235 раз, а запросов было 10 345? или вам выдаст рейтинг слова girl 0,0227???


Делить на количество запросов имеет смысл для того, чтобы можно было сравнивать рейтинг по запросам за разные промежутки времени. Чтобы не получалось, что рейтинг за месяц в четыре раза выше рейтинга за неделю только потому, что период выборки в четыре раза длиннее. А сравнивать интересно было бы, прежде всего, чтобы понять тенденции спроса (например относя рейтинг определённых слов за последний месяц к их рейтингу за последние 3 месяца, можно определить, например, растёт ли в данный момент спрос на рождественскую тематику или падает).

Ещё раз подчёркиваю, что статистика за неделю мне кажется нерепрезентативной ни для чего кроме как улавливания каких-то кратковременных колебаний (что тоже, безусловно, интересно, не далеко не единственное возможное применение данной ст-ки).

Цитата:
Кроме этого, дримс выдает не все слова, а только либо первые либо последние за прошедшие 10 мин. Еще заметил, что ночью он пару раз обновлял статистику раз в 15 и раз в 20 минут... вроде...


Против этого можно сделать элементарную защиту - если считанные вновь данные совпадают с предыдущими, то мы их игнорируем и не сохраняем. Можно, так же, сделать и более гибкую проверку - сравнивать не весь результат, а искать, скажем, 3 или 4 идущих подряд одинаковых запроса - это на случай, если за период обновления данных было слишком мало новых запросов и список обновился частично, что впрочем очень маловероятно...

Кроме того, при сборе данной статистики, мне кажется, не стоит особо париться, если какие-то запросы будут пропущены - гораздо "опаснее" если данные будут дублироваться. Поэтому, может, имеет смысл сделать более редкие запросы и добавить проверку на дубликат (как описано выше) - в этом случае мы за неделю или любой другой период накопим меньше данных, но со временем статистика всё равно обретёт репрезентативность.

В любом случае - предлагаю не зацикливаться на каком-то одном применении данных - мне кажется гораздо полезнее собрать массив данных, к-е можно будет потом анализировать и так и сяк...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 11:20 
Не в сети

Зарегистрирован: 07 06 2007, 13:18
Сообщения: 83
Откуда: Moscow
WildCat писал(а):
shalex84 писал(а):
пока могу сказать, что основные хиты: gerl, boy, men, sexy и с ними связаное....


вот именно поэтому надо привязывать статистику к топу продаж хоть каким-то боком, иначе в результате получится список ключевых слов, наиболее популярных среди... малолетних дрочеров, шарящихся по дриму в поисках ню-шек (и разумеется нифига не покупающих) :)



А вот этим и отличается идея поиска слов "смежных" с основными словами указанными пользователем от обычных TOP-ов. Если вы не будете указывать основных слов соответствующей тематики, то скорее всего и в результатах они не будут преобладать (и уж практически точно не будут на топовых позициях по упоминаимости в словосочетаниях).

Учитывать продажи - было бы хорошо, но боюсь что ни один фотобанк не отдаёт статистики по связке поиск - покупка.

Кроме того, статистика продаж может сыграть и дурную шутку - если по большинству запросов были совершены покупки, значит что в фотобанке уже и так навалом хороших работ по данной тематике и не факт, что с ними будет легко конкурировать. А вот если после поиска покупки не было - кроме "дрочеров" и самих фотографов это ещё часто может говорить о том, что потенциальных покупатель просто не нашёл достойного изображения и пошёл искать elsewhere...


Цитата:
интересно не просто запросы, а связка запрос-покупка, т.е. результативные запросы или же, наоборот, запросы абсолютно нерезультативные, т.е. повторяющиеся запросы того, чего в базе пока мало или нет вообще.

кста, кол-во фоток на каждый кейворд вроде как тоже можно вытащить на каком-то из стоков (фотолия? дрим?), точно помню что видел эти цифры в момент ввода слов в поле поиска в виде выпадающей подсказки. это тоже крайне важная инфа, и если ее вытащить и скрестить результаты с частотным словарем английского языка, то - уверен - нас ждут очень интересные результаты :)


Это - да. Но изначально моя идея была в анализе спроса, а Вы уже говорите о сопоставлении спроса с предложением и анализом конкуренции, что уже следующий, гораздо более сложный этап. Давайте начнём с задачи-минимум :)

Цитата:
понятное дело, сочетания слов в запросе тоже актуально.


Мне лично кажется, что именно анализ словосочетаний - есть наиболее интересная часть данного проекта. Ибо по одному слову на любом стоке обычно вываливаются тысячи, если не десятки тысяч соответствий, но при увеличении количества слов в запросе, количество результатов уменьшается в геометрической прогрессии. Если мы сможем чаще попадать в результаты запросов по 3-4 словам - мне кажется это может существенно повысить продаваемость фото.


Цитата:
в общем, для первого проекта задачка весьма серьезная, но при этом чертовски интересная и весьма перспективная - эдакий реалтайм-анализатор тенденций на рынке с возможностью предсказания :)


Главное, ИМХО, грамотно собрать информацию исходную (не затачивая её под конкретные нужды), а уж потом её можно будет резать и кроить как угодно. :)


Да, кстати, мне кажется даже наличие таких слов как girl, young, sexy, и т.д. в топах не является обязательно указанием на то, что их искали просто ради забавы. В наше время в сети столько гораздо более "легко доступных" ресурсов эротики и порно, причём совершенно бесплатных, что нет никакого резона лезть на фотостоки в поисках подобных фото и удовлетворяться на превьюшки. Разве что сами фотографы или покупатели, время от времени, хотят немного отвлечься от работы и немного поглазеть на "прекрасное". Но часто все же, ИМХО, по этим словам действительно ищатся изображения симпатичных и сексуальных для размещения их во всяких буклетах, каталогах и т.д. - ведь не секрет, что сексуальность - один из самых сильных рычагов притяжения внимания к рекламе, на которую порой иначе даже и не взглянешь :)


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 14:18 
Не в сети
Аватара пользователя

Зарегистрирован: 24 08 2005, 16:25
Сообщения: 1354
Откуда: СПБ
Полностью согласен с предыдущим оратором. Запустил загрузку базы. К сожалению страничка на Дримсе обновляется раз в 15 минут.

По поводу хостинга для скрипта - а что нельзя со своего компа запустить?
Мой комп выключается только для апгрейда , инет безлимитный


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 14:27 
Не в сети

Зарегистрирован: 07 06 2007, 13:18
Сообщения: 83
Откуда: Moscow
lahtak писал(а):
Полностью согласен с предыдущим оратором. Запустил загрузку базы. К сожалению страничка на Дримсе обновляется раз в 15 минут.

По поводу хостинга для скрипта - а что нельзя со своего компа запустить?
Мой комп выключается только для апгрейда , инет безлимитный


Хм, интересно. А с народом будете делиться или только для себя? :D

Вы только сбор данных реализовали или и обработку какую-нить?


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 15:23 
Не в сети
Аватара пользователя

Зарегистрирован: 24 08 2005, 16:25
Сообщения: 1354
Откуда: СПБ
iNNOCENt писал(а):
lahtak писал(а):
Полностью согласен с предыдущим оратором. Запустил загрузку базы. К сожалению страничка на Дримсе обновляется раз в 15 минут.

По поводу хостинга для скрипта - а что нельзя со своего компа запустить?
Мой комп выключается только для апгрейда , инет безлимитный


Хм, интересно. А с народом будете делиться или только для себя? :D

Вы только сбор данных реализовали или и обработку какую-нить?

Да мне не жалко , только в каком виде выдавать ? Обработки еще нет. Думаю. Мысль такая - взять из топов слова и на их основе построить гнезда. Для полного счастья хотелось бы и счетчик для каждого слова в гнезде. Но пока не придумал структуру такой базы. И еще вопрос где эти гнездовые слова брать ? У фотолии есть 150 тагов , но они там скрестили ужа с ежом, смешали запросы и описания . Можно и из Шаттера брать, в общем предлагайте ...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 15:29 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
lahtak писал(а):
Полностью согласен с предыдущим оратором. Запустил загрузку базы. К сожалению страничка на Дримсе обновляется раз в 15 минут.

По поводу хостинга для скрипта - а что нельзя со своего компа запустить?
Мой комп выключается только для апгрейда , инет безлимитный

а у меня лимитный, причем быстрый, и жутко дорогой...
(первые 500 мб 16$ потом каждие 100 по 2$)

PS я так понял я не один пытаюсь чета написать?
если так, то хорошо... конкуренция всегда хорошо :D


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 15:44 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
а что если попробовать брать слова с дримса, потом брать слова из последних скачаных картинок с него же, потом сравнивать слова, и оставлять только те, которые упоминаются в обоих местах?


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 15:48 
Не в сети

Зарегистрирован: 07 06 2007, 13:18
Сообщения: 83
Откуда: Moscow
lahtak писал(а):
Да мне не жалко , только в каком виде выдавать ? Обработки еще нет. Думаю. Мысль такая - взять из топов слова и на их основе построить гнезда. Для полного счастья хотелось бы и счетчик для каждого слова в гнезде. Но пока не придумал структуру такой базы. И еще вопрос где эти гнездовые слова брать ? У фотолии есть 150 тагов , но они там скрестили ужа с ежом, смешали запросы и описания . Можно и из Шаттера брать, в общем предлагайте ...


Выдавать предлагаю ввиде небольшой утилитки по работе с базой и периодически (напр.раз в неделю) выкладываемые обновления базы.

А что вы называете гнёздами?


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 15:52 
Не в сети
Аватара пользователя

Зарегистрирован: 24 08 2005, 16:25
Сообщения: 1354
Откуда: СПБ
shalex84 писал(а):
lahtak писал(а):
Полностью согласен с предыдущим оратором. Запустил загрузку базы. К сожалению страничка на Дримсе обновляется раз в 15 минут.

По поводу хостинга для скрипта - а что нельзя со своего компа запустить?
Мой комп выключается только для апгрейда , инет безлимитный

а у меня лимитный, причем быстрый, и жутко дорогой...
(первые 500 мб 16$ потом каждие 100 по 2$)

PS я так понял я не один пытаюсь чета написать?
если так, то хорошо... конкуренция всегда хорошо :D

Да хреново в городе Новополоцке :)
Да что там писать , накопление базы с датами полчаса работы , труднее всего себя заставить :)


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 16:00 
Не в сети

Зарегистрирован: 07 06 2007, 13:18
Сообщения: 83
Откуда: Moscow
shalex84 писал(а):
а что если попробовать брать слова с дримса, потом брать слова из последних скачаных картинок с него же, потом сравнивать слова, и оставлять только те, которые упоминаются в обоих местах?


Лично мне кажется, что всё же не стоит лимитировать статистику только тем, что искали и нашли и отбрасывать то, что искали, но не нашли подходящего...
Кроме того, уверен, что очень многие при поиске сначала отбирают несколько более-менее подходящих фотографий, а потом из них уже выбирают лучшие (возможно и с разных фотобанков). Иными словами, скачивание происходит (если вообще происходит) не сразу после запроса, а через какой-то промежуток времени.

Поэтому считаю, что лучше всё же мониторить просто спрос, а не спрос сиюминутно удовлетворённый конкретным фотобанком (вряд ли это частый случай...).

Да и потом, в конце концов какая разница какие слова были в скачанном изображении? Может в нём всего было несколько самых общих слов и оно просто удачно "подвернулось" в поиске. Или наоборот просто картинка очень хорошая и его выудили из дебрей глубоких страниц результатов поиска. Мне кажется, применяя такую логику мы не повышаем шансы подобрать наиболее востребованные ключевые слова, а наоборот даже понижаем.

Ведь, в конце концов, наша задача - заставить своё фото "проявиться" в как можно больших результатах поиска по теме и как можно ближе к началу, а уж потом это дело самого фото (его качества, сюжета и т.д.) продать себя...


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 16:11 
Не в сети
Аватара пользователя

Зарегистрирован: 24 08 2005, 16:25
Сообщения: 1354
Откуда: СПБ
iNNOCENt писал(а):
lahtak писал(а):
Да мне не жалко , только в каком виде выдавать ? Обработки еще нет. Думаю. Мысль такая - взять из топов слова и на их основе построить гнезда. Для полного счастья хотелось бы и счетчик для каждого слова в гнезде. Но пока не придумал структуру такой базы. И еще вопрос где эти гнездовые слова брать ? У фотолии есть 150 тагов , но они там скрестили ужа с ежом, смешали запросы и описания . Можно и из Шаттера брать, в общем предлагайте ...


Выдавать предлагаю ввиде небольшой утилитки по работе с базой и периодически (напр.раз в неделю) выкладываемые обновления базы.

А что вы называете гнёздами?

А в каком формате база ? Можно , конечно, выдавать в тексте и а потом например в Эксель пихать. В принципе , можно раздать каждому такую утилитку , которая в конце каждого дня все результаты скидывала бы в файл . Или я могу куда-нить скидывать файлики.
А гнездо - топовое слово( woman, girl , business etc ) и к нему все слова , которые встречаются в сочетании с этим словом , хорошо бы с частотой .


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 16:18 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
Цитата:
А насчёт размера базы - то тут можно посчитать. Если получится дату сохранять один раз на "сеанс" считывания данных с Dreams (а не для каждого отдельного словосочетания), то 1kb ИМХО будет выши крыши на один "сеанс", что при интервале считывания данных раз в 10 минут нам даёт 144 kb в день или порядка 50MB в год, что мне не представляется ужасным...

не все так просто, даже если сохранять дату сеанса отдельно, то это будет отдельная колонка с кучей дат, а к словам, как ни крути, придется подписывать порядковые номера этих дат, но это не смертельно.
Цитата:
Кстати, мне кажется было бы полезным не делать сервис 100% online, а скорее сделать небольшую прогу, доступную для скачивания и выкладывать обновления базы (последние в заархивированном виде будут весить совсем копейки). Это и пользователям было бы удобнее (не надо быть всё время online) и не потребует никаких серверных мощностей.

можно, но лично я не знаю как это сделать, точнее как сделать, что бы выкладывать каждый раз не всю базу, а тока новое.
Сервер и так используется и ему платят за хостинг, так что без разницы, скока "серверных мощьностей" будет исользоваться, этот параметр не лимитируется.
Цитата:
А статистика за неделю нужна только в том случае, если есть желание уловить пик спроса, а не сделать стабильно продающуюся фотографию.
изначально это было основной задачей :)
Цитата:
В любом случае - предлагаю не зацикливаться на каком-то одном применении данных - мне кажется гораздо полезнее собрать массив данных, к-е можно будет потом анализировать и так и сяк...
чтобы потом не парится, надо в самом началепонять чего нам надо и разработать наиболее гибкую базу, причем так, что бы туда не попадали "лишнии" данные, хотя избыток информации лучше нехватки.
Цитата:
Кроме того, статистика продаж может сыграть и дурную шутку - если по большинству запросов были совершены покупки, значит что в фотобанке уже и так навалом хороших работ по данной тематике и не факт, что с ними будет легко конкурировать. А вот если после поиска покупки не было - кроме "дрочеров" и самих фотографов это ещё часто может говорить о том, что потенциальных покупатель просто не нашёл достойного изображения и пошёл искать elsewhere...

тогда надо просто при совпадении слов из картинки и поиск-ых запросов этим словам накидывать рейтинг,(причем отдельный по покупкам)
про словосочетания:
у вас желание видеть именно с какими словами употреьлялось данное слово(конкретные словосочетания) или достаточно сделать просто список слов за период времени?

и еще идейка, может из вывода результатов убирать топ-100 шатра(по желанию естественно), как мне кажется слова из топ-100 есть почти во всех картинках, и находятся картинки среди всего многообразия по другим словам, по более четким хар-кам?


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 16:22 
Не в сети

Зарегистрирован: 28 10 2007, 14:39
Сообщения: 84
Откуда: Беларусь:Новополоцк
lahtak писал(а):
Да что там писать , накопление базы с датами полчаса работы , труднее всего себя заставить :)

на С++ я это так и сделал бы, причем было бы все равно, что и как, но с пхп не общался раньше, поэтому большую часть времени провожу за чтением, ведь везде есть свои особенности

а про и-нет, В нашей процветающей стране только в Минске есть конкуренция, а у нас, к примеру, 2мбит/с анлим стоит 500$, как говорится пользуйтесь на здоровье :evil:


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 16:26 
Не в сети
Аватара пользователя

Зарегистрирован: 24 08 2005, 16:25
Сообщения: 1354
Откуда: СПБ
WildCat писал(а):
shalex84 писал(а):
пока могу сказать, что основные хиты: gerl, boy, men, sexy и с ними связаное....


вот именно поэтому надо привязывать статистику к топу продаж хоть каким-то боком, иначе в результате получится список ключевых слов, наиболее популярных среди... малолетних дрочеров, шарящихся по дриму в поисках ню-шек (и разумеется нифига не покупающих) :)

интересно не просто запросы, а связка запрос-покупка, т.е. результативные запросы или же, наоборот, запросы абсолютно нерезультативные, т.е. повторяющиеся запросы того, чего в базе пока мало или нет вообще.

кста, кол-во фоток на каждый кейворд вроде как тоже можно вытащить на каком-то из стоков (фотолия? дрим?), точно помню что видел эти цифры в момент ввода слов в поле поиска в виде выпадающей подсказки. это тоже крайне важная инфа, и если ее вытащить и скрестить результаты с частотным словарем английского языка, то - уверен - нас ждут очень интересные результаты :)

понятное дело, сочетания слов в запросе тоже актуально.

в общем, для первого проекта задачка весьма серьезная, но при этом чертовски интересная и весьма перспективная - эдакий реалтайм-анализатор тенденций на рынке с возможностью предсказания :)

Проще всего анализировать недельный топ на Шаттере и выцеплять слова из находящихся там картинок. Тем более , у меня такая прога есть , я по ней ключевые к своим картинкам подбираю . Но там одна проблема, разные результаты для вектора и фото.


Вернуться к началу
 Профиль  
Ответить с цитатой  
 Заголовок сообщения:
СообщениеДобавлено: 14 11 2007, 17:01 
Не в сети
Модератор
Аватара пользователя

Зарегистрирован: 09 01 2007, 23:49
Сообщения: 4034
Откуда: Москва
lahtak писал(а):
Но там одна проблема, разные результаты для вектора и фото.

Какая же это проблема? Наоборот -- это очень полезно.

Я вообще не понимаю, зачем стоки по умолчанию сваливают вектора и фотографии вперемешку. Мне трудно представить себе покупателя, которому все равно, что он найдет: вектор или фото.


Вернуться к началу
 Профиль  
Ответить с цитатой  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 90 ]  На страницу Пред.  1, 2, 3, 4, 5, 6  След.

Часовой пояс: UTC + 2 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения

Найти:
Перейти:  







???????@Mail.ru



Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB