Re: Вопросов накопилось по работе с буферами. И как оптимально буферизовать весь исходящий поток внутри фильтра?
Valery Kholodkov
valery+nginxru на grid.net.ru
Чт Дек 2 15:39:42 MSK 2010
----- Валентин Бартенев <ne at vbart.ru> wrote:
> Добрый день. Надеюсь на помощь гораздо более опытных, чем я.
>
> Мне в модуле-фильтре необходимо буферизовать весь ответ, сложив все in chains
> в два целиковых буфера. Размер первого всегда заранее известен, размер второго
> зависит от размера данных и известен только в случае если уже установлен
> заголовок content-length. После этого, на основе этих двух полученных буферов
> формируется совершенно новый набор данных, которые уже посылаются дальше.
>
>
> Как сделал я. Я создаю первый буфер, его размер всегда известен заранее и
> копирую туда данные из приходящих in chains, пока он не заполнится. Также я
> решил сделать небольшую оптимизацию, в случае, если все необходимые для него
> данные и так содержатся в пределах одного пришедшего буфера, я использую его,
> вместо создания своего и копирования туда.
>
> И тут первый вопрос возник. Я обнаружил, что таким образом я блокирую механизм
> повторного использования освобожденных буферов в ngx_output_chain, которую
> передо мной вызывает copy-фильтр. Вызывается функция ngx_chain_update_chains,
> которая в случае использования мной первого пришедшего буфера в итоге всегда
> делает break на первой же итерации. Получается фиговая оптимизация, и лучше в
> моем случае всегда копировать данные в свой созданный буфер, или эту пустяки?
На основе этого описания мне трудно понять что там происходит, но могу предположить, что после копирования пришедшего буфера Вы не обновляете указатель buf->pos до buf->last. Таким образом copy-фильтр думает, что эти данные всё ещё не обработаны и они зависают в busy.
> Далее, мне нужно заполнить оставшимися данными второй буфер. Если заголовок
> content-length установлен, то я поступаю аналогично первому буферу. Если нет,
> то я сначала складываю отдельно все приходящие цепочки образуя одну большую
> единую цепь из данных, попутно считая их размер, а затем уже, по получении
> последнего буфера с признаком last_buf, создаю свой второй единый буфер, зная
> размер всех данных, и копирую туда их из собранной цепи.
>
> Опять же такой подход не дает высвобождать буфера до последнего момента. Кроме
> этого, как я понял, я не могу просто соединять цепочки, используя приходящие
> звенья. Мне необходимо создавать свою цепь звеньев, копируя в них указатели на
> буфера. Просто соединение приходящих цепей в некоторых случаях приводит к
> зацикливанию nginx уже упомянутым вызовом ngx_chain_update_chains из
> ngx_output_chain, так цепь в busy замыкается сама на себя при определенных
> обстоятельствах.
Да, нужно копировать цепь. Иначе фильтры, стоящие раньше в цепи, не смогут отслеживать прогресс обработки.
Исключением является ситуация, когда фильтр без изменений передет цепь следующему фильтру.
> В image_filter сделано гораздо проще, там если размер картинки заранее
> неизвестен, то выделяется буфер размером "image_filter_buffer" (по-молчанию
> 1Мб) и данные складываются в него, если их оказывается больше, то не повезло,
> ошибочка, если меньше, то излишек простаивает впустую. Неужели такой подход
> оптимальнее, чем буферизация цепочки с целью вычисления размера данных? Может
> мне тоже так сделать?
Думаю, так сделано с одной стороны для простоты, а с другой стороны потому что редкая универсальная графическая библиотека поддерживает поточную обработку (я такой не знаю, если кто-то знает, скажите).
> Заполнили два буфера всеми пришедшими данными. Теперь, если все Ок, происходит
> генерация нового потока данных. Я начинаю выделять буфера по мере наполнения
> размером ngx_pagesize выстраивая из них новую цепочку, которую затем и посылаю
> далее. Как бы тут сэкономить? В принципе, я могу использовать один из уже
> созданных буферов, но этого, как правило недостаточно. В то же время, в цепях
> busy и free внутри ngx_output_chain_ctx_t скопилось куча уже неиспользуемых
> буферов, можно ли взять от туда?
В Вашем случае можно, но это не совсем корректно. Могут возникнуть последствия.
> Или можно их сразу складывать у себя
> "прозапас"? И как лучше сделать? Или еще откуда-то можно взять? Или лучше не
> стоит, и я все правильно делаю?
Если генератор данных умеет генерировать по частям, то используйте один буфер, сделайте его размер конфигурируемым. Когда фильтр позовут и спросят больше данных, заполните буфер, отдайте его, подождите пока все данные в нем будут обработаны, сгенерируйте больше и т.д.
> Надеюсь на ваши разъяснения и подсказки. Возможно некоторые механизмы в nginx,
> я еще пока плохо понимаю.
>
> И не могли бы кто-нибудь пояснить назначение и использование в некоторых
> местах shadow и last_shadow у буферов?
Предположим есть буфер, в котором данные перемешаны с какой-нибудь метаинформацией. Например:
|AAABBBAABBBBAAABBAAAABAAAAA|
Предположим, из этого буфера нужно вырезать все данные B. Как это выглядит:
|AAABBBAAABBBAAABBBAAABBBAAA| <-----------------------------------------+
shadow -> |BBB|.shadow -> |BBBB|.shadow -> |BB|.shadow -> |B|.shadow ---+
Первый указатель shadow принадлежит исходному буферу. У последнего буфера |B| last_shadow = 1, а поле shadow указывает на исходный буфер.
Иными словами, shadow -- это односвязный список буферов, которые указыват где в исходном буфере находятся данные B.
У модуля fastcgi входной фильтр умеет генерировать такие списки. Кроме того, upstream умеет с этими списками работать.
Как-то так.
--
Regards,
Valery Kholodkov
Подробная информация о списке рассылки nginx-ru