-minChar

Mar. 14th, 2021 07:32 am
[personal profile] donnerpeter
В Lucene меня научили новому трюку по оптимизации. Например, часто латинские символы можно хранить экономно (байтами в Java, UTF-8) и обрабатывать быстрее (какими-нибудь маленькими битовыми множествами). Но иногда приходится иметь дело с нелатинскими языками (например, русским). И вот тогда можно запомнить минимальный char из всех строк данного языка, и везде его вычитать из всех остальных. Тогда для не совсем страшных письменностей велика вероятность, что попадёшь в интервал 0..128, и можно экономить.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

Peter Gromov

February 2025

S M T W T F S
      1
234567 8
9101112131415
16171819202122
232425262728 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 30th, 2025 10:27 am
Powered by Dreamwidth Studios