Mar. 14th, 2021

-minChar

Mar. 14th, 2021 07:32 am
В Lucene меня научили новому трюку по оптимизации. Например, часто латинские символы можно хранить экономно (байтами в Java, UTF-8) и обрабатывать быстрее (какими-нибудь маленькими битовыми множествами). Но иногда приходится иметь дело с нелатинскими языками (например, русским). И вот тогда можно запомнить минимальный char из всех строк данного языка, и везде его вычитать из всех остальных. Тогда для не совсем страшных письменностей велика вероятность, что попадёшь в интервал 0..128, и можно экономить.

Profile

Peter Gromov

February 2025

S M T W T F S
      1
234567 8
9101112131415
16171819202122
232425262728 

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 24th, 2025 08:34 am
Powered by Dreamwidth Studios