donnerpeter | Mar. 14th, 2021

В Lucene меня научили новому трюку по оптимизации. Например, часто латинские символы можно хранить экономно (байтами в Java, UTF-8) и обрабатывать быстрее (какими-нибудь маленькими битовыми множествами). Но иногда приходится иметь дело с нелатинскими языками (например, русским). И вот тогда можно запомнить минимальный char из всех строк данного языка, и везде его вычитать из всех остальных. Тогда для не совсем страшных письменностей велика вероятность, что попадёшь в интервал 0..128, и можно экономить.

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Peter Gromov

Mar. 14th, 2021

Mar. 14th, 2021

-minChar

Profile

February 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags