博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Lucene】索引库的优化
阅读量:2056 次
发布时间:2019-04-28

本文共 1132 字,大约阅读时间需要 3 分钟。

什么是索引库?

索引库是Lucene的重要的存储结构,它包括二部份:原始记录表,词汇表

 原始记录表:存放的是原始记录信息,Lucene为存入的内容分配一个唯一的编号

 词汇表:存放的是经过分词器拆分出来的词汇和该词汇在原始记录表中的编号

为什么要将索引库进行优化?

在默认情况下,向索引库中增加一个Document对象时,索引库自动会添加一个扩展名叫*.cfs的二进制压缩文件,如果向索引库中存Document对象过多,那么*.cfs也会不断增加,同时索引库的容量也会不断增加,影响索引库的大小。

优化方式:

第一种:合并cfs文件,合并后的cfs文件是二进制压缩字符,能解决是的文件大小和数量的问题,每次添加都合并

indexWriter.addDocument(document);indexWriter.optimize();indexWriter.close();
第二种:设定合并因子,自动合并cfs文件,默认10个cfs文件合并成一个cfs文件

indexWriter.addDocument(document);indexWriter.setMergeFactor(10);indexWriter.close();

使用RAMDirectory,类似于内存索引库,能解决是的读取索引库文件的速度问题,它能以空换时,提高速度快,但不能持久保存,因此启动时加载硬盘中的索引库到内存中的索引库,退出时将内存中的索引库保存到硬盘中的索引库,且内容不能重复。

DirectoryfsDirectory = FSDirectory.open(new File("E:/indexDB"));Directory ramDirectory = new RAMDirectory(fsDirectory);      IndexWriter fsIndexWriter = new IndexWriter(fsDirectory,LuceneUtil.getAnalyzer(),true,LuceneUtil.getMaxFieldLength());IndexWriter ramIndexWriter = new IndexWriter(ramDirectory,LuceneUtil.getAnalyzer(),LuceneUtil.getMaxFieldLength());      ramIndexWriter.addDocument(document);ramIndexWriter.close();      fsIndexWriter.addIndexesNoOptimize(ramDirectory);fsIndexWriter.close();

转载地址:http://qbslf.baihongyu.com/

你可能感兴趣的文章
mininet+floodlight搭建sdn环境并创建简答topo
查看>>
【UML】《Theach yourself uml in 24hours》——hour2&hour3
查看>>
【linux】nohup和&的作用
查看>>
【UML】《Theach yourself uml in 24hours》——hour4
查看>>
Set、WeakSet、Map以及WeakMap结构基本知识点
查看>>
【NLP学习笔记】(一)Gensim基本使用方法
查看>>
【NLP学习笔记】(二)gensim使用之Topics and Transformations
查看>>
【深度学习】LSTM的架构及公式
查看>>
【深度学习】GRU的结构图及公式
查看>>
【python】re模块常用方法
查看>>
【JavaScript】call()和apply()方法
查看>>
【JavaScript】箭头函数与普通函数的区别
查看>>
前端面试题
查看>>
【JavaScript】常用方法记录
查看>>
C++ 数据存储类型
查看>>
39. Combination Sum
查看>>
剑指Offer 1.二维数组中的查找
查看>>
剑指offer 2.重建二叉树
查看>>
剑指offer 3.二叉树中和为某一值的路径
查看>>
剑指offer 4.替换空格
查看>>