Flume+Morphline+Solr+Hue实时索引调试及问题定位

Technorati Tags: Solr,Hue,Flume,Morphline,大数据

1.Flume和Morphline添加日志打印

log4j.logger.org.apache.flume.sink.solr=DEBUG
log4j.logger.org.kitesdk.morphline=TRACE

2.在线更新solr collection配置

$ solrctl instancedir --update url_analysis_records url_analysis_configs/
$ solrctl collection --reload url_analysis_records

3.删除solr已经有的index文件

<delete><query>*:*</query></delete>
<commit/>

Hue3.10 search(solr)最近调试发现的已知问题:

1.对动态索引不太能识别,尤其是对中文。

2.timeline功能会导致gc时间过长。

3.对中国时区支持不够,选择时间的字段慢8个小时,timeline快8个小时。因此需要专门指定一个Solr索引字段存UTC时间才能正常使用Hue功能。

时间: 12-11

Flume+Morphline+Solr+Hue实时索引调试及问题定位的相关文章

Kafka+Flume+Morphline+Solr+Hue数据组合索引

背景:Kafka消息总线的建成,使各个系统的数据得以在kafka节点中汇聚,接下来面临的任务是最大化数据的价值,让数据“慧”说话. 环境准备: Kafka服务器*3. CDH 5.8.3服务器*3,安装Flume,Solr,Hue,HDFS,Zookeeper服务. Flume提供了可扩展的实时数据传输通道,Morphline提供了轻量级的ETL功能,SolrCloud+Hue提供了高性能搜索引擎和多样的数据展现形式. 一.环境安装(略) 二.修改CDH默认配置: 1.在Flume配置界面配置F

sphinx架构设计 -- 高并发rt实时索引

CleverCode最近在研究sphinx使用rt实时索引,总结了一下php调用的过程,并且总结了一下rt分布式架构设计. 1 安装Sphinx 安装详解请查看:http://blog.csdn.net/clevercode/article/details/52204124. 2 配置rt索引文件 vim /usr/local/sphinx2/etc/realtime.conf index username { # 实时索引类型 type = rt # 索引保存路径,平时都是保存在内存内,数据量

solr亿万级索引优化实践-自动生成UUID

solr亿万级索引优化实践(三) 原创 2017年03月14日 17:03:09 本篇文章主要介绍下如何从客户端solrJ以及服务端参数配置的角度来提升索引速度. solrJ6.0提供的Java客户端主要有下面几种接口:HttpSolrClient,ConcurrentUpdateSolrClient,CloudSolrClient.下面分别对这三种接口做一个简单的比较.HttpSolrClient在定义的时候需要明确指定一个solr节点路径,他在提交数据的时候也只能提交到这个节点上:Concu

Solr搜索引擎【索引提交、事务日志、原子更新】

一.索引提交 当一个文档被添加到Solr中,但没有提交给索引之前,这个文档是无法被搜索的.换句话说,从查询的角度看,文档直到提交之后才是可见的.Solr有两种类型的提交:软提交和正常提交[也称硬提交]. 1.正常提交 Solr正常提交是将所有未提交的文档写入磁盘,并刷新一个内部搜索器组件,让新提交的文档能够被搜索.搜索器实际上可以看作索引中所有已提交文档的只读视图.可以这样说,硬提交是花销很大的操作,由于硬提交需要开启一个新搜索器,所以会影响到查询性能. 当正常提交成功后,新提交的文档被安全保存

coreseek实时索引全文搜索

工作流程: 安装coreseek(win32版) 建立一个实时索引配置文件 根据配置文件开启searchd服务器 向mysql数据库实时插入数据 启动python客户端访问和搜索 安装coreseek(win32版) 官网下载:http://www.coreseek.cn/products-install/install_on_windows/ 这里的版本为4.0.1 建立实时索引配置文件 解压后,在etc目录下新建一个csft_rt.conf文件 写入如下配置: #实时索引配置文件 index

使用Flume进行数据的实时收集处理

在已经成功安装Flume的基础上,本文将总结使用Flume进行数据的实时收集处理,具体步骤如下: 第一步,在$FLUME_HOME/conf目录下,编写Flume的配置文件,命名为flume_first_conf,具体内容如下: #agent1表示代理名称 agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1 #Spooling Directory是监控指定文件夹中新文件的变化,一旦新文件出现,就解析该文件内容,然后

基于lucene的案例开发:实时索引的检索

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/44279753 http://www.llwjy.com/blogdetail/31bb705106379feaf6d31b58dd777be6.html 个人博客小站搭建成功,网址 www.llwjy.com,欢迎大家来吐槽~ 在前面的博客中,我们已经介绍了IndexSearcher中的检索方法,也介绍了如何基于lucene中的NRT*类去创建实时索引,在这篇博客中我们就重点介

solr定时增量索引

当数据库的数据发生改变的时候,我们不想手动的去重新添加数据库的数据导solr索引库中,所以用到定时添加索引.增删改的数据.现在写的这些都是基于我之前做的一步步到这来的. 将solr/dist下的solr-dataimporthandler-4.8.1.jar.solr-dataimporthandler-extras-4.8.1.jar这两个包拷贝到tomcat/webapps/solr/lib下,还有下载apache-solr-dataimportscheduler.jar也拷贝到tomcat

sphinx实时索引和高亮显示

sphinx实时索引和高亮显示 时间 2014-06-25 14:50:58  linux技术分享 -欧阳博客 原文  http://www.wantlearn.net/825 主题 Sphinx数据库 上次介绍了coreseek与sphinx的区别,并详细记录了安装coreseek文档说明,以及给php加上sphinx模块,详细内容请参考我写的coreseek详解这篇文档,这次主要介绍sphinx是如何做到实时索引.首先配置进入到coreseek配置文件目录,对原始配置文件进行配制,这里介略说