HTML Strip Char Filter

The html_strip character filter strips HTML elements from the text and replaces HTML entities with their decoded value (e.g. replacing & with &).

Example outputedit

POST _analyze
{
  "tokenizer":      "keyword", 

  "char_filter":  [ "html_strip" ],
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}

COPY AS CURLVIEW IN CONSOLE



The keyword tokenizer returns a single term.

The above example returns the term:

[ \nI‘m so happy!\n ]

The same example with the standard tokenizer would return the following terms:

[ I‘m, so, happy ]

Configurationedit

The html_strip character filter accepts the following parameter:


escaped_tags


An array of HTML tags which should not be stripped from the original text.

Example configurationedit

In this example, we configure the html_strip character filter to leave <b> tags in place:

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "keyword",
          "char_filter": ["my_char_filter"]
        }
      },
      "char_filter": {
        "my_char_filter": {
          "type": "html_strip",
          "escaped_tags": ["b"]
        }
      }
    }
  }
}

POST my_index/_analyze
{
  "analyzer": "my_analyzer",
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}

COPY AS CURLVIEW IN CONSOLE

The above example produces the following term:

[ \nI‘m so <b>happy</b>!\n ]

源文:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-htmlstrip-charfilter.html#analysis-htmlstrip-charfilter
时间: 08-03

HTML Strip Char Filter的相关文章

filter()函数 条件筛选

filter()函数 filter()函数是 Python 内置的另一个有用的高阶函数,filter()函数接收一个函数 f 和一个list,这个函数 f 的作用是对每个元素进行判断,返回 True或 False,filter()根据判断结果自动过滤掉不符合条件的元素,返回由符合条件元素组成的新list. 例如,要从一个list [1, 4, 6, 7, 9, 12, 17]中删除偶数,保留奇数,首先,要编写一个判断奇数的函数: def is_odd(x): return x % 2 == 1

python之filter

filter 阅读: 265432 Python内建的filter()函数用于过滤序列. 和map()类似,filter()也接收一个函数和一个序列.和map()不同的是,filter()把传入的函数依次作用于每个元素,然后根据返回值是True还是False决定保留还是丢弃该元素. 例如,在一个list中,删掉偶数,只保留奇数,可以这么写: def is_odd(n): return n % 2 == 1 list(filter(is_odd, [1, 2, 4, 5, 6, 9, 10, 15

[Python] String strip() Method

Description The method strip() returns a copy of the string in which all chars have been stripped from the beginning and the end of the string (default whitespace characters). 在string中删掉strip(char)的所有char字符. Syntax str.strip([chars]) Parameters chars

Python学习十四:filter()

Python 中内置了filter()函数用于过滤序列. 用法: filter()接收一个函数和一个序列.filter()把传入的函数依次作用于每个元素,然后根据返回值是True还是False决定保留还是丢弃该元素. demo: 1.在一个list中,删掉偶数,只保留奇数: #filter odd number in the list def is_odd(n): return n % 2 == 1 print filter(is_odd , [1 , 2 , 3 , 4 , 5 , 6 , 9

Python 函数式编程--高阶函数Map、Reduce、Filter、Sorted

1.1   高阶函数 变量可指向函数 >>> abs(-10) 10 >>> x = abs    --x指向abs函数 >>> x(-1)      --直接调用x 1 调用abs和调用x完全相同. 函数名也是变量 >>> abs = 10 >>> abs(-10) Traceback (most recent call last): File "<stdin>", line 1,

python 中的高阶函数

函数名其实就是指向函数的变量 >>> abs(-1) 1 >>> abs <built-in function abs> >>> a=abs >>> a(-1) 1 高阶函数:能接收函数做变量的函数 >>> def abc(x,y,f): ... return f(x)+f(y) ... >>> abc(-2,3,abs) 5 python中的内置高阶函数 map()函数和reduce(

Python函数式编程笔记

注:慕课网笔记   高阶函数                                                                                                           1.变量可以指向函数,例如 a=abs 则 a(-10)=10 . 2.一个函数可以接收另外一个函数作为参数 例如 fun1 是一个函数 , 函数fun2(fun1 , L) 可以接收 fun1 作为它的一个参数.   例如: 1:  2: def add(

经典滤波算法总结

第1种方法限幅滤波法(又称程序判断滤波法) A方法 根据经验判断,确定两次采样允许的最大偏差值(设为A) 每次检测到新值时判断: 如果本次值与上次值之差<=A,则本次值有效 如果本次值与上次值之差>A,则本次值无效,放弃本次值,用上次值代替本次值 B优点 能有效克服因偶然因素引起的脉冲干扰 C缺点 无法抑制那种周期性的干扰 平滑度差 /* A 值可根据实际情况调整 value 为有效值,new_value 为当前采样值 滤波程序返回有效的实际值 */ #define A 10 char val

python_code list_1

>>> def is_not_empty(s): return s and len(s.strip()) > 0 >>> filter(is_not_empty, ['test', None, '', 'str', ' ', 'END'])<filter object at 0x1056a3518>>>> chr(0x1056a3518)Traceback (most recent call last): File "<

常用数字滤波算法总结

在单片机进行数据采集时,会遇到数据的随机误差,随机误差是由随机干扰引起的,其特点是在相同条件下测量同一量时,其大小和符号会现无规则的变化而无法预测,但多次测量的结果符合统计规律.为克服随机干扰引起的误差,硬件上可采用滤波技术,软件上可采用软件算法实现数字滤波.滤波算法往往是系统测控算法的一个重要组成部分,实时性很强. 采用数字滤波算法克服随机干扰的误差具有以下优点:   1.数字滤波无需其他的硬件成本,只用一个计算过程,可靠性高,不存在阻抗匹配问题.尤其是数字滤波可以对频率很低的信号进行滤波,这