def filter_chars(text):
"""过滤无用字符
:param text: 文本
"""
# 找出文本中所有非中,英和数字的字符
add_chars = set(re.findall(r'[^u4e00-u9fa5a-zA-Z0-9]', text))
extra_chars = set(r"""!!¥$%*()()-——【】::“”";;'‘’,。?,.?、""")
add_chars = add_chars.difference(extra_chars)
# tab 是/t
# 替换特殊字符组合
text = re.sub('{IMG:.?.?.?}', '', text)
text = re.sub(r'', '', text)
text = re.sub('(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', text) # 过滤网址
text = re.sub(']*>', '', text).replace("", "") # 过滤a标签
text = text.replace("", "")
text = text.replace("nbsp;", "")
text = re.sub(']*>', '', text, flags=re.IGNORECASE).replace("
", "") # 过滤P标签
text = re.sub(']*>', ',', text).replace("", "") # 过滤strong标签
text = re.sub('
', ',', text) # 过滤br标签
text = re.sub('www.[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', text).replace("()", "") # 过滤www开头的网址
text = re.sub(r's', '', text) # 过滤不可见字符
text = re.sub('Ⅴ', 'V', text)
# 清洗
for c in add_chars:
text = text.replace(c, '')
return text
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.e1idc.net