关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » SQL Server »SQL Server全文索引的硬伤

    SQL Server全文索引的硬伤

    2011-08-30 13:54:00 出处:ITJS
    分享

    想象这样一个场景:在DataBase_name.dbo.Table_name中有一个名为Title(标题)和Contents(内容)的字段,现在需要查询在Title或者Contents中包括“qq”字符的所有记录。

    面对这样的一个场景,我们通常都会写这样一个脚本:SELECT * FROM DataBase_name.dbo.Table_name WHERE Title LIKE '%qq%' OR Contents LIKE '%qq%'; 没错,这也是我第一个想到的方法。

    但是我们需要思考的是:随着时间的推移,数据会越来越大,那个时候我们该如何提高我们的性能 客户随时都有可能要求加入对Remark(备注)字段的查询,难道我们就应该不厌其烦地修改程序代码

    面对上面的质问,我们需要提醒你的是:①对于这样的查询条件,即使Title和Contents上都有索引,我们也无法使用到索引,因为在 '%qq%'的“qq”前面使用了通配符,所以无法使用到索引;假如查询的条件是'qq%',那倒是可以利用上索引。②在许多数据库性能调优的文章上都说OR这个谓词可以使用SELECT UNION ALL SELECT这样的方式来提高性能,但是需要提醒大家的是:假如在一条记录中字段Title和Contents都同时存在“中国”字符的话,那么返回的结果就会出现两条相同的记录,假如你希望是唯一的记录,那么这个时候你就要注意了。③其实有些时候,对于and的操作符,我们可以考虑使用:SQL Server 索引中include的魅力(具有包含性列的索引)

    现在回到我们上面提出的疑问上,大概这个时候大家都应该想到了数据库的全文索引了。全文索引是一种特殊类型的基于标记的功能性索引,由 Microsoft SQL Server 全文引擎 (MSFTESQL) 服务创建和维护。创建全文索引的过程与创建其他类型的索引的过程差别很大。MSFTESQL 不是基于某一特定行中存储的值来构造 B 树结构,而是基于要索引的文本中的各个标记来创建倒排、堆积且压缩的索引结构。(摘自MSDN)

    讲了那么久,硬伤在哪里呢 可能大家都怀疑我是不是标题党了,呵呵,马上就讲到,那就是这个全文索引能解决我们一开始提到的场景吗 回答是否定。为什么呢 因为SQL Server对字符串“tqq.tencent.com”进行分词和倒排索引后,我们是无法通过查询条件‘“*qq*”’来返回上面那条字符串的记录的,这样的查询条件只能查询到类似“qqt.tencent.com”、“www.qq.com”这样的字符串。SQL Server的分词应该是正向最大值的分词方法,它没有把字符串进行反方向再进行一次分词和索引,所以只能查询到词或短语的前缀符合的记录。这一点有可能会被大家所忽略掉。

    就针对上面的说法,我们来进行测试一下:

    --已经对表Test_FullText_Index的uri,uri_path建立了全文索引. --下面的查询是为了说明CONTAINS与LIKE的区别. SELECT ID,uri,uri_path  FROM Test_FullText_Index where uri LIKE '%qq%'  AND ID NOT IN(SELECT ID FROM Test_FullText_Index WHERE CONTAINS(uri,'"qq*"'))  --下图为执行结果 

    如何大家有什么好的解决方案可以解决这样的Like查询的话,可以拿出来大家探讨一下。  

    主题的内容讲完了,下面附带讲一些创建全文索引的步骤和注意事项,懂的童鞋(同学)可以跳过。

    设置全文索引的步骤

    1:对着数据库点击右键-选择属性-选择文件,选中“使用全文索引”

    2:对着表点击右键-全文索引-定义全文索引

    3:点击下一步,假如这个表中没有唯一性索引就会出现下图所示

    4:选择表列,选择断字符语言。

    5:点击下一步,这里的选项要注意,假如不想再表、视图更改的时候更新全文索引,那就选择不跟踪更改;这样就可以选择是否在创建索引时启动完全填充了。

    6:点击下一步创建索引要保存的目录,全文索引的索引文件是以文件的形式保存到硬盘上的。

    7:之后就可以设置自动填充、手动跟踪更改,还有设置计划了。

    全文索引需要注意:

    表中必须有一个唯一性索引,当并不需要是主键。 一个表中只能有一个全文索引。 你需要告诉你的脚本你想使用全文索引,如何告诉呢 那就是使用关键字:CONTAINS、FULLTEXT、 CONTAINSTABLE、FREETEXTTABLE。例如:SELECT * FROM table_name WHERE CONTAINS(fullText_column,'"search contents*"');需要记住CONTAINS等在不同场景、需求下的用法。 假如定义了变量作为传入值,那么就要注意是否需要在set字符的时候的前面加入N标识。 要对表设置全文索引,那就得先对数据库设置了全文索引,这样点击表右键的时候,“全文索引”选项才能用。 脚本在查找的时候是不区分大小写的。解决办法:SELECT * FROM Table_name WHERE Column_name='A' COLLATE Chinese_PRC_CS_AI;或者SELECT * FROM Table_name WHERE ASCII(Column_name) = ASCII('A'); Microsoft SQL Server 全文引擎 (MSFTESQL) 不是基于某一特定行中存储的值来构造 B 树结构,而是基于要索引的文本中的各个标记来创建倒排、堆积且压缩的索引结构。 全文索引并不一定能达到like这个谓词的效果,如LIKE '%qq%'。这正是该文文章想要说明的。 假如数据库是在移动盘符上,好像就无法设置:数据库-属性-文件-“使用全文索引”了,这个时候chckbox是不可用的。(这个大家可以求证一下) 关于搜索结果的排序问题,全文索引并没有这个功能,也就是匹配度排序或者说是相似度排序。 Lucene中有一个Similarity类,Lucene Practical Scoring Function就包含了得分的计算公式,tf、idf。

    CONTAINS的几种用法

    CONTAINS 谓词可以搜索:

    词或短语。 词或短语的前缀。 与另一个词相邻的词。 由另一个词的词形变化而生成的词(例如,drive 一词是 drives、drove、driving 和 driven 词形变化的词干)。 使用同义词库确定的另一个词的同义词(例如,metal 一词可能有 aluminum 和 steel 等同义词)。

    原文链接:http://www.cnblogs.com/gaizai/archive/2010/05/13/1733857.html

    上一篇返回首页 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    hiberfil.sys文件可以删除吗?了解该文件并手把手教你删除C盘的hiberfil.sys文件

    Window 10和 Windows 11哪个好?答案是:看你自己的需求

    盗版软件成公司里的“隐形炸弹”?老板们的“法务噩梦” 有救了!

    帝国CMS7.5编辑器上传图片取消宽高的三种方法

    帝国cms如何自动生成缩略图的实现方法

    Windows 12即将到来,将彻底改变人机交互

    帝国CMS 7.5忘记登陆账号密码怎么办?可以phpmyadmin中重置管理员密码

    帝国CMS 7.5 后台编辑器换行,修改回车键br换行为p标签

    Windows 11 版本与 Windows 10比较,新功能一览

    Windows 11激活产品密钥收集及专业版激活方法

    IT头条

    智能手机市场风云:iPhone领跑销量榜,华为缺席引争议

    15:43

    大数据算法和“老师傅”经验叠加 智慧化收储粮食尽显“科技范”

    15:17

    严重缩水!NVIDIA将推中国特供RTX 5090 DD:只剩24GB显存

    00:17

    无线路由大厂 TP-Link突然大裁员:补偿N+3

    02:39

    Meta 千万美金招募AI高级人才

    00:22

    技术热点

    微软已修复windows 7/windows 8.1媒体中心严重漏洞 用户可下载安

    卸载MySQL数据库,用rpm如何实现

    windows 7中使用网上银行或支付宝支付时总是打不开支付页面

    一致性哈希算法原理设计

    MySQL数字类型中的三种常用种类

    如何解决SQL Server中传入select语句in范围参数

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。