当前位置:首页 > 数码 > 连接表时出现重复数据的方法-INNER-JOIN-数据库中避免 (表连接类型)

连接表时出现重复数据的方法-INNER-JOIN-数据库中避免 (表连接类型)

admin5个月前 (04-14)数码60

在进行 SQL 查询时,我们经常需要联合多个表来获取更全面的数据。在使用 INNER JOIN 连接表时,有时会遇到重复数据的问题,这可能会导致查询结果不准确或者性能下降。

使用 DISTINCT 关键字

DISTINCT 关键字用于去除查询结果中的重复行,保留唯一的行。通过在 SELECT 语句中添加 DISTINCT 关键字,可以避免 INNER JOIN 连接表时出现重复数据的问题。

例如:

SELECT DISTINCT column1, column2
FROM table1
INNER JOIN table2
ON table1.id = table2.id;
  
DISTINCT 关键字会对整个 SELECT 语句的结果进行去重,因此如果查询结果中包含多个列,需要确保所有列的组合都是唯一的。 DISTINCT 关键字可能会对查询性能产生一定的影响,特别是在连接的表数据量较大时。因此,在使用 DISTINCT 关键字时需要权衡查询结果的准确性和性能的平衡。

使用子查询

通过使用子查询,可以将连接表的结果作为一个临时表来处理,从而避免重复数据的问题。具体而言,我们可以先查询出需要连接的表中的唯一值,然后再与主查询进行连接,以避免重复数据的产生。

例如:

SELECT column1, column2
FROM table1
INNER JOIN (
  SELECT DISTINCT column3
  FROM table2
) AS subquery
ON table1.column4= subquery.column3;
  

使用 GROUP BY 子句

GROUP BY 子句用于按照指定的列对结果集进行分组,从而将重复数据合并为一行。通过在 INNER JOIN 连接表的同时使用 GROUP BY 子句,可以避免重复数据的问题。

GROUP BY 子句必须包含 SELECT 语句中的所有列,或者使用聚合函数对未包含在 GROUP BY 子句中的列进行处理。

例如:

SELECT column1, column2, SUM(column3)
FROM table1
INNER JOIN table2
ON table1.column4 = table2.column5
GROUP BY column1, column2;
  
GROUP BY 子句可能会对查询的性能产生一定的影响,特别是在连接的表数据量较大时。因此,在使用 GROUP BY 子句时需要权衡查询结果的准确性和性能的平衡。

注意事项和优化建议

  • 在连接表时,首先考虑表之间的关系,避免不必要的连接。
  • 如果可能,使用索引来优化查询性能,特别是针对连接列。
  • 合理使用 DISTINCT 关键字、子查询和 GROUP BY 子句,避免过度去重或重复数据。
  • 监控查询的性能,及时发现和解决重复数据问题。
数据库

结论

在使用 INNER JOIN 连接表时,重复数据是一个常见的问题。可以通过使用 DISTINCT 关键字、使用子查询、使用 GROUP BY 子句等方法来避免重复数据的产生。同时,还提出了一些注意事项和优化建议,以帮助开发人员更好地处理 INNER JOIN 连接表时可能出现的重复数据问题。通过合理选择和使用这些方法,我们可以提高查询的准确性和性能,从而更好地满足业务需求。


SQL多表查询的几种连接方式

。 WHERE条件:在有ON条件的SELECT语句中是过滤中间表的约束条件。 在没有ON的单表查询中,是限制物理表或者中间查询结果返回记录的约束。 在两表或多表连接中是限制连接形成最终中间表的返回结果的约束。 从这里可以看出,将WHERE条件移入ON后面是不恰当的。 推荐的做法是:ON只进行连接操作,WHERE只过滤中间表的记录。 二、连接查询连接运算符是用来实现多表联合查询的一种重要方式,主要分为三种:内连接、外连接、交叉连接。 2.1 内连接 INNER JOIN内连接(INNER JOIN)有两种,显式的和隐式的,返回连接表中符合连接条件和查询条件的数据行。 (所谓的链接表就是数据库在做查询形成的中间表)。 语句1:隐式的内连接,没有INNER JOIN,形成的中间表为两个表的笛卡尔积。 SELECT ,_NUMBER,, CUSTOMERS C,ORDERS OWHERE =_ID;语句2:显示的内连接,一般称为内连接,有INNER JOIN,形成的中间表为两个表经过ON条件过滤后的笛卡尔积。 SELECT ,_NUMBER,, CUSTOMERS C INNER JOIN ORDERS O ON =_ID;语句3和语句4的查询结果。 内连接使用比较运算符(包括=、>、<、<>、>=、<=、!> 和!<)进行表间的比较操作,查询与连接条件相匹配的数据。 根据所使用的比较方式不同,内连接分为等值连接、自然连接和自连接三种。 等值连接使用”=”关系将表连接起来的查询,其查询结果中列出被连接表中的所有列,包括其中的重复列。 SELECT PM_ACT_JOB_RLS.*, PM_ACT_RLS.*FROM PM_ACT_JOB_RLSINNER JOIN PM_ACT_RLS ON PM_ACT_JOB_ = PM_ACT_自然连接等值连接中去掉重复的列,形成的连接。 说真的,这种连接查询没有存在的价值,既然是SQL2标准中定义的,就给出个例子看看吧。 自然连接无需指定连接列,SQL会检查两个表中是否相同名称的列,且假设他们在连接条件中使用,并且在连接条件中仅包含一个连接列。 不允许使用ON语句,不允许指定显示列,显示列只能用*表示(ORACLE环境下测试的)。 对于每种连接类型(除了交叉连接外),均可指定NATURAL。 SELECTPM_ACT_JOB_, PM_ACT_, RlsName FROM PM_ACT_JOB_RLS Natural INNER JOIN PM_ACT_RLS ON PM_ACT_JOB_ = PM_ACT_语句1:SELECT *FROM ORDERS O NATURAL INNER JOIN CUSTOMERS C;语句2:SELECT *FROM ORDERS O NATURAL LEFT OUTER JOIN CUSTOMERS C;语句3:SELECT *FROM ORDERS O NATURAL RIGHT OUTER JOIN CUSTOMERS C;语句4:SELECT *FROM ORDERS O NATURAL FULL OUTER JOIN CUSTOMERS C;自连接如果在一个连接查询中,设计到的两个表都是同一个表,这种查询称为自连接查询。 --c1、c2逻辑上是两张表,物理上是一张表 SELECT , [dbo].[Category] c1INNER JOIN [dbo].[Category] c2 ON c1.[CategoryID] = c2.[ParentID]全外连接(FULL OUTER JOIN)注意:MySQL是不支持全外的连接的,这里给出的写法适合Oracle和DB2。 但是可以通过左外和右外求合集来获取全外连接的查询结果。 SELECT ,_NUMBER,_ID,, ORDERS O FULL OUTER JOIN CUSTOMERS C ON =_ID;左外和右外的合集实际上查询结果和上面的全外连接语句是相同的SELECT ,_NUMBER,_ID,, ORDERS O LEFT OUTER JOIN CUSTOMERS C ON =_IDUNIONSELECT ,_NUMBER,_ID,, ORDERS O RIGHT OUTER JOIN CUSTOMERS C ON =_ID;联合连接(UNION JOIN)这是一种很少见的连接方式。 Oracle、MySQL均不支持,其作用是:找出全外连接和内连接之间差异的所有行。 这在数据分析中排错中比较常用。 也可以利用数据库的集合操作来实现此功能。 语句1:联合查询(UNION JOIN)例句,还没有找到能执行的SQL环境。 SELECT1 ,_NUMBER,_ID,, ORDERS O UNION JOIN CUSTOMERS C ON =_ID语句2:语句11在DB2下的等价实现。 还不知道DB2是否支持语句11呢!SELECT ,_NUMBER,_ID,, ORDERS O FULL OUTER JOIN CUSTOMERS C ON =_IDEXCEPTSELECT ,_NUMBER,_ID,, ORDERS O INNER JOIN CUSTOMERS C ON =_ID;语句3:语句1在Oracle下的等价实现。 SELECT ,_NUMBER,_ID,, ORDERS O FULL OUTER JOIN CUSTOMERS C ON =_IDMINUSSELECT ,_NUMBER,_ID,, ORDERS O INNER JOIN CUSTOMERS C ON =_ID;2.2 外连接内连接只返回满足连接条件的数据行,外连接不只列出与连接条件相匹配的行,而是列出左表(左外连接时)、右表(右外连接时)或两个表(全外连接时)中所有符合搜索条件的数据行。 外连接分为左外连接、右外链接、全外连接三种。 1)LEFT JOIN或LEFT OUTER JOIN左向外联接的结果集包括 LEFT OUTER子句中指定的左表的所有行,而不仅仅是联接列所匹配的行。 如果左表的某行在右表中没有匹配行,则在相关联的结果集行中右表的所有选择列表列均为空值。 2)RIGHT JOIN 或 RIGHT OUTER JOIN右向外联接是左向外联接的反向联接。 将返回右表的所有行。 如果右表的某行在左表中没有匹配行,则将为左表返回空值。 3)FULL JOIN 或 FULL OUTER JOIN完整外部联接返回左表和右表中的所有行。 当某行在另一个表中没有匹配行时,则另一个表的选择列表列包含空值。 如果表之间有匹配行,则整个结果集行包含基表的数据值。 语句1:左外连接(LEFT OUTER JOIN)SELECT ,_NUMBER,_ID,, ORDERS O LEFT OUTER JOIN CUSTOMERS C ON =_ID;语句2:右外连接(RIGHT OUTER JOIN)SELECT ,_NUMBER,_ID,, ORDERS O RIGHT OUTER JOIN CUSTOMERS C ON =_ID;注意:WHERE条件放在ON后面查询的结果是不一样的。 例如:语句3:WHERE条件独立。 SELECT ,_NUMBER,_ID,, ORDERS O LEFT OUTER JOIN CUSTOMERS C ON =_IDWHERE _NUMBER<>‘MIKE_ORDER001‘;语句4:将语句7中的WHERE条件放到ON后面。 SELECT ,_NUMBER,_ID,, ORDERS O LEFT OUTER JOIN CUSTOMERS C ON =_ID AND _NUMBER<>‘MIKE_ORDER001‘;从语句3和语句4查询的结果来看,显然是不相同的,语句8显示的结果是难以理解的。 因此,推荐在写连接查询的时候,ON后面只跟连接条件,而对中间表限制的条件都写到WHERE子句中。 2.3 交叉连接交叉连接(CROSS JOIN):有两种,显式的和隐式的。 不带ON子句,返回的是两表的乘积,也叫笛卡尔积。 语句1:隐式的交叉连接,没有CROSS JOIN。 SELECT , _NUMBER, , ORDERS O , CUSTOMERS CWHERE =1;语句2:显式的交叉连接,使用CROSS JOIN。 SELECT ,_NUMBER,, ORDERS O CROSS JOIN CUSTOMERS CWHERE =1;语句1和语句2的结果是相同的1.4 例子a表b表idnameidjobparent_id1张李四王武) 内连接select a.*,b.* from a inner join b on =_id结果是1 张3 1 23 12 李四 2 34 22)左连接select a.*,b.* from a left join b on =_id结果是1 张3 1 23 12 李四 2 34 23 王武 null3) 右连接select a.*,b.* from a right join b on =_id结果是1 张3 1 23 12 李四 2 34 2null 3 34 44) 完全连接select a.*,b.* from a full join b on =_id结果是1 张3 1 23 12 李四 2 34 2null3 34 43 王武 null二、存储过程与函数等更高级的方式略三、总结连接查询是SQL查询的核心,连接查询的连接类型选择依据实际需求。 如果选择不当,非但不能提高查询效率,反而会带来一些逻辑错误或者性能低下。 下面总结一下两表连接查询选择方式的依据:1、 查两表关联列相等的数据用内连接。 2、 Col_L是Col_R的子集时用右外连接。 3、 Col_R是Col_L的子集时用左外连接。 4、 Col_R和Col_L彼此有交集但彼此互不为子集时候用全外。 5、 求差操作的时候用联合查询。 多个表查询的时候,这些不同的连接类型可以写到一块。 例如:SELECT T1.C1,, TAB1 T1INNER JOIN TAB2 T2 ON (T1.C1=T2.C2)INNER JOIN TAB3 T3 ON (T1.C1=T2.C3)LEFT OUTER JOIN TAB4 ON(T2.C2=T3.C3);WHERE T1.X >T3.Y;上面这个SQL查询是多表连接的一个示范。 参考文章【SQL】—多表查询的几种连接方式SQL语句 之 数据查询(二)多表查询-----------------数据查询的重点 难点sql 内连接、外连接、自然连接等各种连接SQL多表查询的几种连接方式标签:bsplan区别str右外连接另一个

sql A,B两表连接,B表中重复记录只取一条

那就用显示B表排除他的重复项,再去用A表去匹配他,左连接得出匹配的项Select * From (Select Distinct B.* From B) as 查询1 Left Join A on 查询= where( IS NOT NULL);要先把B表重复项整理掉,再去匹配,还要把NULL项去掉

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: 数据库

“连接表时出现重复数据的方法-INNER-JOIN-数据库中避免 (表连接类型)” 的相关文章

树之外的其他探索-数据库索引的类型-B

树之外的其他探索-数据库索引的类型-B

数据存储在磁盘或内存中时,我们需要高效的数据结构来访问和获取数据。本文将介绍 8 种常用的数据库索引结构,并讨论它们的优点和缺点。 B 树 B 树是一种流行的基于磁盘的索引数据结构,...

过去一年数据库领域的十大发展趋势 (往年数据)

过去一年数据库领域的十大发展趋势 (往年数据)

作者:朱洁 | 策划:李冬梅 前言 2023年对数据库行业来说是充满挑战的一年。行业信心跌至冰点,各行各业都在艰难恢复,裁员加剧,就业率创新低。但2023年也见证了数据库行业的一些重要...

深入了解其核心组件和工作原理-聊聊分布式数据库TDSQL的技术架构 (深入了解其核心经验)

深入了解其核心组件和工作原理-聊聊分布式数据库TDSQL的技术架构 (深入了解其核心经验)

近几年来,随着互联网和云计算的飞速发展,分布式关系型数据库逐渐成为企业核心业务系统的重要支撑。本文将以腾讯云 TDSQL 数据库技术架构为例,深入解析分布式关系型数据库的架构和实现原理,帮助读者深...

年未来数据库-2024-值得关注的八个趋向 (未来数据库发展方向)

年未来数据库-2024-值得关注的八个趋向 (未来数据库发展方向)

相关型数据库治理系统在数据库技术畛域占据主导位置曾经多年了。当SQL在1970年代初次出现时,相关型数据库治理系统的经常使用和受欢迎水平迅速优化。很快,成为了大少数公司和团队首选的数据库。...

vs-数据库-SQL-理解它们之间的关键差异-数据仓库 (Vs数据库打断点)

vs-数据库-SQL-理解它们之间的关键差异-数据仓库 (Vs数据库打断点)

概念定义 数据库软件 一种可见且可操作的软件 实现数据库的逻辑功能 属于物理层 数据库 一种逻辑概念,用于存储数据 通过...

具有高吞吐量-基于Apache-Scylla-Cassandra的分布式NoSQL数据库-低延迟和可扩展性 (具有高吞吐量的企业)

具有高吞吐量-基于Apache-Scylla-Cassandra的分布式NoSQL数据库-低延迟和可扩展性 (具有高吞吐量的企业)

概述 Scylla 是一款高性能、可伸缩的分布式 NoSQL 数据库,基于 Cassandra 项目开发。它以出色的性能和可伸缩性著称,能够处理大规模的数据工作负载。 设计目标 Scyll...

嵌入和矢量数据库实操指南 (嵌入和矢量数据的区别)

嵌入和矢量数据库实操指南 (嵌入和矢量数据的区别)

引言 随着生成式人工智能 (AI) 的兴起,处理复杂高维数据已成为一项至关重要的任务。矢量数据库的出现提供了应对这一挑战的突破性解决方案。 矢量数据库的定义 矢量数据库是专门设...