September 2, 2016

MySQL: 子查询 exists, not exists及in的使用方法和实例

By Gideon Php / Pear / Mysql / Node.js 0 Comments

MySQL EXISTS 和 NOT EXISTS 介绍

SELECT ... FROM table WHERE  EXISTS (subquery)

该语法可以理解为：将主查询的数据，放到子查询中做条件验证，根据验证结果（TRUE 或 FALSE）来决定主查询的数据结果是否得以保留。

MySQL EXISTS 和 NOT EXISTS 实例

首先我们创建两个表，Books表和AuthorBook表：

创建Books表的mysql代码如下：

CREATE TABLE Books(
    BookID SMALLINT NOT NULL PRIMARY KEY,
    BookTitle VARCHAR(60) NOT NULL,
    Copyright YEAR NOT NULL
)
ENGINE=INNODB;

然后向Books表中插入数据：

INSERT INTO Books VALUES (12786, 'Java',1934),
                         (13331, 'MySQL',1919),
                         (14356, 'PHP',1966),
                         (15729, 'PERL',1932),
                         (16284, 'Oracle',1996),
                         (17695, 'Pl/SQL',1980),
                         (19264, 'JavaScript',1992),
                         (19354, 'www.manongjc.com',1993);

此时books表的数据如下：

BookID	BookTitle	Copyright
12786	Java	1934
13331	MySQL	1919
14356	PHP	1966
15729	PERL	1932
16284	Oracle	1966
17695	Pl/SQL	1980
19264	JavaScript	1992
19354	www.manongjc.com	1993

然后创建AuthorBook表，创建AuthorBook表的代码如下：

CREATE TABLE AuthorBook(
    AuthID SMALLINT NOT NULL,
    BookID SMALLINT NOT NULL,
    PRIMARY KEY (AuthID, BookID),
    FOREIGN KEY (AuthID) REFERENCES Authors (AuthID),
    FOREIGN KEY (BookID) REFERENCES Books (BookID)
)
ENGINE=INNODB;

然后向AuthorBook表中插入数据：

INSERT INTO AuthorBook VALUES (1006, 14356),
                              (1008, 15729),
                              (1009, 12786),
                              (1010, 17695),
                              (1011, 15729),
                              (1012, 19264),
                              (1012, 19354),
                              (1014, 16284);

此时AuthorBook表的数据如下：

AuthID	BookID
1006	14356
1008	15729
1009	12786
1010	17695
1011	15729
1012	19264
1012	19354
1014	16284

现在我们要查询出books表中的数据，但要求 BookID必须在AuthorBook表中存在。查询的SQL 语句如下：

SELECT BookID, BookTitle
FROM Books AS b
WHERE EXISTS
    (
       SELECT BookID
       FROM AuthorBook AS ab
       WHERE b.BookID=ab.BookID
    )

查询结果集如下表：

BookID	BookTitle
12786	Java
14356	PHP
15729	PERL
16284	Oracle
17695	Pl/SQL
19264	JavaScript
19354	www.manongjc.com

BookID为13331的数据不在查询结果集中，这是因为在AuthorBook表中并不存在bookid为13331的数据，所以这一行数据不会包括在结果集中。

同时，如果我们要查询出books表中的数据，但要求 BookID不在AuthorBook表中，此时我们要使用到not exists，sql语句如下：

SELECT BookID, BookTitle
FROM Books AS b
WHERE NOT EXISTS
    (
       SELECT BookID
       FROM AuthorBook AS ab
       WHERE b.BookID=ab.BookID
    )

查询结果集如下表：

BookID	BookTitle
13331	MySQL

小结

EXISTS (subquery) 只返回 TRUE 或 FALSE，因此子查询中的 SELECT * 也可以是 SELECT 1 或其他，官方说法是实际执行时会忽略 SELECT 清单，因此没有区别。
EXISTS 子查询的实际执行过程可能经过了优化而不是我们理解上的逐条对比，如果担忧效率问题，可进行实际检验以确定是否有效率问题。
EXISTS 子查询往往也可以用条件表达式、其他子查询或者 JOIN 来替代，何种最优需要具体问题具体分析。

有一个查询如下：

SELECT c.CustomerId, CompanyName   
FROM Customers c   
WHERE EXISTS(   
	SELECT OrderID FROM Orders o   
	WHERE o.CustomerID = cu.CustomerID)

这里面的EXISTS是如何运作呢？子查询返回的是OrderId字段，可是外面的查询要找的是CustomerID和CompanyName字段，这两个字段肯定不在OrderID里面啊，这是如何匹配的呢？

EXISTS用于检查子查询是否至少会返回一行数据，该子查询实际上并不返回任何数据，而是返回值True或False。

EXISTS 指定一个子查询，检测行的存在。语法：EXISTS subquery。参数 subquery 是一个受限的 SELECT 语句（不允许有 COMPUTE 子句和 INTO 关键字）。结果类型为 Boolean，如果子查询包含行，则返回 TRUE。

在子查询中使用 NULL 仍然返回结果集

这个例子在子查询中指定 NULL，并返回结果集，通过使用 EXISTS 仍取值为 TRUE。

SELECT CategoryName
FROM Categories
WHERE EXISTS (SELECT NULL)
ORDER BY CategoryName ASC

比较使用 EXISTS 和 IN 的查询

这个例子比较了两个语义类似的查询。第一个查询使用 EXISTS 而第二个查询使用 IN。注意两个查询返回相同的信息。

SELECT DISTINCT pub_name
FROM publishers
WHERE EXISTS
    (SELECT *
    FROM titles
    WHERE pub_id = publishers.pub_id
    AND type = 'business')

比较使用 EXISTS 和 = ANY 的查询

本示例显示查找与出版商住在同一城市中的作者的两种查询方法：第一种方法使用 = ANY，第二种方法使用 EXISTS。注意这两种方法返回相同的信息。

SELECT au_lname, au_fname
FROM authors
WHERE exists
    (SELECT *
    FROM publishers
    WHERE authors.city = publishers.city)

比较使用 EXISTS 和 IN 的查询

本示例所示查询查找由位于以字母 B 开头的城市中的任一出版商出版的书名：

SELECT title
FROM titles
WHERE EXISTS
    (SELECT *
    FROM publishers
    WHERE pub_id = titles.pub_id
    AND city LIKE 'B%')

使用 NOT EXISTS

NOT EXISTS 的作用与 EXISTS 正相反。如果子查询没有返回行，则满足 NOT EXISTS 中的 WHERE 子句。本示例查找不出版商业书籍的出版商的名称：

SELECT pub_name
FROM publishers
WHERE NOT EXISTS
    (SELECT *
    FROM titles
    WHERE pub_id = publishers.pub_id
    AND type = 'business')
ORDER BY pub_name

又比如以下 SQL 语句：

select distinct 姓名 from xs
where not exists (
select * from kc
where not exists (
select * from xs_kc
where 学号=xs.学号 and 课程号=kc.课程号
)

把最外层的查询xs里的数据一行一行的做里层的子查询。

中间的 exists 语句只做出对上一层的返回 true 或 false，因为查询的条件都在 where 学号=xs.学号 and 课程号=kc.课程号这句话里。每一个 exists 都会有一行值。它只是告诉一层，最外层的查询条件在这里成立或都不成立，返回的时候值也一样回返回上去。直到最高层的时候如果是 true（真）就返回到结果集。为 false（假）丢弃。

where not exists
select * from xs_kc
where 学号=xs.学号 and 课程号=kc.课程号

这个 exists 就是告诉上一层，这一行语句在我这里不成立。因为他不是最高层，所以还要继续向上返回。

select distinct 姓名 from xs where not exists （这里的 exists 语句收到上一个为 false 的值。他在判断一下，结果就是为 true（成立），由于是最高层所以就会把这行的结果（这里指的是查询条件）返回到结果集。

几个重要的点：

最里层要用到的醒询条件的表比如:xs.学号、kc.课程号等都要在前面的时候说明一下select * from kc,select distinct 姓名 from xs
不要在太注意中间的exists语句.
把exists和not exists嵌套时的返回值弄明白

如果查询的两个表大小相当，那么用in和exists差别不大。

如果两个表中一个较小，一个是大表，则子查询表大的用exists，子查询表小的用in：

例如：表A（小表），表B（大表）

select * from A where cc in (select cc from B)   //效率低，用到了A表上cc列的索引；
select * from A where exists(select cc from B where cc=A.cc) //效率高，用到了B表上cc列的索引。

相反的

2：

select * from B where cc in (select cc from A)   //效率高，用到了B表上cc列的索引；
select * from B where exists(select cc from A where cc=B.cc)  //效率低，用到了A表上cc列的索引。

not in 和not exists如果查询语句使用了not in 那么内外表都进行全表扫描，没有用到索引；而not extsts 的子查询依然能用到表上的索引。所以无论那个表大，用not exists都比not in要快。

in 与 =的区别

select name from student where name in ('zhang','wang','li','zhao'); 
//与 
select name from student where name='zhang' or name='li' or name='wang' or name='zhao' 
//的结果是相同的。

更多參考:

MySQL: replace into的用法

MySQL入门 (九) : 子查询 Subquery

MySQL 超新手入门教程系列

MySQL: 常用运算符

本文: MySQL: 子查询 exists, not exists及in的使用方法和实例