Введение
в управление реляционными
базами данных.
sql часто называют языком эсперанто для
систем управления базами данных (СУБД).
В мире нет другого языка для работы с
базами данных (БД), который бы настолько
широко использовался в программах. Первый
стандарт sql появился в 1986 г. и к настоящему
времени завоевал всеобщее признание.
Его можно использовать даже при работе
с нереляционными СУБД. В отличие от других
программных средств, таких, как языки
Си и Кобол, являющихся прерогативой программистов-профессионалов,
sql применяется специалистами из самых
разных областей. Программисты, администраторы
СУБД, бизнес-аналитики - все они с успехом
обрабатывают данные с помощью sql. Знание
этого языка полезно всем, кому приходится
иметь дело с БД.
Язык sql появился в 1974 г. как предмет небольшой
исследовательской работы, состоявшей
из 23 страниц, и с тех пор прошел долгий
путь развития. Язык настолько развит
и разнообразен, что лишь простое перечисление
его возможностей потребует нескольких
журнальных статей, а если собрать все,
что написано на тему sol, то получится многотомная
библиотека.
Однако для обычного
пользователя совсем не обязательно знать
sql целиком и полностью.
Что такое sql?
sql - это специализированный
непроцедурный язык, позволяющий описывать
данные, осуществлять выборку и обработку
информации из реляционных СУБД. Специализированность
означает, что sol предназначен лишь для
работы с БД; нельзя создать полноценную
прикладную систему только средствами
этого языка -- для этого потребуется использовать
другие языки, в которые можно встраивать
sql-команды. Поэтому sql еще называют вспомогательным
языковым средством для обработки данных.
Вспомогательный язык используется только
в комплексе с другими языками.
В прикладном языке общего назначения
обычно имеются средства для создания
процедур, а в sql их нет. С его помощью нельзя
указать, каким образом должна выполняться
некоторая задача, а можно лишь определить,
в чем именно она заключается. Другими
словами, при работе с sql нас интересуют
результаты, а не процедуры для их получения.
Наиболее
существенным свойством sql является возможность
доступа к реляционным БД. Многие даже
считают, что выражения "БД, обрабатываемая
средствами sql" и "реляционная БД"
- синонимы.
Что такое реляционная
СУБД?
Реляционная СУБД - это
система, основанная на реляционной модели
управления данными. Основные
понятия реляционной
модели
Согласно реляционной модели, отношение
(relation) - это некоторая таблица с данными.
Отношение может иметь один или несколько
атрибутов (признаков), соответствующих
столбцам этой таблицы, и некоторое множество
(возможно, пустое) данных, представляющих
собой наборы этих атрибутов (их называют
n-арными кортежами, или записями) и соответствующих
строкам таблицы.
Для любого кортежа значения атрибутов
должны принадлежать так называемым доменам.
Фактически доменом является некоторый
набор данных, который задает множество
всех допустимых значений.
Отношения обладают и другими свойствами.
Наиболее значимое из них - математическое
свойство замкнутости операций. Это означает,
что в результате выполнения любой операции
над отношением должно появляться новое
отношение. Это свойство позволяет при
выполнении математических операций над
отношениями получать предсказуемые результаты.
Кроме того, появляется возможность представлять
операции в виде абстрактных выражений
с разными уровнями вложенности.
sql и реляционная модель
Теперь, когда вы познакомились с реляционной
моделью, давайте забудем о ней. Конечно,
не навсегда, а лишь для того, чтобы объяснить
следующее: хотя именно предложенная д-ром
Коддом реляционная модель была использована
при разработке sql, между ними нет полного
или буквального соответствия (это одна
из причин, почему в стандарте sql-92 отсутствует
термин отношение). Например, понятия таблица
sql и отношение не являются равнозначными,
потому что в таблицах может быть сразу
несколько одинаковых строк, тогда как
в отношениях появление идентичных кортежей
не разрешено. К тому же в sql не предусмотрено
использование реляционных доменов, хотя
в некоторой степени их роль играют типы
данных (некоторые влиятельные сторонники
реляционной модели предпринимают сейчас
попытку добиться включения в будущий
стандарт sql реляционных доменов).
К сожалению, несоответствие между sql и
реляционной моделью породило множество
недоразумений и споров за прошедшие годы.
Но так как основная тема статьи - изучение
sql, а не реляционной модели, эти проблемы
здесь не рассматриваются. Просто следует
запомнить, что между терминами, применяемыми
в sql и в реляционной модели, имеются различия.
Далее в статье будут использоваться только
термины, принятые в sql. Вместо отношений,
атрибутов и кортежей будем применять
их sql-аналоги: таблицы, столбцы и строки.
Статический и динамический
sql
Возможно, вам уже знакомы такие термины,
как статический и динамический sql. sql-запрос
является статическим, если он компилируется
и оптимизируется на стадии, предшествующей
выполнению программы. Мы уже упоминали
одну из форм статического sql, когда говорили
о встраивании sql-команд в программы на
Си или Коболе (для таких выражений существует
еще другое название - встроенный sql). Как
вы, наверное, догадываетесь, динамический
sql-запрос компилируется и оптимизируется
в ходе исполнения программы. Как правило,
обычные пользователи применяют именно
динамический sql, позволяющий создавать
запросы в соответствии с сиюминутными
нуждами. Один из вариантов изпользования
динамических sql-запросов - их интерактивный
или непосредственный вызов (существует
даже специальный термин - directsql), когда
отправляемые на обработку запросы вводятся
в интерактивном режиме с терминала. Между
статическим и динамическим sql имеются
определенные различия в синтаксисе применяемых
конструкций и особенностях исполнения,
однако эти вопросы выходят за рамки статьи.
Отметим лишь, что для ясности понимания
примеры даются в форме direct sql-запросов,
поскольку это позволяет научиться использовать
sql не только программистам, но и большинству
конечных пользователей.
Как изучать sql
Теперь вы готовы к написанию своих первых
sql-запросов. Если у вас имеется доступ
к БД через sql и вы захотите воспользоваться
нашими примерами на практике, то учтите
следующее: вы должны входить в систему
как пользователь с неограниченными полномочиями
и вам потребуются программные средства
интерактивной обработки sql-запросов (если
речь идет о сетевой БД, следует переговорить
с администратором БД о предоставлении
вам соответствующих прав). Если доступа
к БД через sql нет - не огорчайтесь: все
примеры очень простые и в них можно разобраться
"всухую", без выхода на машину.
Для того чтобы выполнить какие-либо действия
в sql, следует выполнить выражение на языке
sql. Встречается несколько типов выражений,
однако среди них можно выделить три основные
группы: ddl-команды (data definition language - язык
описания данных), dml-команды (data manipulation
language - язык манипуляций с данными) и средства
контроля за данными. Таким образом, в
sql в каком-то смысле объединены три различных
языка.
Команды языка описания
данных
Начнем с одной из основных ddl-команд -
create table (Создать таблицу). В sql бывают таблицы
нескольких типов, основными являются
два типа: базовые (base) и выборочные (views).
Базовыми являются таблицы, относящиеся
к реально существующим данным; выборочные
- это "виртуальные" таблицы, которые
создаются на основе информации, получаемой
из базовых таблиц; но для пользователей
формы выглядят как обычные таблицы. Команда
create table предназначена для создания базовых
таблиц.
В команде create table следует задать название
таблицы, указать список столбцов и типы
содержащихся в них данных. В качестве
параметров могут присутствовать также
другие необязательные элементы, однако
сначала давайте рассмотрим только основные
параметры. Покажем простейшую синтаксическую
форму для этой команды:
create table ИмяТаблицы ( Столбец ТипДанных
) ;
create и table - это ключевые слова sql; ИмяТаблицы,
Столбец и ТипДанных - это формальные параметры,
вместо которых пользователь каждый раз
вводит фактические значения. Параметры
Столбец и ТипДанных заключены в круглые
скобки. В sql круглые скобки обычно используются
для группировки отдельных элементов.
В данном случае они позволяют объединить
определения для столбца. Стоящий в конце
знак "точка с запятой" является разделителем
команд. Он должен завершать любое выражение
на языке sql.
Рассмотрим пример. Пусть нужно создать
таблицу для хранения данных обо всех
встречах (appointments). Для этого в sql следует
ввести команду:
create table appointments ( appointment_date date ) ;
После выполнения этой команды будет создана
таблица с именем appointments, где имеется один
столбец appointment_date, в котором могут записываться
данные типа date. Поскольку на текущий момент
данные еще не вводились, количество строк
в таблице равно нулю (с помощью команды
create table только дается определение таблицы;
реальные значения вводятся командой
insert, которая рассматривается далее).
Параметры appointments и appointment_date называются
идентификаторами, поскольку они задают
имена для конкретных объектов БД, в данном
случае - имена для таблицы и столбца соответственно.
В sql встречаются идентификаторы двух
типов: обычные (regular) и выделенные (delimited).
Выделенные идентификаторы заключаются
в двойные кавычки, и в них учитывается
регистр используемых символов. Обычные
идентификаторы не выделяются никакими
ограниченными символами, в их написании
регистр не учитывается. В этой статье
применяются только обычные идентификаторы.
Символы, используемые для построения
идентификаторов, должны удовлетворять
определенным правилам. В обычных идентификаторах
могут использоваться только буквы (не
обязательно латинские, но и других алфавитов),
цифры и символ подчеркивания. Идентификатор
не должен содержать знаков пунктуации,
пробелов или специальных символов (#,
@, % или !); кроме того, он не может начинаться
с цифры или знака подчеркивания. Для идентификаторов
можно использовать отдельные ключевые
слова sql, но делать это не рекомендуется.
Идентификатор предназначен для обозначения
некоторого объекта, поэтому у него должно
быть уникальное (в рамках определенного
контекста) имя: нельзя создать таблицу
с именем, которое уже встречается в БД;
в одной таблице нельзя иметь столбцы
с одинаковыми именами. Кстати, имейте
в виду, что appointments и appointments - это одинаковые
имена для sql. Одним лишь изменением регистра
букв создать новый идентификатор нельзя.
Хотя таблица может иметь всего один столбец,
на практике обычно требуются таблицы
с несколькими столбцами. Команда для
создания такой таблицы в общем виде выглядит
так:
create table ИмяТаблицы ( Столбец ТипДанных
[ { , Столбец ТипДанных } ] ) ;
Квадратные скобки использованы для обозначения
необязательных элементов, фигурные содержат
элементы, которые могут представлять
собой перечень однопутных конструкций
(при вводе реальной sql-команды ни те ни
другие скобки не ставятся). Такой синтаксис
позволяет задать любое число столбцов.
Обратите внимание, что перед вторым элементом
стоит запятая. Если в списке имеется несколько
параметров, то они отделяются друг от
друга запятыми.
Таблицы, содержащие только один столбец,
типа нашей appointments, на практике встречаются
редко. Давайте рассмотрим другой, более
полезный пример.
create table appointments2 (
appointment_date date ,
appointment_time time ,
description varchar ( 256 ) ) ;
Данная команда создает таблицу appointments2
(новая таблица должна иметь иное имя,
так как таблица appointments уже присутствует
в БД). Как и в первой таблице, в ней имеется
столбец appointment_date для записи даты встреч;
кроме того, появился столбец appointment_time
для записи времени этих встреч. Параметр
description (описание) является текстовой строкой,
где может содержаться до 256 символов.
Для этого параметра указан тип varchar (сокращение
от character varying), поскольку заранее не известно,
сколько места потребуется для записи,
но ясно, что описание займет не более
256 символов. При описании параметро в
типа символьная строка (и некоторых других
типов) указывается длина параметра. Ее
значение задается в круглых скобках справа
от названия типа.
Возможно, вы обратили внимание, что в
двух рассмотренных примерах запись команды
оформлена по-разному. Если в первом случае
команда полностью размещена в одной строке,
то во втором после первой открытой круглой
скобки запись продолжена с новой строки,
и определение каждого следующего столбца
начинается с новой строки. В sql нет специальных
требований к оформлению записи. Разбиение
записи на строки делает ее чтение удобнее.
Язык sql позволяет при написании команд
не только разбивать команду по строкам,
но и вставлять отступы в начале строк
и пробелы между элементами записи.
Теперь, когда вы знаете основные правила,
давайте рассмотрим более сложный пример
создания таблицы с несколькими столбцами.
В начале статьи была показана таблица
employees (Сотрудники). В ней содержатся следующие
столбцы: фамилия, имя, дата приема на работу,
подразделение, категория и зарплата за
год. Для определения этой таблицы используется
следующая команда sql:
create table employees (
last_name character ( 13 ) not null,
first_name character ( 10 ) not null,
hire_date date ,
branch_office character ( 15 ) ,
grade_level smallint ,
salary decimal ( 9 , 2 ) ) ;
В команде встречаются несколько новых
элементов. Прежде всего, это выражение
not null, стоящее в конце определения столбцов
last_name и first_name. С помощью подобных конструкций
задаются требования, подлежащие обязательному
соблюдению. В данном случае указано, что
поля last_name и first_name должны обязательно
заполняться при вводе; оставлять эти
столбцы пустыми нельзя (это вполне логично:
как можно идентифицировать сотрудника,
не зная его имени?).
Кроме того, в примере присутствуют три
новых типа данных: character, smallint и decimal. До
сих пор мы почти не говорили о типах. Хотя
в sql нет реляционных доменов, однако имеется
набор основных типов данных. Эта информация
используется при выделении памяти и сравнении
величин; в определенной степени сужает
список возможных значений при вводе,
однако контроль типов в sql менее строгий,
чем в других языках.
Все имеющиеся в sql типы данных можно разбить
на шесть групп: символьные строки, точные
числовые значения, приближенные числовые
значения, битовые строки, датовремя и
интервалы. Мы перечислили все разновидности,
однако в этой статье подробно будут рассматриваться
лишь отдельные из них (битовые строки,
например, не представляют особого интереса
для обычных пользователей).
Кстати, если вы подумали, что датовремя
- это опечатка, то ошиблись. К данной группе
(datetime) относится большинство используемых
в sql типов данных, связанных со временем
(такие параметры, как временные интервалы,
выделены в отдельную группу). В предыдущем
примере уже встречались два типа данных
из группы датовремя - date и time.
Следующий тип данных, с которым вы уже
знакомы, - character varying (или просто varchar); он
относится к группе символьных строк.
Если varchar служит для хранения строк переменной
длины, то встретившийся в третьем примере
тип char предназначен для записи строк,
имеющих фиксированное число символов.
Например, в столбце last_name будут записываться
строки из 13 символов вне зависимости
от реально вводимых фамилий, будь то poe
или penworth-chickering (в случае с poe оставшиеся
10 символов заполнятся пробелами).
С точки зрения пользователя, varchar и char
имеют одинаковый смысл. Зачем нужно было
вводить два типа? Дело в том, что на практике
обычно приходится искать компромисс
между быстродействием и экономией пространства
на диске. Как правило, применение строк
с фиксированной длиной дает некоторый
выигрыш в скорости доступа, однако при
слишком большой длине строк пространство
на диске расходуется неэкономно. Если
в appointments2 для каждой строки комментария
резервировать по 256 символов, то это может
оказаться нерационально; чаще всего строки
будут значительно короче. С другой стороны,
фамилии также имеют разную длину, но для
них, как правило, требуется около 13 символов;
в этом случае потери будут минимальными.
Существует хорошее правило: если известно,
что длина строки меняется незначительно
либо она сравнительно невелика, то используйте
char; в остальных случаях - varchar.
Следующие два новых типа данных - smallint
и decimal - относятся к группе точных числовых
значений. smallint - это сокращенное название
от small integer (малое целое). В sql также предусмотрен
тип данных integer. Наличие двух схожих типов
и в этом случае объясняется соображением
экономии пространства. В нашем примере
значения параметра grade_level могут быть
представлены с помощью двузначного числа,
поэтому использован тип smallint; однако
на практике не всегда известно, какие
максимальные значения могут быть у параметров.
Если такой информации нет, то применяйте
integer. Реальный объем, выделяемый для хранения
параметров типа smallint и integer, и соответствующий
диапазон значений для этих параметров
индивидуальны для каждой платформы.
Тип данных decimal, обычно используемый для
учета финансовых показателей, позволяет
задать шаблон с требуемым числом десятичных
знаков. Поскольку этот тип служит для
точной числовой записи, он гарантирует
точность при выполнении математических
операций над десятичными данными. Если
для десятичных значений использовать
типы данных из группы приближенной числовой
записи, например float (floating point number - число
с плавающей точкой), это приведет к погрешностям
округления, поэтому для финансовых расчетов
этот вариант не подходит. Для определения
параметров типа decimal используется следующая
форма записи:
decimal(p,d),
где p - это число десятичных знаков, d -
количество разрядов после запятой. Вместо
p следует записывать общее число значащих
цифр в используемых значениях, а вместо
d - количество цифр после запятой.
Во врезке "Создание таблицы" показан
полный вариант обобщенной записи команды
create table. В нем присутствуют новые элементы
и показан формат для всех рассмотренных
типов данных (В принципе встречаются
и другие типы данных, но пока мы их не
рассматриваем).
На первых порах может показаться, что
синтаксис sql-команд слишком сложен. Но
вы легко в нем разберетесь, если внимательно
изучили приведенные выше примеры. На
схеме появился дополнительный элемент
- вертикальная черта; он служит для разграничения
альтернативных конструкций. Другими
словами, при определении каждого столбца
нужно выбрать подходящий тип данных (как
вы помните, в квадратные скобки заключаются
необязательные параметры, а в фигурные
скобки - конструкции, которые могут повторяться
многократно; в реальных sql-командах эти
специальные символы не пишутся). В первой
части схемы приведены полные названия
для типов данных, во второй - их сокращенные
названия; на практике можно использовать
любые из них.
Первая часть статьи завершена. Вторая
будет посвящена изучению dml-команд insert,
select, update и delete. Также будут рассмотрены
условия выборки данных, операторы сравнения
и логические операторы, использование
null-значений и троичная логика.
Создание таблицы. Синтаксис команды create
table: в квадратных скобках указаны необязательные
параметры, в фигурных - повторяющиеся
конструкции.
create table table (
column character (length) [ constraint ] |
character varying (length) [ constraint ] |
date [ constraint ] |
time [ constraint ] |
integer [ constraint ] |
smallint [ constraint ] |
decimal (precision, decimal places) [ constraint ] |
float (precision) [ constraint ]
[{ , column char (length) [ constraint ] |
varchar (length) [ constraint ] |
date [ constraint ] |
time [ constraint ] |
int [ constraint ] |
smallint [ constraint ] |
dec (precision, decimal places) [ constraint ] |
float (precision) [ constraint ] }]) ;
Секрет названия sql
В начале 1970-х гг. в ibm приступили к практическому
воплощению модели реляционных БД, предложенной
д-ром Коддом. Дональд Чамберлин и группа
других сотрудников подразделения перспективных
исследований создали прототип языка,
получивший название structured english query language
(язык структурированных англоязычных
запросов), или просто sequel. В дальнейшем
он был расширен и подвергнут доработке.
Новый вариант, предложенный ibm, получил
название sequel/2. Его использовали как программный
интерфейс (api) для проектирования первой
реляционной системы БД фирмы ibm - system/r.
Из соображений, связанных с правовыми
нюансами, в ibm решили изменить название:
вместо sequel/2 использовать sql (structured query
language). Эту аббревиатуру часто произносят
как "си-ку-эл".
Между ранними прототипами sequel и признанным
ныне в различных организациях стандартом
sql имеются существенные различия. Джим
Мелтон, занимавшийся подготовкой стандарта
sql-92, даже заявил, что многие ошибаются,
считая, будто слово "структурированные"
правильно отражает специфику этого языка
(jim melton and alan r. simon "understanding the new sql: a complete
guide". san francisco: morgan kaufmann, 1993. isbn: 1-55860-245-3).
Поэтому фактически sql - это просто название,
последовательность букв s-q-l и ничего
более. |