НАУЧНЫЕ РАБОТЫ

Разработка программного обеспечения для Отделения Реанимации и Интенсивной Терапии новорожденных МГБ N1 г. Сургута

Распространенные способы организации ключевых файлов основываются на

технике кэширования и B-деревьев. Существуют и много ключевые способы

организации файлов.

Второй подход, ставший распространенным вместе с операционной системой

UNIX, состоит в том, что любой файл представляется как последовательность

байтов. Из файла можно прочитать указанное число байтов либо начиная с его

начала, либо предварительно произведя его позиционирование на байт с

указанным номером. Аналогично, можно записать указанное число байтов в

конец файла, либо предварительно произведя позиционирование файла. Заметим,

что тем не менее скрытым от пользователя, но существующим во всех

разновидностях файловых систем ОС UNIX, является базовое блочное

представление файла.

Конечно, для обоих подходов можно обеспечить набор преобразующих функций,

приводящих представление файла к некоторому другому виду. Примером тому

служит поддержание стандартной файловой среды системы программирования на

языке Си в среде операционных систем фирмы DEC.

1.1.2. Именование файлов

Остановимся коротко на способах именования файлов. Все современные файловые

системы поддерживают многоуровневое именование файлов за счет поддержания

во внешней памяти дополнительных файлов со специальной структурой -

каталогов. Каждый каталог содержит имена каталогов и/или файлов,

содержащихся в данном каталоге. Таким образом, полное имя файла состоит из

списка имен каталогов плюс имя файла в каталоге, непосредственно содержащем

данный файл. Разница между способами именования файлов в разных файловых

системах состоит в том, с чего начинается эта цепочка имен.

В этом отношении имеются два крайних варианта. Во многих системах

управления файлами требуется, чтобы каждый архив файлов (полное дерево

справочников) целиком располагался на одном дисковом пакете (или логическом

диске, разделе физического дискового пакета, представляемом с помощью

средств операционной системы как отдельный диск). В этом случае полное имя

файла начинается с имени дискового устройства, на котором установлен

соответствующий диск. Такой способ именования используется в файловых

системах фирмы DEC, очень близко к этому находятся и файловые системы

персональных компьютеров. Можно назвать эту организацию поддержанием

изолированных файловых систем.

Другой крайний вариант был реализован в файловых системах операционной

системы Multics. Эта система заслуживает отдельного большого разговора, в

ней был реализован целый ряд оригинальных идей, но мы остановимся только на

особенностях организации архива файлов. В файловой системе Miltics

пользователи представляли всю совокупность каталогов и файлов как единое

дерево. Полное имя файла начиналось с имени корневого каталога, и

пользователь не обязан был заботиться об установке на дисковое устройство

каких-либо конкретных дисков. Сама система, выполняя поиск файла по его

имени, запрашивала установку необходимых дисков. Такую файловую систему

можно назвать полностью централизованной.

Конечно, во многом централизованные файловые системы удобнее изолированных:

система управления файлами принимает на себя больше рутинной работы. Но в

таких системах возникают существенные проблемы, если кому-то требуется

перенести поддерево файловой системы на другую вычислительную установку.

Компромиссное решение применено в файловых системах ОС UNIX. На базовом

уровне в этих файловых системах поддерживаются изолированные архивы файлов.

Один из этих архивов объявляется корневой файловой системой. После запуска

системы можно "смонтировать" корневую файловую систему и ряд изолированных

файловых систем в одну общую файловую систему. Технически это производится

с помощью заведения в корневой файловой системе специальных пустых

каталогов. Специальный системный вызов курьер ОС UNIX позволяет подключить

к одному из этих пустых каталогов корневой каталог указанного архива

файлов. После монтирования общей файловой системы именование файлов

производится так же, как если бы она с самого начала была централизованной.

Если учесть, что обычно монтирование файловой системы производится при

раскрутке системы, то пользователи ОС UNIX обычно и не задумываются об

исходном происхождении общей файловой системы.

1.1.3. Защита файлов

Поскольку файловые системы являются общим хранилищем файлов, принадлежащих,

вообще говоря, разным пользователям, системы управления файлами должны

обеспечивать авторизацию доступа к файлам. В общем виде подход состоит в

том, что по отношению к каждому зарегистрированному пользователю данной

вычислительной системы для каждого существующего файла указываются

действия, которые разрешены или запрещены данному пользователю.

Существовали попытки реализовать этот подход в полном объеме. Но это

вызывало слишком большие накладные расходы как по хранению избыточной

информации, так и по использованию этой информации для контроля

правомочности доступа.

Поэтому в большинстве современных систем управления файлами применяется

подход к защите файлов, впервые реализованный в ОС UNIX. В этой системе

каждому зарегистрированному пользователю соответствует пара целочисленных

идентификаторов: идентификатор группы, к которой относится этот

пользователь, и его собственный идентификатор в группе. Соответственно, при

каждом файле хранится полный идентификатор пользователя, который создал

этот файл, и отмечается, какие действия с файлом может производить он сам,

какие действия с файлом доступны для других пользователей той же группы, и

что могут делать с файлом пользователи других групп. Эта информация очень

компактна, при проверке требуется небольшое количество действий, и этот

способ контроля доступа удовлетворителен в большинстве случаев.

1.1.4. Режим многопользовательского доступа

Последнее, на чем мы остановимся в связи с файлами, - это способы их

использования в многопользовательской среде. Если операционная система

поддерживает многопользовательский режим, вполне реальна ситуация, когда

два или более пользователей одновременно пытаются работать с одним и тем же

файлом. Если все эти пользователи собираются только читать файл, ничего

страшного не произойдет. Но если хотя бы один из них будет изменять файл,

для корректной работы этой группы требуется взаимная синхронизация.

Исторически в файловых системах применялся следующий подход. В операции

открытия файла (первой и обязательной операции, с которой должен начинаться

сеанс работы с файлом) помимо прочих параметров указывался режим работы

(чтение или изменение). Если к моменту выполнения этой операции от имени

некоторой программы A файл уже находился в открытом состоянии от имени

некоторой другой программы B (правильнее говорить "процесса", но мы не

будем вдаваться в терминологические тонкости), причем существующий режим

открытия был несовместимым с желаемым режимом (совместимы только режимы

чтения), то в зависимости от особенностей системы программе A либо

сообщалось о невозможности открытия файла в желаемом режиме, либо она

блокировалась до тех пор, пока программа B не выполнит операцию закрытия

файла.

Заметим, что в ранних версиях файловой системы ОС UNIX вообще не были

реализованы какие бы то ни было средства синхронизации параллельного

доступа к файлам. Операция открытия файла выполнялась всегда для любого

существующего файла, если данный пользователь имел соответствующие права

доступа. При совместной работе синхронизацию следовало производить вне

файловой системы (и особых средств для этого ОС UNIX не предоставляла). В

современных реализациях файловых систем ОС UNIX по желанию пользователя

поддерживается синхронизация при открытии файлов. Кроме того, существует

возможность синхронизации нескольких процессов, параллельно модифицирующих

один и тот же файл. Для этого введен специальный механизм синхронизационных

захватов диапазонов адресов открытого файла.

1.2. Области применения файлов

После этого краткого экскурса в историю файловых систем рассмотрим

возможные области их применения. Прежде всего, конечно, файлы применяются

для хранения текстовых данных: документов, текстов программ и т.д. Такие

файлы обычно образуются и модифицируются с помощью различных текстовых

редакторов. Структура текстовых файлов обычно очень проста: это либо

последовательность записей, содержащих строки текста, либо

последовательность байтов, среди которых встречаются специальные символы

(например, символы конца строки).

Файлы с текстами программ используются как входные тексты компиляторов,

которые в свою очередь формируют файлы, содержащие объектные модули. С

точки зрения файловой системы, объектные файлы также обладают очень простой

структурой - последовательность записей или байтов. Система

программирования накладывает на эту структуру более сложную и специфичную

для этой системы структуру объектного модуля. Подчеркнем, что логическая

структура объектного модуля неизвестна файловой системе, эта структура

поддерживается программами системы программирования.

Аналогично обстоит дело с файлами, формируемыми редакторами связей и

содержащими образы выполняемых программ. Логическая структура таких файлов

остается известной только редактору связей и загрузчику - программе

операционной системы. Примерно такая же ситуация с файлами, содержащими

графическую и звуковую информацию.

Одним словом, файловые системы обычно обеспечивают хранение слабо

структурированной информации, оставляя дальнейшую структуризацию прикладным

программам. В перечисленных выше случаях использования файлов это даже

хорошо, потому что при разработке любой новой прикладной системы опираясь

на простые, стандартные и сравнительно дешевые средства файловой системы

можно реализовать те структуры хранения, которые наиболее естественно

соответствуют специфике данной прикладной области.

1.3. Потребности информационных систем

Однако ситуация коренным образом отличается для упоминавшихся в начале

лекции информационных систем. Эти системы главным образом ориентированы на

хранение, выбор и модификацию постоянно существующей информации. Структура

информации зачастую очень сложна, и хотя структуры данных различны в разных

информационных системах, между ними часто бывает много общего. На начальном

этапе использования вычислительной техники для управления информацией

проблемы структуризации данных решались индивидуально в каждой

информационной системе. Производились необходимые надстройки над файловыми

системами (библиотеки программ), подобно тому, как это делается в

компиляторах, редакторах и т.д.

Но поскольку информационные системы требуют сложных структур данных, эти

дополнительные индивидуальные средства управления данными являлись

существенной частью информационных систем и практически повторялись от

одной системы к другой. Стремление выделить и обобщить общую часть

информационных систем, ответственную за управление сложно

структурированными данными, явилось, на наш взгляд, первой побудительной

причиной создания СУБД. Очень скоро стало понятно, что невозможно обойтись

общей библиотекой программ, реализующей над стандартной базовой файловой

системой более сложные методы хранения данных.

Покажем это на примере. Предположим, что мы хотим реализовать простую

информационную систему, поддерживающую учет сотрудников некоторой

организации. Система должна выполнять следующие действия: выдавать списки

сотрудников по отделам, поддерживать возможность перевода сотрудника из

одного отдела в другой, приема на работу новых сотрудников и увольнения

работающих. Для каждого отдела должна поддерживаться возможность получения

имени руководителя этого отдела, общей численности отдела, общей суммы

выплаченной в последний раз зарплаты и т.д. Для каждого сотрудника должна

поддерживаться возможность выдачи номера удостоверения по полному имени

сотрудника, выдачи полного имени по номеру удостоверения, получения

информации о текущем соответствии занимаемой должности сотрудника и о

размере его зарплаты.

Предположим, что мы решили основывать эту информационную систему на

файловой системе и пользоваться при этом одним файлом, расширив базовые

возможности файловой системы за счет специальной библиотеки функций.

Поскольку минимальной информационной единицей в нашем случае является

сотрудник, естественно потребовать, чтобы в этом файле содержалась одна

запись для каждого сотрудника. Какие поля должна содержать такая запись?

Полное имя сотрудника (СОТР_ИМЯ), номер его удостоверения (СОТР_НОМЕР),

информацию о его соответствии занимаемой должности (для простоты, "да" или

"нет") (СОТР_СТАТ), размер зарплаты (СОТР_ЗАРП), номер отдела

(СОТР_ОТД_НОМЕР). Поскольку мы хотим ограничиться одним файлом, та же

запись должна содержать имя руководителя отдела (СОТР_ОТД_РУК).

Функции нашей информационной системы требуют, чтобы обеспечивалась

возможность много ключевого доступа к этому файлу по уникальным ключам (не

дублируемым в разных записях) СОТР_ИМЯ и СОТР_НОМЕР. Кроме того, должна

обеспечиваться возможность выбора всех записей с общем значением

СОТР_ОТД_НОМЕР, то есть доступ по неуникальному ключу. Для того, чтобы

получить численность отдела или общий размер зарплаты, каждый раз при

выполнении такой функции информационная система должна будет выбрать все

записи о сотрудниках отдела и посчитать соответствующие общие значения.

Таким образом мы видим, что даже для такой простой системы ее реализация на

базе файловой системы, во-первых, требует создания достаточно сложной

надстройки для много ключевого доступа к файлам, и, во-вторых, вызывает

требование существенной избыточности хранения (для каждого сотрудника

одного отдела повторяется имя руководителя) и выполнение массовой выборки и

вычислений для получения суммарной информации об отделах. Кроме того, если

в ходе эксплуатации системы нам захочется, например, выдавать списки

сотрудников, получающих заданную зарплату, то придется либо полностью

просматривать файл, либо реструктуризовывать его, объявляя ключевым поле

СОТР_ЗАРП.

Первое, что приходит на ум, - это поддерживать два много ключевых файла:

СОТРУДНИКИ и ОТДЕЛЫ. Первый файл должен содержать поля СОТР_ИМЯ,

СОТР_НОМЕР, СОТР_СТАТ, СОТР_ЗАРП и СОТР_ОТД_НОМЕР, а второй - ОТД_НОМЕР,

ОТД_РУК, ОТД_СОТР_ЗАРП (общий размер зарплаты) и ОТД_РАЗМЕР (общее число

сотрудников в отделе). Большинство неудобств, перечисленных в предыдущем

абзаце, будут преодолены. Каждый из файлов будет содержать только не

дублируемую информацию, необходимости в динамических вычислениях суммарной

информации не возникает. Но заметим, что при таком переходе наша

информационная система должна обладать некоторыми новыми особенностями,

сближающими ее с СУБД.

Прежде всего, система должна теперь знать, что она работает с двумя

информационно связанными файлами (это шаг в сторону схемы базы данных),

должна знать структуру и смысл каждого поля (например, что СОТР_ОТД_НОМЕР в

файле СОТРУДНИКИ и ОТД_НОМЕР в файле ОТДЕЛЫ означают одно и то же), а также

понимать, что в ряде случаев изменение информации в одном файле должно

автоматически вызывать модификацию во втором файле, чтобы их общее

содержимое было согласованным. Например, если на работу принимается новый

сотрудник, то необходимо добавить запись в файл СОТРУДНИКИ, а также

соответствующим образом изменить поля ОТД_ЗАРП и ОТД_РАЗМЕР в записи файла

ОТДЕЛЫ, описывающей отдел этого сотрудника.

Понятие согласованности данных является ключевым понятием баз данных.

Фактически, если информационная система (даже такая простая, как в нашем

примере) поддерживает согласованное хранение информации в нескольких

файлах, можно говорить о том, что она поддерживает базу данных. Если же

некоторая вспомогательная система управления данными позволяет работать с

несколькими файлами, обеспечивая их согласованность, можно назвать ее

системой управления базами данных. Уже только требование поддержания

согласованности данных в нескольких файлах не позволяет обойтись

библиотекой функций: такая система должна иметь некоторые собственные

данные (метаданные) и даже знания, определяющие целостность данных.

Но это еще не все, что обычно требуют от СУБД. Во-первых, даже в нашем

примере неудобно реализовывать такие запросы как "выдать общую численность

отдела, в котором работает Петр Иванович Сидоров". Было бы гораздо проще,

если бы СУБД позволяла сформулировать такой запрос на близком пользователям

языке. Такие языки называются языками запросов к базам данных. Например, на

языке SQL наш запрос можно было бы выразить в форме:

SELECT ОТД_РАЗМЕР

FROM СОТРУДНИКИ, ОТДЕЛЫ

WHERE СОТР_ИМЯ = "ПЕТР ИВАНОВИЧ СИДОРОВ"

AND СОТР_ОТД_НОМЕР = ОТД_НОМЕР

Таким образом, при формулировании запроса СУБД позволит не задумываться о

том, как будет выполняться этот запрос. Среди ее метаданных будет

содержаться информация о том, что поле СОТР_ИМЯ является ключевым для файла

СОТРУДНИКИ, а ОТД_НОМЕР - для файла ОТДЕЛЫ, и система сама воспользуется

этим. Если же возникнет потребность в получении списка сотрудников, не

соответствующих занимаемой должности, то достаточно предъявить системе

запрос

Страницы: 1, 2, 3, 4, 5, 6

Приглашения

09.12.2013 - 16.12.2013

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

09.12.2013 - 16.12.2013

МЕНЮ

НАУЧНЫЕ РАБОТЫ

Разработка программного обеспечения для Отделения Реанимации и Интенсивной Терапии новорожденных МГБ N1 г. Сургута

Приглашения

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

Международный конкурс хорового искусства в АНДОРРЕ «РОЖДЕСТВЕНСКАЯ АНДОРРА»