Sumário extraído do artigo “Frequently Asked Questions Regarding Storage Configurations por Margaret Crevar and Tony Brown, SAS Institute Inc.
Resumo do conteúdo
- Visão Geral
- A escolha do tipo de arquivos e as implicações em desempenho e integridade dos dados
- Qual nível de RAID é ideal para SAS?
- O SAS funciona bem com o armazenamento de novas tecnologias?
- Para saber mais
Visão Geral
O documento do Fórum Global do SAS 2007 “Práticas recomendadas para configurar seu subsistema de E/S para aplicativos SAS ® 9 ” fornece orientações gerais para a configuração de subsistemas de E/S para seus aplicativos SAS. Desde que esse artigo foi publicado recebemos muitas perguntas no campo do SAS que estavam além do documento original, então nós escrevemos este artigo para abordar essas questões. Como as perguntas são amplamente variadas, pensamos que a melhor maneira de abordá-los é de formatando as perguntas como uma FAQ.
A escolha do tipo de arquivos e as implicações em desempenho e integridade dos dados
O que queremos dizer com sistema de arquivos? Um sistema de arquivos é um método de armazenamento e organização de arquivos e onde estão guardados dados para armazenamento e recuperação. Alguns dos sistemas de arquivos mais comuns são NTFS (para Windows), ZFS (para Solaris), JFS2 (AIX), EXT4 (para Linux), XFS (XFS para Linux), JFS (para HP-UX) e VxFS da Veritas (disponível em muitos sistemas operacionais diferentes).
Um sistema de arquivos inclui metadados que o sistema operacional usa para identificar onde escrever os arquivos. Um benefício adicional de um sistema de arquivos é que ele pode explorar um nível de sistema cache para ajudar a acelerar o acesso aos dados. O desempenho é aprimorado porque o cache pode acessar dados usados com frequência, ignorando uma latência associada ao acesso direto à unidade de disco físico.
Nos ambientes operacionais UNIX, dois tipos de sistemas de arquivos são predominantes: sistemas de arquivos indiretos ou baseados em blocos (por exemplo, UFS) e sistemas de arquivos baseados em extensão (por exemplo, VxFS e JFS). A principal diferença nos dois tipos é a maneira como os metadados e os dados do arquivo são organizados. Considerados tamanhos de arquivo e padrões de acesso, os dois tipos têm diferentes características de desempenho. Os sistemas de arquivos Indiretos, tem bom desempenho para arquivos pequenos. Os sistemas de arquivos baseados em extensão podem ter melhor desempenho em arquivos grandes, principalmente com acesso sequencial, porque existem menos operações de leitura e escrita indireta para acessar os dados.
Os sistemas de arquivos são classificados ainda como sistemas de arquivos com registro no diário (journaling) e sem registro no diário. Aqui novamente, a escolha do sistema de arquivos afeta o desempenho. Um sistema de arquivos com registro no diário cria um registro para a operação de metadados em um log separado – intent log – para que você possa determinar a integridade do sistema de arquivos através do log. Um sistema de arquivos sem registro diário não possui esse log, o que significa que você deve ler todo o sistema de arquivos para determinar sua integridade.
Além dos sistemas de arquivos locais disponíveis, também existe um sistema de arquivos conhecidos como sistema de arquivos em cluster. Esse tipo de sistema gerencia e sincroniza o acesso ao arquivo em vários hosts. Portanto, você pode usar um sistema de arquivos em cluster para compartilhar dados em um único sistema de arquivos em vários computadores (ou instâncias do sistema operacional). Você também pode compartilhar dados em um sistema de arquivos entre vários computadores, usando metodologias NFS ou CIFS. No entanto, essas metodologias não são ideais para aplicativos SAS porque o SAS usa bloqueios de arquivo – file locks – por padrão/default ao acessar arquivos. Quando você usa o NFS, os bloqueio de arquivos por file-lock desativa o cache, bem como o Read-ahead e o processamento write-behind, que, por sua vez, afeta adversamente o desempenho, a menos que voce possua uma versão com suporte ao bloqueio local do NFS.
Qual nível de RAID é ideal para SAS?
Embora o SAS possa operar em qualquer nível de RAID, você deve escolher o nível RAID mais seguro e acessível que satisfaça sua requisitos de desempenho/segurança. Como mencionado anteriormente, matrizes (arrays) de disco modernas geralmente chegam com um número limitado de configurações suportadas por RAID. Hoje configurações da matriz de armazenamento têm uma quantidade suficiente de cache interno para aliviar erros de paridade de RAID e para permitir o agrupamento de leitura e gravação para desempenho eficiência.
Uma configuração RAID10 (uma distribuição distribuída (RAID0)) é uma configuração bem conhecida que também é totalmente espelhado (RAID1) em relação aos sistemas de arquivos SAS. O RAID10 oferece o que há de melhor em segurança e desempenho. No entanto, uma perspectiva de preços, quase dobra o número de eixos físicos necessários para executar o mesmo trabalho que um RAID5. Os ganhos de desempenho não são suficientemente significantes para justificar o custo de discos adicionais.
O SAS funciona bem com o armazenamento de novas tecnologias?
Os arquivos SAS são apenas arquivos do sistema, o SAS funciona em todas as novas tecnologias de armazenamento. Apesar disso e por causa disso mesmo, na verdade os tipos mais novos de armazenamento têm seus prós e contras, especialmente para padrões de acesso sequencial de grandes blocos, que o SAS normalmente emprega. Uma lista a seguir explica os diferentes tipos de unidades disponíveis e como o SAS trabalha com elas.
Drives SATA – Serial Advanced Technology Attachment: os drives SATA são bastante populares porque têm uma grande área ocupada (por exemplo, 500 GB, 1 TB, 2 TB, 4TB, 6TB ou mais por dispositivo) e são relativamente baratos. No entanto, sua taxa de rotação mais lenta e maior tempo de busca normalmente não qualifica muito bem para SAS, especialmente para as SAS Work Areas.
Unidades SAS (serial attached SCSI): as unidades SAS são mais usadas para aplicativos SAS, especialmente quando eles são usados como unidades internas ou em armazenamento anexado ou matriz de armazenamento low-end.
Dispositivos de RAM disponíveis (DRAM): esses dispositivos armazenam dados na memória e produzem desempenho rápido como o nanossegundo para acesso e gravação de dados, o que funciona extremamente bem com as velocidades atuais da CPU. O SAS teve bom desempenho em campo com esses dispositivos, mas seu custo pode ser difícil de justificar.
Unidades de estado sólido (SSD, também estão disponíveis como unidades de flash): as unidades de estado sólido são atualmente populares também. A tecnologia melhorou desde que foram introduzido pela primeira vez e estamos vendo taxas de leitura e gravação aleatórias muito boas para esses dispositivos. Essas mudanças tornam essas unidades muito atraentes em termos de altíssimo desempenho para sistemas de arquivos SAS WORK.
Dispositivos de armazenamento em rede: esses dispositivos são matrizes de armazenamento independentes que vem pré-configurados com uma quantidade considerável de espaço no disco físico. Nossa experiência no trabalho com clientes mostrou que esses aparelhos são um bom ajuste para aplicativos menores e muito estáticos, e perfis de dados. No entanto, eles não funcionam tão bem com o alto volume de E / S de muitos SAS (10+) com usuários simultâneos que usam E/S rápidos com grandes volumes de dados (arquivos de 25 GB ou mais). Esteja ciente de que você deve ter largura de banda de rede suficiente para essas matrizes.
Para saber mais
http://support.sas.com/rnd/papers/sgf07/sgf2007-iosubsystem.pdf
http://support.sas.com/rnd/scalability/papers/index.html
