Ao longo da minha carreira, embora eu tenha trabalhado (e continue trabalhando) com temas relacionados à tecnologia como continuidade de negócios, riscos cibernéticos, dados, nuvem, fornecedores de TI, etc., eu estou longe de ser um especialista ou técnico em TI.
No entanto, gestores de risco não especialistas em TI, como eu, podem agregar muito valor sabendo fazer as perguntas certas, tentando entender o que acontecerá e poderá acontecer, fornecendo conselhos sobre como reduzir o risco e como manter um ambiente de TI mais estável e seguro. Com a distância entre “negócios” e “tecnologia” cada vez mais reduzida, e com a tecnologia sendo um facilitador essencial da estratégia empresarial, estas questões devem ser colocadas de forma mais ampla e transversal em todas as organizações.
Essencialmente, o risco de TI é o risco de interrupção dos sistemas de negócios ou da infraestrutura tecnológica. Ele pode ser definido como “o risco associado à falha ou interrupção de sistemas, incluindo hardware, software e redes”. Ou seja, existe uma ligação estreita entre falhas ou interrupções de sistemas e outros riscos relacionados, incluindo segurança cibernética e segurança da informação, gerenciamento de dados e planejamento de continuidade de negócios.
No centro da resiliência empresarial está a capacidade da organização de manter e fornecer tecnologias de informação e serviços de segurança confiáveis e seguros, tanto em circunstâncias normais como extraordinárias. Na verdade, a capacidade de apoiar serviços e processos organizacionais críticos e, ao mesmo tempo, adaptar-se ao ambiente de forma rápida e segura durante períodos de interrupção, não é só essencial, mas também proporciona uma vantagem competitiva distinta.
Fora do ponto de vista puramente de risco operacional, as falhas de tecnologia também podem impactar outros riscos, como o risco financeiro e regulatório (modelagem ou relatórios de liquidez, crédito, risco de mercado) e até riscos estratégicos, incluindo risco de reputação e risco socioambiental.
Essas interações são críticas para qualquer organização. Erros aparentemente simples, como uma política, processo ou controle deficiente (como a gestão de mudanças de TI, as chamadas "GMUDs") podem levar a interrupções significativas, perda de dados ou vulnerabilidades de segurança. Sem os planos adequados de continuidade e recuperação dos negócios, tanto para os sistemas como para os dados, a organização pode sofrer riscos estratégicos, de reputação ou regulatórios significativos. É claro que quanto mais sistemas legados e desatualização tecnológica, maior a complexidade e o risco.
Resiliência e Recuperabilidade
A resiliência e a recuperabilidade têm como objetivo principal o fornecimento de sistemas e dados estáveis. Sistemas sempre falharam e sempre irão falhar. Este fato não deve ser surpresa para ninguém. Através da aplicação eficaz da análise de cenários e das revisões de lessons learned (lições aprendidas), as organizações precisam compreender claramente os riscos que esses dois conceitos representam para o seu negócio, o que lhes deverá permitir, pelo menos, serem capazes de implementar os processos, sistemas, capacidades e controles corretos para evitar incidentes e para minimizar o impacto de uma falha se (e quando) ela acontecer. Nesse contexto, as primeiras três perguntas-chaves que todos deveriam fazer são:
1. “O que pode dar errado? ”;
2. Como posso minimizar a probabilidade de isso acontecer? ”; e
3. “Se der errado, com que rapidez precisamos, podemos e voltaremos a funcionar para minimizar o impacto do que aconteceu? ”.
Resiliência: minimizando a probabilidade de um incidente
Para alcançar a estabilidade em termos de tecnologia, as organizações devem considerar os seus sistemas ponta a ponta e como concebê-los e construí-los para resistir ou responder a falhas potenciais. Isso inclui:
Identificar, gerenciar e monitorar centralmente seus ativos (banco de dados integrado de informações de configuração e infraestrutura de TI - Configuration Management Database - CMDB);
Garantir que a concepção e construção de sistemas sejam resilientes e seguros (ou seja, "alta disponibilidade" e "seguros desde a concepção” - secure by design -, incluindo segmentação de rede para minimizar a escala do impacto);
Implementar e monitorar a adesão a políticas e procedimentos claramente definidos, com a infraestrutura e os controles corretos (automatizados sempre que possível) para gerenciar e monitorar os elementos de "execução" e "alteração" dos sistemas (incluindo a minimização do acesso humano aos sistemas em produção através da segregação de funções);
Garantir o investimento contínuo e adequado na manutenção dos sistemas legados (seja através da modernização, do desligamento de sistemas antigos ou da sua atualização quando se aproxima do fim da vida útil);
Garantir uma gestão de riscos apropriada, com supervisão, transparência e governança adequadas.
Em diferentes setores de indústria, a ‘mudança’ é de longe a causa mais comum de falhas tecnológicas. O risco de uma mudança não intencional ou mal gerida pode ser significativo. Muitas vezes, grandes mudanças planejadas são perfeitas. Meses de design e desenvolvimento, com avaliações de impacto minuciosas, testes e planos de reversão, são entregues com forte supervisão, resultando num impacto mínimo e num enorme suspiro de alívio em toda a organização.
Por outro lado, uma pequena mudança para atualizar uma peça de hardware ou implementar um patch de software pode colocar toda a organização de joelhos, especialmente quando os sistemas são mais complexos e historicamente foram mal projetados e gerenciados, e/ou não tiveram o investimento necessário.
Recuperabilidade: minimizando o impacto de um incidente
Quando as coisas dão errado, elas podem realmente dar errado. E os incidentes relacionados com a tecnologia que resultaram em impactos catastróficos ou significativos têm acontecido há muito mais tempo do que imaginamos. Num artigo muito interessante sobre desastres tecnológicos para a revista MIT Technology Review, o premiado jornalista e escritor científico Eric Scigliano discutiu 10 grandes exemplos diferentes de desastres tecnológicos que ocorreram desde 1628! (link para o artigo: https://www.technologyreview.com/2002/06/01/234859/10-technology-disasters/).
Exemplos mais recentes desde o início de 2010 incluem um terremoto e uma inundação que destruiu data centers, um fusível de ar condicionado queimado em um data center que causou superaquecimento e desligamento de servidores, certificados de software expirando inadvertidamente e provedores de infraestrutura pública cortando inadvertidamente cabos de rede críticos. Todos estes cenários tiveram um impacto material nos clientes, e a análise da causa raiz muitas vezes deixava a administração pensando: "bem, certamente isso poderia ter sido evitado".
Embora estas questões devam ser colocadas, a forma como a organização se planeja e responde a tais incidentes é importante e precisa corresponder à criticidade do serviço (e, portanto, ao apetite ao risco e ao investimento da organização). Se você dirige um negócio always on (sempre ligado), onde o tempo de inatividade é intolerável, a forma como você investe, gerencia e responde ao risco de falha tecnológica será diferente de outra organização que opera apenas em determinados horários do dia ou da semana, ou cujos serviços não são tão críticos.
Fazendo as perguntas certas
Acredito que hoje não há mais dúvidas de que a tecnologia não é mais domínio apenas dos chamados “techies”, ou especialistas em TI. Portanto, é papel fundamental dos gestores de risco não financeiro considerar o risco tecnológico de forma mais ampla, fazer as perguntas certas para garantir que a tecnologia subjacente permaneça estável e resiliente, e para que os dados estejam seguros e disponíveis durante períodos de instabilidade e também de mudança / inovação. Tudo isso leva a uma maior satisfação do cliente, maior envolvimento dos funcionários, acréscimo de valor para os acionistas e confiança regulatória.
A tabela abaixo apresenta uma lista não exaustiva das principais questões que os gestores de riscos não financeiros podem e devem fazer relacionadas com a gestão de riscos de TI:
Conclusão
Gerenciar a tecnologia e o risco tecnológico é fundamental para a resiliência operacional e a competitividade estratégica de qualquer organização. Lidar com a complexidade do passado enquanto se tenta construir uma tecnologia escalável que apoie a estratégia futura não é uma tarefa fácil (ou barata). Exige que a organização construa bases sólidas sobre as quais possa projetar, construir e implementar serviços em escala, mantendo ao mesmo tempo as capacidades atuais.
Ao fazer isso, será necessária uma racionalização do patrimôio tecnológico, podendo exigir a migração para serviços em nuvem ou uma atualização das capacidades da infraestrutura interna, a análise de processos e ferramentas através de uma visão ponta a ponta, a instituição de repositórios e redes de dados seguros, a adoção de padrões e frameworks de gestão de TI específicos, além da implementação forte gestão de riscos, controles e governança.
E no centro de tudo isso, como sempre, está a cultura de riscos. Alcançar os imperativos tecnológicos e de negócios da organização exigirá o desenvolvimento de novas competências de engenharia e arquitetura de TI nos colaboradores, mantendo ao mesmo tempo competências anteriores para lidar com a complexidade histórica e desligar os sistemas à medida que se tornam obsoletos. Além disso, exigirá também uma maior conscientização de riscos. Não só por parte do pessoal (que utiliza os sistemas e processos de suporte), mas também dos gestores de risco (que consideram os riscos de ponta a ponta decorrentes da entrega das tecnologias que suportam os produtos e serviços) e dos executivos e diretores (responsáveis pela fiscalização e entrega de valor aos acionistas).