Sistemas autônomos e elevando os seres humanos do middleware: perguntas e respostas com Ben Nye, CEO da Turbonomic

Contente

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Leve embora:

Nossa conversa com Ben Nye, CEO da Turbonomic.

Talvez você já tenha ouvido falar em computação autônoma. Refere-se à capacidade de um computador ou sistema de se auto-organizar e auto-gerenciar. E, até recentemente, ainda era um sonho futurista. Queríamos aprender um pouco mais sobre como um sistema autônomo funciona, por isso conversamos com Ben Nye, o CEO da Turbonomic e o diretor gerente da Bain Capital Ventures. A Turbonomic (anteriormente VMTurbo) passou recentemente por uma re-marca para retratar com mais precisão o que seu software faz. O novo nome incorpora os principais temas da Turbonomic em sua plataforma de gerenciamento de aplicativos: Turbo (desempenho em tempo real), controle autonômico (cargas de trabalho auto-organizáveis e gerenciadas) e princípios econômicos (oferta e demanda). Aqui Ben fala sobre sistemas autônomos e a importância da automação em ambientes cada vez mais complexos e controlados por dados.

Techopedia: Você apareceu várias vezes na lista da Forbes Midas para os principais capitalistas de risco (VCs). Como VC, você tem um ponto de vista interessante para ver todo o cenário tecnológico com o quanto o mundo mudou ao longo dos anos. O que o surpreende ao olhar para trás o quanto as coisas mudaram no data center?

Ben Nye: A resposta curta é que eu acho que o ritmo das mudanças no data center realmente acelerou além do que as pessoas viam. O que aconteceu foi esse desenvolvimento do data center definido por software e, fundamentalmente, a abstração do hardware. Isso abriu toda uma unidade de crescimento dentro dos elementos do software.

Portanto, agora, em vez de lidar com os ciclos de atualização dos fornecedores de hardware (que por muito tempo quase serviram como guardiões do data center), ele agora estava literalmente aberto ao elemento de quão rápido você pode criar idéias - porque o software, realmente, são idéias. Sem as restrições à geração de ideias, foi um momento muito emocionante e divertido, mas o ritmo das mudanças no data center e até a definição do data center evoluíram materialmente e mais rapidamente do que nunca.

Algo que acho muito interessante é que, quando fomos a um data center definido por software, todos os controladores, APIs e knobs do mundo do hardware foram redefinidos em software. O que fizemos foi pensar sobre isso em termos de uma nova maneira de impulsionar o desempenho e a produtividade, que seria pegar o aplicativo e a mudança na demanda desse aplicativo e vinculá-los aos controladores redefinidos no software porque, em última análise, é um software para Programas.

Quando você faz isso, agora pode remover o middleware humano entre a camada de aplicativo e a camada de infraestrutura, porque agora, pela primeira vez, é possível uni-los diretamente. Aqui está uma palavra importante: autonomicamente, significando literalmente permitir que os aplicativos sejam autogerenciados e auto-organizados.

Também o torna econômico no sentido de que agora a demanda está encontrando oferta e estamos focados em um modelo de consumo de TI, um modelo econômico em vez de um modelo baseado em alocação ou modelo baseado em oferta. Essa é uma reviravolta bastante fundamental na história de como a TI ou um modelo de gerenciamento da indústria de tecnologia deve ser executado. E resultou em melhor desempenho e mais eficiência em termos de custo. Também torna os clientes muito mais ágeis e resistentes, além de aproveitar melhor a mão de obra no mercado

Aqui está o que há de mais irônico no que aconteceu em 2016 com todos os data centers definidos por software. Primeiro, você está monitorando seu hardware para descobrir quando os aplicativos são interrompidos, o que significa que eles violaram uma qualidade de serviço ou um SLA, mas enquanto estamos usando o software para encontrar o erro, voltamos ao hardware para alertas gerados por máquina . A segunda pista é que estamos permitindo que aplicativos que executam o negócio sejam interrompidos e a terceira é que pegamos esses alertas repetidos gerados por máquina e os entregamos Para pessoas.

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

Isso tem que ser ao contrário.

E é aí que queremos mudar o modelo de gerenciamento de TI das alocações ou adivinhações e voltar para um modelo baseado em demanda e consumo.
Leia: O data center orientado pela demanda - O que os administradores de sistema podem aprender com Wall Street

Techopedia: Agora que você mencionou, sim, estamos criando algo definido por software, mas os alertas estão sendo enviados para a parte mais lenta do processo, que é, como você disse, o middleware humano.

Você mencionou o termo autonômico. Você pode falar um pouco mais sobre a importância dos sistemas autônomos em TI? Dada a mudança de nome de VMTurbo para Turbonomic, acho que é mais importante do que a maioria das pessoas imagina.

Ben Nye: Absolutamente. Em primeiro lugar, a definição de autonômico, quando aplicado à computação, envolve sistemas que podem autogerenciar e se organizar.

Então pense nas redes bayesianas, pense nos algoritmos de busca, no big data, que as pessoas estão chamando de "aprendizado profundo". Essas são formas de inteligência artificial. O que eu acho mais interessante sobre a Turbonomic é que é a forma definitiva de inteligência artificial, porque as cargas de trabalho do aplicativo tomam decisões de forma autônoma no software sobre quais elementos de infraestrutura eles devem executar e quando devem se mover, dimensionar-se, iniciar e parar a si mesmos, se clonar. Isso é muito, muito interessante - e fazemos isso aproveitando a abstração e a liquidez oferecidas pela virtualização, ou contêineres ou nuvens.

Então, tendo uma abstração semelhante de todas as diferentes formas de demanda - para que você possa ter VMs, contêineres e JVMs -, analisamos todas essas formas de demanda e todas essas formas de oferta e elas são abstraídas. Então, vamos deixar a demanda escolher ou corresponder ao suprimento. E então, se eles estiverem em um host físico e ele começar a congestionar, em vez de começar a deixá-lo falhar e gerar um alerta e fazer com que o aplicativo exploda, por que não simplesmente permitir que ele tome uma decisão de mudar em si? Desde que você esteja precificando sua decisão (a mudança e o custo da mudança), você poderá realmente tomar decisões muito mais interessantes sobre a alocação de recursos.

Techopedia: Eu amo a analogia da oferta e demanda. Na teoria econômica, as fontes de suprimento são fixadas no curto prazo e só podem mudar por um longo período de tempo. No que você está descrevendo - se você mantém essa analogia econômica - está mudando todo o paradigma. Ou seja, você pode alterar a oferta no curto prazo, certo? Você tem total flexibilidade para ser realmente mais eficiente e, pensando na utilização de recursos como mercado, possui um mercado quase eficiente em tempo real?

Ben Nye: Você está exatamente certo. É um modelo econômico que se torna o princípio em torno do qual a demanda encontra oferta, mas que a TI é gerenciada usando princípios econômicos. E como John Maynard Keynes disse: "A longo prazo, estamos todos mortos".

Techopedia: Acho que você não encontrou nenhum CIO neste momento que ainda não tenha se mudado ou não esteja pensando seriamente em mudar para colocar mais recursos na nuvem. Para onde você vê a indústria nos próximos anos?

Ben Nye: Eu acho que você verá várias alterações. Está bem claro para nós que não será uma reformulação completa da tecnologia. Assim como o mainframe ainda está aqui, acho que você nunca verá uma reformulação de 100%. Muito provavelmente você verá um mundo híbrido. Você terá público e privado, no entanto, acho que o público seria realmente uma nuvem pública múltipla, não uma nuvem pública pública. Olhando para os maiores jogadores aqui, há apenas um punhado. Mas quando você vai para a Europa ou para o resto do mundo, vê muitas transportadoras que também são nuvens, e por isso não acho que seja um grande salto, certo? A verdadeira questão, no entanto, é como os clientes adquirem as nuvens certas para executar suas cargas de trabalho? Nossa teoria por trás da empresa é que qualquer carga de trabalho deve ser capaz de executar em qualquer infraestrutura, qualquer lugar. Significado on-prem ou off e a qualquer momento porque, lembre-se, o tempo é substituto para a demanda.

Portanto, quando a demanda mudar, convém ir para a nuvem. Ou, se você mover essas cargas de trabalho para a nuvem permanentemente, em quais cargas de trabalho você irá recuar? Porque agora você tem capacidade em seu data center. Por que pagar duas vezes? Portanto, uma das coisas que fazemos hoje em conjunto com o Verizon Intelligent Cloud Control, mas também com outros ambientes, permite que os clientes baseiem sua decisão sobre onde executar essas cargas de trabalho, não apenas no preço, porque o preço pode prendê-lo, mas também mais importante no desempenho do aplicativo. Depois, você pode ter outras considerações, como preço, conformidade ou soberania de dados ou segurança e outros recursos que são apenas recursos fundamentalmente negociáveis neste mercado que estamos descrevendo.

Techopedia: Esse é o modelo econômico?

Ben Nye: Sim. Então, tudo volta ao modelo econômico. Apenas pense em como isso é lógico. A propósito, não é apenas uma analogia, é realmente a maneira como o modelo funciona. As cargas de trabalho têm orçamento e as cargas de trabalho analisam a teoria das filas e o congestionamento, e por isso é muito mais expandido. Não é um aumento de preço linear quando começa a congestionar; aumenta exponencialmente, forçando o orçamento a ser impactado e, portanto, a carga de trabalho para tomar uma decisão.

Desde que você abstraia todas as complexidades do data center, agora você pode negociar IOPS de uma caixa do XtremIO, de uma caixa Pure Storage e de uma caixa Compellent e de uma caixa 3Par, porque todas elas têm características IOPS diferentes, mas o aplicativo pode portanto, compre esses recursos por sua própria escolha. Não é diferente de olhar para CPU ou vCPU, MEM ou vMEM, certo? Eles são todos negociáveis, então devo correr aqui ou aqui? Não importa! A mercadoria comum aqui é o fornecimento de infraestrutura.

A mercadoria comum aqui é o suprimento de infraestrutura e a razão pela qual é importante - vou usar uma analogia - se você se lembra

Em 1978, desregulamentamos as companhias aéreas. Antes disso, todos os assentos eram iguais, os preços eram iguais e, embora fosse lógico, era errado, porque no lado do consumo, a disposição de pagar era muito diferenciada. Portanto, os assentos eram uma mercadoria, mas, mudando o foco para a demanda, o preço por assento - mesmo que os assentos fossem os mesmos - era possível verificar a disposição de pagar diferente. Então, o que fizemos foi pegar o recurso que representava a mercadoria comum e publicá-la na Web - primeiro eram Sabre e Apollo, mas depois se tornou Travelocity, Kayak e Priceline.

De repente, quando você deixa a demanda escolher a oferta, eis que todo o setor mudou. Os fatores de carga aumentaram, mas o custo do voo diminuiu e toda a infraestrutura da companhia aérea que temos neste país se modernizou. Foi um grande avanço. Ah, e, a propósito, se você olhar para a Priceline hoje, vale US $ 70 bilhões. Isso é mais do que qualquer companhia aérea e eles não possuem um único avião.

Techopedia: Interessante. Eu nunca pensei nisso dessa maneira ...

Ben Nye: Eles não possuem um avião, não possuem um portão, não possuem um assento, não empregam um piloto, certo? E então você diz: "Mas que outros exemplos temos da economia centrada na oferta?" Vamos mudar. Os hotéis são baseados na oferta, certo? Você tem um hotel, não pode movê-lo. Você tem esses quartos mas como você avalia esses quartos? E vem a Hotels.com, Expedia, Travelclick, etc. E aconteceu o mesmo. Você vê restaurantes e possui o OpenTable. Você vê Páginas Amarelas. Isso foi substituído principalmente pelo Google. Você vê anúncios classificados nos jornais e eles foram substituídos pelo eBay ou Craigslist.

Um dos meus exemplos favoritos é o Uber. Se você andar por qualquer cidade, verá uma fila de táxis esperando por pessoas e depois subirá para outra parte da mesma cidade e haverá uma fila de pessoas esperando por táxis. E você pensa, isso não pode estar certo. Aí vem o Uber, que usa o smartphone para permitir que a demanda direcione a oferta. Agora, com o Uber, você tem 90% da demanda atendida em 10 minutos, enquanto no mundo dos táxis, 90% da demanda não é atendida em 10 minutos, e é por isso que a última rodada da Uber foi de US $ 62 bilhões. E lembre-se, eles não têm táxi nem carro!

Techopedia: Então, em um data center típico, estamos basicamente fazendo o mesmo que chamar um táxi, certo?

Ben Nye: Portanto, pense assim: as cargas de trabalho são os detentores do orçamento, porque é por isso que construímos o data center. Então, eles são efetivamente seus humanos neste exemplo. Então eu tenho esse recurso, esse recurso comum, totalmente totalmente abstraído. Isso se chama suprimento e pode estar em qualquer lugar - está tudo abaixo da necessidade do aplicativo, desde o servidor e o ambiente do computador até a rede, até o armazenamento. Agora, o que queremos é garantir que este seja um mercado eficiente. Portanto, esses detentores de orçamento precisam ser capazes de agir autonomamente, ou seja, de forma autônoma e em tempo real dada a quantidade de alteração na demanda na própria carga de trabalho ou, nesse caso, no aplicativo. É por isso que isso é muito análogo à procura de suprimento. Ao usar esse sistema, você obtém um desempenho muito melhor do aplicativo porque não espera um gargalo de mão-de-obra humana para responder a um alerta gerado por máquina para tomar uma decisão de cuidar e alimentar o aplicativo. Você está fazendo isso em tempo real. E você está fazendo isso em escala, porque essas instituições, esses clientes, executam milhares de aplicativos por dia e precisam executar.

Então, primeiro, você está obtendo uma experiência de desempenho muito melhor. Além disso, você não tem pessoas que passam o dia sendo cumpridoras. Em vez disso, eles estão voltando a ser pensadores e não estão apenas recebendo alertas gerados por máquina, estão pensando em realmente ajudar os negócios. Eles estão pensando na estratégia de microsserviços e na estratégia híbrida e de várias nuvens, e nas redes definidas por software e funções e virtualização de rede - todas essas coisas que realmente avançam nos negócios e os tiram do mundo da alimentação e alimentação de aplicativos de correção de erros, ou alerta respondendo.

Na verdade, estamos descobrindo que entre 40% e 60% do capital do datacenter está provisionado em excesso e podemos permitir que muito disso seja reapropriado - evitando a compra de novo hardware - ou desativado e o motivo que importa tanto é -

Techopedia: Desculpe, deixe-me verificar isso, 40-60%? Desculpe, esse número é surpreendente.

Ben Nye: Sim. E o mais importante é que 14% da eletricidade neste país é consumida por data centers.

Techopedia: Para que pudéssemos economizar de 5 a 8% de todo o consumo de eletricidade do país se não provisionássemos em excesso nossos data centers?

Ben Nye: Deixe-me lhe dar um apoio para explicar por que, ok? Ela volta ao mundo de uma economia baseada na oferta. Primeiro, quando você tem um novo aplicativo e administra uma loja de TI, como o dimensiona?

Techopedia: Sim, você vai ao arquiteto e eles meio que adivinham, certo? E então eles esperam até que se quebre.

Ben: Exatamente. Você vai para a linha de negócios e conversa, e eles não sabem nada que você não conhece. Então, eles estão adivinhando e você está adivinhando, e juntos tentamos adivinhar qual deve ser o tamanho.

Então, você alocará quatro ou oito VCPUs. Agora, o interessante é que a alocação inclui um pé físico ou o pé virtual em um servidor físico. Sempre que uma solicitação vier desse aplicativo, ela será colocada na fila como quatro ou oito VCPU. É essencialmente como ir a um restaurante e dizer que você é uma festa de quatro ou oito, mesmo que você possa ser apenas uma festa. Você nunca vai se sentar.

Superalocamos nossas suposições, o que significa que obtemos o pior desempenho e é muito caro. Esse é o problema número um. O problema número dois é que agora você não pode dimensionar com precisão seu aplicativo, o que levanta a questão: como você o coloca se não pode dimensioná-lo?

Você está adivinhando novamente. OK, então agora estamos adivinhando a primeira coisa, adivinhando a segunda coisa, então existe uma coisa chamada expansão da VM, ou uma VM sem demanda. Ele é deixado em seu estado em vez de ser removido e também reserva hardware. Então, o que fazemos é tentar reunir todas essas coisas em um modelo de capacidade histórica baseado em humanos e, como apenas executamos isso uma ou duas vezes por ano, precisamos construir outro hedge, então estamos falando de 20 a 30% cobertura porque demanda pode aumentar em todos esses aplicativos e "fecharemos o cluster", porque consideraremos esse grupo de hosts "cheios". Nesse momento, você bloqueou até metade da capacidade do seu data center e está com excesso de provisionamento.

Techopedia: É como se você estivesse preparado para o fracasso, como se não houvesse uma maneira possível no velho paradigma de realmente não exceder o provisionamento ou não ter expansão ...

Ben Nye: Se tudo o que você vê e gerencia é o suprimento de infraestrutura, como você sabe no mundo se possui suprimento suficiente para ser resiliente se não vê e não entende e, em tempo real, está vinculado à demanda? Se tudo o que você vê é suprimento, como você sabe se tem o suficiente? Como você sabe se você tem demais?

Techopedia: Bem, você provavelmente contrata mais algumas cabeças para adivinhar mais. Você gasta mais dinheiro investigando esse problema, não é?

Ben Nye: E você ainda acaba aprovisionando fundamentalmente o pedido, chame de metade e está comprando hardware desnecessariamente. Todo o conceito por trás da virtualização, em sua primeira instanciação, estava presente, em vez de ter uma pilha dedicada de hardware para cada aplicativo. Vou poder mover essas cargas de trabalho entre pilhas dedicadas e, portanto, a idéia era fornecer hardware à média dos picos em vez da soma dos picos de todo esse capital de hardware.

No entanto, quando você agora assume o controle autonômico em tempo real, o controle de desempenho, o lado do consumo da VM, o contêiner ou a nuvem e pensa na mesma coisa; o que nós fazemos? Saímos e fazemos testes de estresse a cada aplicativo e existem milhares - existem centenas a milhares de aplicativos em um ambiente, dependendo do tamanho do cliente - e, por isso, fazemos testes de estresse para CPU, para vCPU, para MEM, para vMEM, e assim por diante, todos os diferentes elementos ou recursos, certo? E então provisionamos com base na soma dos picos novamente. A diferença é que se você não tem um atraso ou um gargalo associado à mão-de-obra e agora pode provisionar a média dos picos, adivinhe o que podemos fazer? Podemos gerenciar esse ambiente ativamente, porque todos os aplicativos nunca atingem o pico de uma só vez.

Techopedia: Uau. Isso realmente está voltando ao que deveria ser a virtualização em primeiro lugar.

Ben: Isso é virtualização ou containerização 2.0: controle de desempenho autônomo em tempo real.

Techopedia: Então, se o antigo loop de correção de problemas é uma maneira desatualizada de pensar, como você explica isso para quem está na linha de frente?

Ben Nye: Deixe-me fazer uma pergunta simples: por que um monitor?

Techopedia: Bem, você quer saber o que está errado ou quando algo está errado, certo?

Ben Nye: ESTÁ BEM. Sim. Você quer saber quando ele quebra. Mas por que você quer deixá-lo quebrar? Essa é a questão toda. Veja, você inevitavelmente terá algum monitoramento para algumas divisões ou partes do seu datacenter, mas, fundamentalmente, se eu puder garantir que meus aplicativos estejam executando com desempenho no que chamamos de estado desejado, que é a quantidade certa de recursos para apoiá-los em tempo real, esse é um mundo muito melhor do que esperar para monitorar, alertar e tentar responder a isso.

Quando a virtualização deu origem aos data centers definidos por software, foi um avanço realmente interessante, mas eles deram um passo longe demais porque se autodenominavam o sistema operacional do data center do futuro e era direto da caixa, certo? Mas se você realmente procurar as cinco coisas que um sistema operacional deve fazer, a primeira é o gerenciamento de desempenho. Então, deixe-me perguntar, um hypervisor faz gerenciamento de desempenho?

Techopedia: Claro que não.

Ben Nye: Não. Certo. Em seguida, a segunda coisa a fazer é a alocação de recursos. Então, o hypervisor faz alocação de recursos? Não.

E o agendamento de trabalhos? E as reservas? E o planejamento? Não, não e não. Então, de repente, você percebe como eles conseguiram isso: eles geram alertas e o número de alertas aumenta e cresce à medida que usamos os recursos em um nível mais alto, mas também à medida que criamos mais aplicativos, mais formas de carga de trabalho e mais lugares em que eles podem correr. De repente, estamos esmagando as pessoas com todos esses alertas.

Mas o mais importante é que o que estamos fazendo com os humanos perseguindo esses alertas está mudando pessoas nos modernos sistemas operacionais de data center, e isso é estranho porque, como se vê, as pessoas dormem. As pessoas têm famílias, tiram férias e, portanto, as pessoas não podem ser sistemas operacionais. Por isso, criamos esse sistema de controle de desempenho de aplicativos, a Turbonomic, para poder fazer exatamente essas cinco coisas. Concordamos que o hipervisor é uma grande invenção, e contêineres e nuvens, mas os vemos como provedores de liquidez; eles não são um sistema operacional. O restante do sistema operacional vem de um sistema de controle de desempenho de aplicativos. Faz essas coisas, gerencia o desempenho, alocação de recursos, programação de tarefas, reservas e planejamento - esse é o valor total do que temos. É por isso que existimos no mercado.

Techopedia: Diga-me que papel você acha que o aprendizado de máquina ou a IA desempenham nos próximos dois a cinco anos? Como o Turbonomic com IA altera o data center?

Ben Nye: Existem algumas inferências incríveis e interessantes que podemos fazer em todos os tipos de ambientes diferentes. Eu diria que o que estamos fazendo é ser muito mais preciso do que isso. Lembre-se de que um dos problemas com grandes conjuntos de dados grandes é que você precisa de tempo para desenvolver esses dados, correlacioná-los e extrair as inferências sobre esses dados.

Às vezes, você desenha a inferência errada e é muito difícil saber quanto tempo leva para o conjunto de big data desaprender essa inferência, seja ela certa ou errada. Então, no final, ele ainda possui um componente humano ou algum tipo de componente estático do trabalho humano para realmente executar uma ação. No nosso caso, isso é inteligência autônoma. Não é apenas inteligência artificial e essas cargas de trabalho estão realmente tomando decisões por conta própria no modelo, mas você está fazendo isso com um grau de precisão. É muito maior do que o que pode ser realizado com simplesmente um conjunto de dados de grande volume de dados.

Techopedia: Se você pudesse deixar um com o administrador médio do sistema, o arquiteto médio do data center ou o CIO médio, onde serão as coisas nos próximos dois anos? O que as pessoas não percebem agora que precisam saber sobre 2017, 2018 e além?

Ben Nye: Eu acho que o mais importante é lembrar por que entramos na arena da tecnologia; porque somos fundamentalmente curiosos e queremos permitir que a economia dos EUA - ou qualquer outra economia - faça mais com menos. É assim que as empresas correm e rolam. Não pode ser correto seguir a abordagem de ontem de um modelo baseado em alocação ou suprimento quando exige que executemos na ordem de aproximadamente 50% de provisionamento em excesso, e em um mundo de aplicativos de correção de falhas e onde transformamos nosso trabalho de pensadores para praticantes.

Há um caminho melhor. A melhor maneira é abraçar novas idéias e novas tecnologias de novos fornecedores que oferecem a oportunidade de olhar para o lado da demanda da equação, o lado do consumo de uma VM, de um contêiner, de uma nuvem e executar com mais desempenho em maior escala com mão de obra mais inteligente e melhores eficiências em seu capital e flexibilidade em termos de agilidade e resiliência em suas operações.

É por isso que achei a oportunidade tão atraente que eu queria gerenciá-la, e por que acredito nela tão plenamente.

Se você quiser uma Plataforma de Controle de Desempenho de Aplicativos da Turbonomic, faça o download aqui.