Extração personalizada e incremental de dados em ambientes de BI tempo real

Martins, Daniel Barbosa

DSpace Home
→
Centro de Ciências Exatas e Tecnologia (CCET)
→
Informática Aplicada
→
INAP - Dissertações de Mestrado
→
View Item

dc.contributor.advisor	Baião, Fernanda Araujo
dc.contributor.author	Martins, Daniel Barbosa
dc.date.accessioned	2019-06-12T22:12:55Z
dc.date.available	2019-06-12T22:12:55Z
dc.date.issued	2009-09-24
dc.identifier.citation	MARTINS, Daniel Barbosa. Extração personalizada e incremental de dados em ambientes de BI tempo real. 2009, 103f. Dissertação ( Mestrado em Informática ) - Universidade Federal do Estado do Rio de Janeiro, Rio de Janeiro, 2009.	pt_BR
dc.identifier.uri	http://hdl.handle.net/unirio/12824
dc.description	Dissertação também disponível em formato impresso, com o número de chamada MI 2009/22.	pt_BR
dc.description.sponsorship	n/a	pt_BR
dc.language.iso	Portuguese	pt_BR
dc.rights	openAccess	pt_BR
dc.title	Extração personalizada e incremental de dados em ambientes de BI tempo real	pt_BR
dc.title.alternative	Customized and increment data extraction in real-time by environments	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	Cavalcanti, Maria Cláudia Reis
dc.contributor.referee	Baião, Fernanda Araujo
dc.contributor.referee	Cavalcanti, Maria Cláudia Reis
dc.contributor.referee	Campos, Maria Luiza Machado
dc.contributor.referee	Siqueira, Sean Wolfgand Matsui
dc.contributor.referee	Sampaio, Jonice de Oliveira
dc.degree.department	CCET	pt_BR
dc.degree.grantor	Universidade Federal do Estado do Rio de Janeiro - UNIRIO	pt_BR
dc.degree.level	Mestrado Acadêmico	pt_BR
dc.degree.local	Rio de Janeiro, RJ	pt_BR
dc.degree.program	Programa de Pós-Graduação em Informática	pt_BR
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA	pt_BR
dc.subject.cnpq	CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.subject.en	Business Intelligence	pt_BR
dc.subject.en	Data Quality	pt_BR
dc.subject.en	Distributed Systems	pt_BR
dc.subject.en	Process to Data Incremental Extraction	pt_BR
dc.description.abstracten	Trends in Business Intelligence environments require information immediately available in the Data Warehouse, reducing the time interval from the moment of an event in the transactional environment to the moment a decision is taken in the informational environment. This is called BI 2.0, or real-time BI, and its main goal is to improve decision-making processes. However, one of the difficulties to implement real-time BI is that ETL process execution is highly time-consuming, because it is carried out considering the whole (full) set of source data, in a pre-determined low frequency. In these environments, the existence of different users, with particular views on the data quality, leads to different needs regarding DW update frequency. This work proposes the Brahma architecture that dynamically specifies and executes ETL process instances to provide incremental extraction of data based on the needs of groups of users with similar views on the data quality. The proposed architecture was implemented in a prototype and evaluated with the TPC-H Benchmark. The experimental results showed that Brahma provided significant performance gain (proportional to the amount of irrelevant data removed in each ETL instance), while maintained the DW data quality in a higher and constant level.	pt_BR
dc.degree.country	Brasil	pt_BR
dc.description.sponsordocumentnumber	n/a	pt_BR
dc.description.abstractpt	Tendências atuais em ambientes de Inteligência de Negócios (Business Intelligence – BI) incluem a demanda pela disponibilização de informações de imediato no Data Warehouse (DW), reduzindo o tempo entre a ocorrência de um evento no ambiente transacional e o momento quando uma decisão é tomada no ambiente informacional, com o propósito de melhorar o desempenho dos processos de tomada de decisão. Nestes ambientes, a existência de usuários diferentes, com visões particulares sobre a qualidade dos dados, acarreta em necessidades distintas quanto à atualização dos dados no DW. Tipicamente para atender a todos os usuários, o processo de carga do DW (processo ETL) é realizado para todo o grande volume de dados (completo), na menor freqüência requerida, impactando fortemente no tempo para a atualização do DW. Este trabalho busca uma maior adequação do processo ETL às tendências atuais de BI. Para reduzir o tempo de atualização do DW, contribuindo com o aumento da qualidade de dados, e ao mesmo tempo viabilizar a co-existência de usuários com diferentes requisitos de qualidade de dados, este trabalho propõe a arquitetura Brahma, que especifica e executa dinamicamente instâncias do processo de extração incremental de dados, baseando-se nas necessidades de grupos de usuários com visões semelhantes sobre a qualidade dos dados. A arquitetura proposta foi implementada em um protótipo e avaliada num cenário baseando-se no esquema do Benchmark TPC-H. Os resultados iniciais desta avaliação mostraram que as instâncias ETL executadas segundo a arquitetura Brahma apresentam ganho de desempenho significativo, diretamente proporcional à quantidade de dados irrelevantes eliminados em cada instância ETL executada, além de manter a qualidade de dados do DW em um nível mais elevado e constante.	pt_BR
dc.subject.pt	Business Intelligence	pt_BR
dc.subject.pt	Qualidade de Dados	pt_BR
dc.subject.pt	Sistemas Distribuídos	pt_BR
dc.subject.pt	Processo de Extração Incremental de Dados	pt_BR