CITI has stopped operations in 2014, to co-launch NOVA LINCS THIS SITE IS NOT BEING UPDATED SINCE 2013
citi banner
Home Page FCT/UNL UNL
  Home  \  Graduation Activities  \  Post-Graduation Page Login  
   
banner bottom
File Top
Estratégias de Partição para a Optimização da Descarga Distribuída da WEB
Phd Post-Graduation
Abstract:

Face à imensid˜ao de informação na Web, a descarga de páginas utilizada, por exemplo, em motores de pesquisa, sugere a criação de um sistema de agentes distribuídos (robôs) que descarreguem vários servidores em simultâneo. Porém, quando procuramos optimizar os mecanismos de descargas somos confrontados, pela necessidade de obedecer às actuais políticas de delicadeza que obrigam à existência de um intervalo de tempo mínimo entre dois pedidos de descarga, ao mesmo servidor. Uma outra dificuldade resulta da forma como as páginas est˜ao distribuídas, uma vez que a maior percentagem está alojada em apenas um pequeno número de servidores, provocando um desnivelamento significativo entre servidores com poucas páginas e servidores (mais densos) com elevado número de páginas. O aumento do desempenho de cada agente é alcançável através da diminuição do intervalo de descarga, do aumento do número de conex˜oes http persistentes e/ou repartindo as páginas existentes pelos servidores Web mais densos por vários robôs. No entanto, se considerarmos que o valor daquele intervalo deve permanecer constante, para o universo de todos os servidores, a tentativa de usar qualquer uma daquelas opções conduz necessariamente `a violação das políticas de delicadeza. Todavia, sendo razoável esperar que a capacidade de processamento e comunicação de um servidor cresça na raz˜ao directa da respectiva densidade, podemos considerar que o intervalo de descarga pode ser reduzido na proporçãao inversa. Isto é, podemos fazer variar o tempo de delicadeza nos pedidos de descarga a um servidor no sentido de adaptar o intervalo à respectiva densidade. Esta dissertaçãao surge como uma alternativa aos processos tradicionais da descarga da Web, capaz de reduzir o tempo total de descarga de páginas e minimizar a sobrecarga de comunicação necessária à sincronizaçã˜o de uma colecção de agentes distribuídos. Subjacente está uma infra-estrutura de comunicações e uma arquitectura de descarga que comporta a existência de entidades dedicadas ao particionamento do espaço Web e a sua alocaç˜ao a um conjunto de robos distribuídos, organizados hierarquicamente através da definição de entidades lógicas. Durante o processo de descarga das páginas é recolhida informaç˜ao para gerar configuraç˜oes de divis˜ao da Web, através da aplicação de algoritmos de partição de grafos, baseados em modelos da Internet obtidos por aproximação calculada por caminhos mais curtos no grafo gerado.


Start Date: 2004-03-01

End Date: 2008-11-30




Post-Graduation Student / Researcher / Professor:
  • José Luis Padrão Exposto ( Departamento de Informática - Escola de Engenharia, Universidade do Minho )

Post-Graduation Supervisor(s):
  • António Pina ( Universidade do Minho )
  • Joaquim Henriques de Macedo ( Departamento de Informática - Escola de Engenharia, Universidade do Minho )

Post-Graduation Jury:
File Bottom