Anedotas e muito mais.: Motores de Busca

Realizei este trabalho e achei por bem partilhá-lo :)

Motores de Busca

Um motor de busca é um sistema projectado para encontrar informações armazenadas num sistema computacional a partir de palavras-chave indicadas pelo utilizador, reduzindo o tempo necessário para encontrar informações.
Os motores de busca surgiram logo após o aparecimento da Internet, com a intenção de prestar um serviço extremamente importante: a busca de qualquer informação na rede, apresentando os resultados de uma forma organizada, e também com a proposta de fazer isto de uma maneira rápida e eficiente, sendo o 1º, o Yahoo. A partir desta norma básica, diversas empresas se desenvolveram, chegando algumas a valer milhões de dólares. Entre as maiores empresas encontram-se o Google, o Yahoo e, mais recentemente, a Amazon.com com o seu mecanismo de busca A9. Os motores de busca mostraram-se imprescindíveis para o fluxo de acesso e a conquista de novos visitantes.
Conceito
Um motor de busca é um programa feito para auxiliar a procura de informações armazenadas na rede mundial (World Wide Web), dentro de uma rede corporativa ou de um computador pessoal. Ele permite que uma pessoa solicite conteúdo de acordo com um critério específico (tipicamente contendo uma dada palavra ou frase) e responde com uma lista de referências que combinam com tal critério, ou seja, é uma espécie de catálogo mágico. Mas, diferentemente dos livros de referências comuns, nos quais está acessível a informação que alguém organizou e registou, o catálogo do motor de busca está em branco, como um livro vazio. Ao realizar-se uma consulta, a lista de ocorrências de assuntos é criada em poucos segundos por meio de um conjunto de softwares de computadores, conhecidos como spiders, que vasculham toda a Web em busca de ocorrências de um determinado assunto em uma página. Ao encontrar uma página com muitos links, os spiders embrenham-se por eles, conseguindo, inclusive, vasculhar os directórios internos - aqueles que tenham permissão de leitura para usuários - dos sites nos quais estão trabalhando.
Os motores de busca usam regularmente índices actualizados para funcionar de forma rápida e eficiente. Sem maior especificação, ele normalmente refere-se ao serviço de busca Web, que procura informações na rede pública da Internet. Outros tipos incluem motores de busca para empresas (Intranets), motores de busca pessoais e motores de busca móveis. De qualquer forma, enquanto diferente selecção e relevância podem aplicar-se em diferentes ambientes, o utilizador provavelmente perceberá uma pequena diferença entre as operações neles. Alguns motores também extraem dados disponíveis em grupos de notícias, grandes bancos de dados ou diretórios abertos como a DMOZ.org. Ao contrário dos diretórios Web, que são mantidos por editores humanos, os serviços de busca funcionam algoritmicamente. A maioria dos sites que chamam os motores de busca são, na verdade, uma "interface" (front end) para os sistemas de busca de outras empresas.

História

Os primeiros motores de busca (como o Yahoo) baseavam-se na indexação de páginas através da sua categorização. Posteriormente surgiram as meta-buscas(baseando-se em meta-tags que os webmasters colocam no código do website). A mais recente geração de motores de busca (como a do Google) utiliza tecnologias diversas, como a procura por palavras-chave directamente nas páginas e o uso de referências externas espalhadas pela web, permitindo até a tradução directa de páginas para a língua do utilizador. O Google, além de fazer a busca pela Internet, oferece também o recurso de se efetuar a busca somente dentro de um site específico. É essa a ferramenta usada na comunidade Wiki.
Os motores de busca são buscadores que baseiam sua colecta de páginas num robô que varre a Internet à procura de páginas novas para introduzir em sua base de dados automaticamente. Motores de busca típicos são Google, Yahoo e Altavista.
A primeira ferramenta utilizada para busca na Internet foi o Archie (da palavra em Inglês, "archive" sem a letra "v"). Foi criado em 1990 por Alan Emtage, um estudante da McGill University em Montreal. O programa baixava as listas de diretório de todos arquivos localizados em sites públicos de FTP (File Transfer Protocol) anônimos, criando uma base de dados que permitia busca por nome de arquivos.
Enquanto o Archie indexava arquivos de computador, o Gopher indexava documentos de texto. Ele foi criado em 1991, por Mark McCahill da University of Minnesota, cujo nome veio do mascote da escola. Devido ao fato de serem arquivos de texto, a maior parte dos sites Gopher tornaram-se websites após a criação da World Wide Web.
Dois outros programas, Veronica e Jughead, buscavam os arquivos armazenados nos sistemas de índice do Gopher. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) provia uma busca por palavras para a maioria dos títulos de menu em todas listas do Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) era uma ferramenta para obter informações de menu de vários servidores Gopher.
O primeiro search engine Web foi o Wandex, um índice actualmente extinto feito pela World Wide Web Wanderer, um web crawler (programa automatizado que acessa e percorre os sites seguindo os links presentes nas páginas.) desenvolvido por Matthew Gray no MIT, em 1993. Outro sistema antigo, Aliweb, também apareceu no mesmo ano e existe até hoje. O primeiro sistema "full text" baseado em crawler foi o WebCrawler, que saiu em 1994. Ao contrário de seus predecessores, ele permite aos usuários buscar por qualquer palavra em qualquer página, o que tornou-se padrão para todos serviços de busca desde então. Também foi o primeiro a ser conhecido pelo grande público. Ainda em 1994, o Lycos (que começou na Carnegie Mellon University) foi lançado e tornou-se um grande sucesso comercial.
Logo depois, muitos sistemas apareceram, incluindo Excite, Infoseek, Inktomi, Northern Light, e AltaVista. De certa forma, estes competiram com directórios populares como o Yahoo!. Posteriormente, os directórios integraram ou adicionaram a tecnologia de search engine para maior funcionalidade.
Os sistemas de busca também eram conhecidos como a "mina de ouro" de investimento na Internet que ocorreu no fim dos anos 1990s. Várias empresas entraram no mercado de forma espectacular, com recorde em ganhos durante seus primeiros anos de existência. Algumas fecharam o seu sistema público, e estão oferecendo versões corporativas somente, como a Northern Light.
Mais recentemente, os sistemas de busca também estão utilizando XML ou RSS feed, permitindo indexar dados de sites com eficácia, sem a necessidade de um crawler complexo. Os sites simplesmente provêm um xml feed o qual é indexado pelo sistema de busca. Os XML feeds estão a ser cada vez mais fornecidos de forma automática por weblogs. Exemplos são o feedster, que inclui o LjFind Search que provê serviços para os blogs do site LiveJournal.

Tipos de Motores de Busca

Existem vários tipos de Motores de Busca:

Motores de busca globais são motores de busca que pesquisam todos os documentos na rede, e a apresentação do resultado é aleatória, dependendo do ranking de acessos aos sites (pagerank). As informações podem referir-se a qualquer tema. Google, Yahoo, MSN são os motores de busca globais mais visitados, sendo que o Yahoo se encontra em 1º.

Motores de busca verticais são motores de busca que realizam pesquisas "especializadas" em bases de dados próprias de acordo com os seus propósitos. Geralmente, a inclusão num buscador vertical está relacionada ao pagamento de uma mensalidade ou de um valor por clique. BizRate, AchaNoticias, Oodle, Catho, SAPO, BuscaPé e Become.com são alguns exemplos de motores de busca verticais.

Guias locais são Motores de busca exclusivamente locais ou regionais. As informações referem-se a endereços de empresas ou prestadores de serviços. O resultado é priorizado pelo destaque de quem contrata o serviço. Listão, GuiaMais, AcheCerto, EuAcheiFácil entre outras. Geralmente são cadastros e publicações pagas. É indicado para profissionais e empresas que desejam oferecer seus produtos ou serviços em uma região, Estado ou Cidade.

Guias de busca local ou buscador local são buscadores de abrangência nacional que lista as empresas e prestadores de serviços próximas ao endereço do internauta a partir de um texto digitado. A proximidade é avaliada normalmente pelo cep, Donavera.com, ou por coordenadas de GPs. Os cadastros Básicos são gratuitos para que as micros empresas ou profissionais liberais possam estar presente na WEB sem que invistam em um site próprio. É indicado para profissionais e empresas que desejam oferecer seus produtos ou serviços muma Localidade, rua, bairro, cidade ou Estado e possibilitando ainda a forma mais rápida de actualização dos registos de contactos dos seus clientes ou fornecedores.
Directórios de websites são índices de sites, usualmente organizados por categorias ou sub-categorias. Tem como finalidade principal permitir ao usuário encontrar rapidamente sites que desejar, buscando por categorias, e não por palavras-chave. Os directórios de sites geralmente possuem uma busca interna, para que usuários possam encontrar sites dentro de seu próprio índice. Directórios podem ser a nível regional, nacional ou global, e até mesmo especializados em determinado assunto. Mundo Pt é exemplo de directórios de sites.
A divulgação de sites de empresas com negócios regionais é visitada na sua grande maioria quando os profissionais da WEB registam os seus sites nos Buscadores Locais para aumentarem as visitas de internautas, pois não há um sistema de actualização automática dos dados que abranja todos os tipos de categorias e em rapidez necessária. Por esta razão, somente cerca de 20% a 25% de tudo que existe na WEB é publicada nos buscadores.

Funcionamento

Um search engine opera na seguinte ordem:
Web crawling (percorrer por links)
Indexação
Busca

Os sistemas de busca trabalham armazenando informações sobre um grande número de páginas, as quais eles obtém da própria WWW. Estas páginas são recuperadas por um Web crawler (também conhecido como spider) — um Web browser automatizado que segue cada link que vê. As exclusões podem ser feitas pelo uso do robots.txt. O conteúdo de cada página então é analisado para determinar como deverá ser indexado (por exemplo, as palavras são extraídas de títulos, cabeçalhos ou campos especiais chamados meta tags). Os dados sobre as páginas são armazenados numa base de dados indexada para uso nas pesquisas futuras. Alguns sistemas, como o do Google, armazenam todo ou parte da página de origem (referido como um cache) assim como informações sobre as páginas, no qual alguns armazenam cada palavra de cada página encontrada, como o AltaVista. Esta página em cache guarda sempre o próprio texto de busca pois, como ele mesmo foi indexado, pode ser útil quando o conteúdo da página actual foi actualizado e os termos de pesquisa não mais estão contidos nela. Este problema pode ser considerado uma forma moderada de linkrot (perda de links em documentos da Internet, ou seja, quando os sites deixaram de existir ou mudaram de endereço), e a maneira como o Google lida com isso aumenta a usabilidade ao satisfazer as expectativas dos usuários pelo fato de o termo de busca estarão na página retornada. Isto satisfaz o princípio de “menos surpresa”, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. A relevância crescente das buscas torna muito útil estas páginas em cache, mesmo com o fato de que podem manter dados que não mais estão disponíveis em outro lugar.
Quando um usuário faz uma busca, tipicamente digitando palavras-chave, o sistema procura o índice e fornece uma lista das páginas que melhor combinam ao critério, normalmente com um breve resumo contendo o título do documento e, às vezes, partes do seu texto. A maior parte dos sistemas suportam o uso de termos booleanos AND, OR e NOT para melhor especificar a busca. E uma funcionalidade avançada é a busca aproximada, que permite definir a distância entre as palavras-chave.
A utilidade de um sistema de busca depende da relevância do resultado que retorna. Enquanto pode haver milhões de páginas que incluam uma palavra ou frase em particular, alguns sites podem ser mais relevantes ou populares do que outros. A maioria dos sistemas de busca usam métodos para criar um ranking dos resultados para prover o "melhor" resultado primeiro. Como um sistema decide quais páginas são melhores combinações, e qual ordem os resultados aparecerão, varia muito de um sistema para outro. Os métodos também modificam-se ao longo do tempo, enquanto o uso da Internet muda e novas técnicas evoluem. A maior parte dos sistemas de busca são iniciativas comerciais suportadas por rendimentos de propaganda e, como resultado, alguns usam a prática controversa de permitir aos anunciantes pagar para ter sua listagem mais alta no ranking nos resultados da busca.
A vasta maioria dos serviços de pesquisa são rodados por empresas privadas usando algoritmos proprietários e bancos de dados fechados, sendo os mais populares o Google, MSN Search e Yahoo! Search. De qualquer forma, a tecnologia de código-aberto para sistemas de busca existe, tal como ht://Dig, Nutch, Senas, Egothor, OpenFTS, DataparkSearch e muitos outros.

Custos de armazenamento e tempo de crawling

Os custos de armazenamento não são o recurso limitador na implementação de um sistema de busca. Armazenar simplesmente 10 biliões de páginas de 10 kbytes cada (comprimidas) requer 100TB e outros aproximados 100TB para índices, dando um custo de hardware total em menos de $200k: 400 drives de disco de 500GB em 100 PCs baratos.
De qualquer forma, um sistema público de busca consideravelmente requer mais recursos para calcular os resultados e prover alta disponibilidade. E os custos de operar uma grande server farm não são triviais.
Passar por 10B páginas com 100 máquinas percorrendo links a 100 páginas/segundo levaria 1M segundos, ou 11.6 dias em uma conexão de Internet de alta capacidade. A maior parte dos sistemas percorre uma pequena fatia da Web (10-20% das páginas) perto desta frequência ou melhor, mas também percorre sites dinâmicos (por exemplo, sites de notícias e blogs) numa frequência muito mais alta.

Motores de busca geoespaciais

Uma recente melhoria na tecnologia de busca é a adição de geocodificação e geoparsing para o processamento dos documentos ingeridos. O geoparsing tenta combinar qualquer referência encontrada a lugares para um quadro geoespacial de referência, como um endereço de rua, localizações de dicionário de termos geográficos, ou a uma área (como um limite poligonal para uma municipalidade). Através deste processo de geoparsing, as latitudes e longitudes são atribuídas aos lugares encontrados e são indexadas para uma busca espacial posterior. Isto pode melhorar muito o processo de busca pois permite ao usuário procurar documentos para uma dada extensão do mapa, ou ao contrário, indicar a localização de documentos combinando com uma dada palavra-chave para analizaar incidência e agrupamento, ou qualquer combinação dos dois. Uma empresa que desenvolveu este tipo de tecnologia é a MetaCarta, que disponibiliza seu produto como um XML Web Service para permitir maior integração às aplicações existentes.
A MetaCarta também provê uma extensão para o programa GIS como a ArcGIS (ESRI) para permitir aos analistas fazerem buscas interactivamente e obter documentos num contexto avançado geoespacial e analítico.

Pagerank

PageRank™ é uma família de algoritmos de análise de rede o qual dá pesos numéricos a cada elemento de uma coleção de documentos hiperligados, como as páginas da Internet, com o propósito de medir a sua importância dos elementos desse grupo por meio de um motor de busca. O algoritmo pode ser aplicado a qualquer coleção de objetos com ligações recíprocas e referências. O peso numérico dado a cada elemento E é chamado PageRank de E e notado como PR(E).

Google e o PageRank

O sistema PageRank é usado pelo motor de busca Google para ajudar a determinar a relevância ou importância de uma página. Foi desenvolvida pelos fundadores do Google, Larry Page e Sergey Brin enquanto cursavam a Universidade de Stanford em 1998.

O Google mantém uma lista de bilhões de páginas em ordem de importância, isto é, cada página tem sua importância na Internet como um todo; esse Banco de Páginas mantém desde a página mais importante do mundo até a menos importante. Essa importância se dá pelo número de votos que uma página recebe. Um voto é um link em qualquer lugar da Internet para aquela página. Votos de páginas mais importantes valem mais do que votos de páginas menos importantes.

Esse critério de ordenação das páginas, de acordo com várias pessoas, é bastante democrático, reflectindo o que a "Internet pensa" sobre determinado termo. Lembre-se que cerca de dez bilhões de páginas são levadas em conta. A qualidade das páginas mais importantes são naturalmente garantidas, classificadas e eleitas pela própria Internet. Além de todas as páginas terem a mesma condição de subir nessa lista, conquistando votos pela Internet afora.

Uma boa unidade de medida para definir o PageRank™ de uma página pode ser a percentagem (%) de páginas que ela é mais importante. Por exemplo, se uma página tem PageRank™ de 33% significa que ela é mais importante que um terço de toda a Internet. Se o seu PageRank™ é 99% significa que ela é superior a quase todas as páginas da Internet.

Uma forma de calcular o se pagerank é através de ferramentas online.

Anedotas e muito mais.

Motores de Busca

0 Comentários:

Informação

Parcerias do Anedotas e muito mais

Seguidores do Anedotas e muito mais