Moebyus (con y) es un proyecto de parte mía, de Diseño, Desarrollo e Implementación de un Sistema de Rastreo Web (Web Crawler). Este sistema parte de la idea que tuve hace un tiempo, de realizar; a modo de gran desafío; un sistema de indexación y recuperación de datos contenidos en los sitios Web de Internet, ya que esta rama de la ciencia informática es un alucinante mundo en el cual la mente debe establecerse en un estado lo mas analítico posible, con la misión de ofrecer los mejores resultados esperados por el usuario, luego del procesamiento eficiente de su consulta por el programa de consulta; como así también poder indexar con eficiencia los datos obtenidos luego del rastreo de la Web llevado a cavo por parte del programa "araña" o "SpiderBot". Moebyus Search Engine todavía no está On line, pero si, están las demostraciones tanto en imágenes como en video (siguiente) de mi buscador, funcionando en búsquedas como lo haría un usuario al colocar su palabra/frase. Vea el video de la última versión de mi buscador web: https://www.youtube.com/watch?v=KbsHePfA5f0
Este World Engine, Web Crawler, Spider Bot, Buscador Web, Web Retriebal Engine, etc., es mi último desarrollo de software, el cual está en versión Beta, ya que para el proceso del análisis de cada Web, es necesario tomar en cuenta un sinfín de particularidades, con el objeto de que el rastreo, por medio del SpiderBot, sea lo mas eficiente y "limpio" posible (me refiero a la limpieza y parseo de cada Web analizada, dejando solamente las palabras correspondientes a lo publicado en cada web analizada); y que la búsqueda por parte de un usuario retorne la mejor opción de acuerdo a su string de búsqueda. Los resultados de la búsqueda muestran el "título link" de la Web o publicación, el ranking, el idioma, las palabras coincidentes a 100% en rojo y a coincidencia parcial en negrita, colocando a izquierda y derecha (de cada palabra hallada) las 10 palabras anteriores y posteriores a la/las palabra/s encontrada/s, para situar a estas últimas en un contexto mas amplio que solo mostrar las palabras solas.
Haga clic en la imagen para ver video demo.
Cálculo de mi propio Page Rank: Le he implementado mi propio Page Rank para darle a cada página Web un valor de importancia dentro del universo de webs rastreadas. Este Page Rank propio, se basa principalmente en los siguientes aspectos: En la probabilidad (mas un nivel de confianza) que tiene una cierta Web de encontrar 1, 2, 3, ..., n palabras; en la probabilidad de que posee cierta Web respecto de los links "hijos" que tenga; en la cantidad de veces (probabilidad) que una Web hija es apuntada por "una o muchas" Webs padres, donde esta Web hija aumentará en su jerarquía, en los resultados de búsqueda, si es que tiene alto grado de Webs padres que la apuntan. Y también suman al page rank de una Web, el porcentaje de acierto que se genera durante una búsqueda por un usuario, donde va "aprendiendo de los usuarios" para incidir también, en el nivel de “ranqueo” de una Web cualquiera. Otro cálculo que se suma a los anteriores es también del lado del usuario, específicamente en los resultados, donde el cálculo se genera por medio de un valor aplicado a cada web analizada, el cual representa la distancia entre las palabras halladas en cada resultado, dependiendo lo anterior, de las palabras ingresadas por el usuario en el cuadro de búsqueda. Me restan algunas características mas para mejorar el ranking, y es que también se "premie" con un valor mas en su Rank, a la web que el usuario le realizó clic dentro del despliegue de resultados.
Haga clic en la imagen para ver video demo.
.........
.........
.......
...
Haga clic en la imagen para ver video demo.
.........
.........
.......
...
Haga clic en la imagen para ver video demo.
Además la búsqueda se da por palabras que coincidan al 100%, como así también por palabras que coincidan a izquierda y/o a derecha; pudiendo buscar (por ahora) en idioma Español e Inglés; aunque esto no quita que se encuentren otras webs de otros idiomas si se selecciona "Otros idiomas" antes de la búsqueda. He desarrollado un Sistema de Blog, para mantener información relevante en cuanto a sucesos, procedimientos, ayuda, historial de mejoras y para cualquier información que crea pertinente publicar. El sistema de Foro todavía no lo tengo totalmente desarrollado, por lo que no está publicado en mi intranet todavía. Y también, el próximo paso es la implementación de búsquedas de videos, imágenes, archivos PDF, etc. Espero poder mejorar cada vez mas este sistema, aunque como muchos saben, es imposible tener indexada toda la web en un solo servidor (incluso aunque tuviera 10000 servidores). Y como lo dijo Eric Schmidt (Ex CEO de Google) Google tardará 300 años para tener indexado el universo actual de webs y de ese modo poder ofrecer la información, de una manera organizada al mundo.
Haga clic en la imagen para ver video demo.
Por este motivo algunos buscadores son especialistas en un solo tema o categoría y no en toda la web. De todos modos mi idea es seguir desarrollándolo de un modo generalista y que abarque todos los aspectos de los contenidos webs, por motivos de desafío personal, por ahora. Espero poder ponerlo "on line" algún día. En los siguientes links encontrarán información sobre mis desarrollos y un video sobre mi buscador, funcionando este, con devoluciones de resultados según los strings varios colocados para la búsqueda web, en mi red hogareña. También les adjunto aquí unas imágenes sobre los resultados sobre la búsqueda de imágenes en mi buscador Moebyus:
Haga clic en la imagen para ver video demo.
Haga clic en la imagen para ver video demo.
Nelson Ressio - Programador de Sistemas por mas de 35 años. Productor de música electrónica (13 años). Escritor, Novelista (14 años):
Vea más sobre mi, en los siguientes links:
Mi Sistema de Gestión Empresarial: https://www.erminauta.com/p/sigue-mis-pensamientos-por-email.html
Video mi Sistema de rastreo web de tres etapas, "Moebyus Search Engine": https://youtu.be/KbsHePfA5f0
0 comentarios:
Publicar un comentario
Muchas gracias por comentar.