Талисман
ФОРУМ КАМИНИ • Виж темата - Как работят Google и Yahoo ?


ФОРУМ КАМИНИ

форум за камини и нещата наоколо
Дата и час: Ноември 19th, 2018, 4:48 am

Часовете са според зоната UTC + 2 часа



stan

ars


Напиши нова тема Отговори на тема  [ 1 мнение ] 
Автор Съобщение
МнениеПубликувано на: Февруари 24th, 2012, 9:08 pm 
Site Admin

Регистриран на: Ноември 4th, 2011, 8:45 pm
Мнения: 679
Как търсачки като Google и Yahoo събират информация?
Иво Русев | 01.02.2009

Изображение

Търсачките разполагат със бази данни. За да попадне в тези бази данни вашият сайт той по някакъв начин трябва да бъде прочетен от някой, нали така? Тази работа естествено е непосилна за компаниите поддържащи тези търсачки да извъшат на ръка с оглед милиардите сайтове в интернет, дори да разполагаха със целокупния китайски народ като персонал. Ето защо са създадени от тях така наречените „паяци“ спайдъри, кроулъри (от crawl – пълзя), ботове, абе както искате ги наричайте това са просто автоматизирани компютри които обикалят интернет уеб пространството и събират информация за сайтовете и тяхното съдържание.

Как се „движат“ тези автоматизирани спайдъри на търсачките. Поведението им следва предварително зададен алгоритъм, като той при различните търсачки е различен и е в основата и голяма част от тайните на всяка една търсачка за това как точно оценява сайтовете и съответно ги класира(процес който не се извършва от паяците, но те доставят информацията за него). Поведението на тези автоматизирани „машинки“ не е чак толкова сложно, те един вид се движат из уеб страниците като следват маршрут определен от линкове. След като достигнат страница свързана с линк от предходна те събират съдържанието и точно като браузър (пр. Internet Explorer, Opera, Mozilla FireFox). Те интерпретират кода на страницата и го поемат във вид почти такъв какъвто и вие го виждате на вашия компютър.

Забележка: Някой от спайдърите (повечето) не са способни да интерпретират флаш съдържание, голяма част java i Аjax скриптове, но няма да се отплесвам за това какво не поемат. Бъдете сигурни че чист html, php и asp със визуални ефекти постигнати максимум със css , jpg, png и gif формати биват попити без проблем. А и има трикове все пак ако държите да имате флаш за юзърите да поднесете нещо „по-чистичко“ на ботовете. Друг път ще си приказваме за тия неща макар че програмиране въобще не ме вълнува.

Как спайдъра (пр. на Google или MSN или Yahoo) прочита вашия сайт. До тук предполагам се ориентирахте горе-долу как започва процеса на събиране на информация от търсачките и техните паяци. Трябва вече да ви свети една крушка над главата в знак на осъзнаване или напомняне че за да стигне до сайта ви която и да е гадина трябва да имате външен линк до някъде по сайта ви нали така? Та веднъж озовал се някъде по вашия уебсайт, робота на google сканира съдържанието на сайта – такова каквото е в изходен html от горе надолу. Ако пък за първи път се озовава на домейна ви, или предприема цялостно сканиране в последствие той първо проверява за файла robots.txt в който можете да му окажете какво да не събира и къде няма право да ходи. Този файл бива прочитан както при цялостни събирания така и произволно при проверка за промяна на индекса на сайта ви. Редом със съдържанието се прочитат и линковете към вътрешни и външни страници и в последствие те биват последвани но не веднага и не ако съдържат като параметър „nofollow“ за който също ще си приказваме друг път. Но стандартните ви линкове, да кажем вътрешни освен ако изрично не искате да бъде индексирана дадена част от сайта едва ли съдържат този параметър.

Сега относно това как третира съдържанието което прочита още преди да бъде предадено за класиране и индексирано. Първата му работа е да види за мета тагове ( description и keywords ) и заглавие на страницата които ще бъдат взети предвид при окончателно класиране на сайта. Ако такива не съществуват бива генериран статичен description който представлява извадка от първия текст който срещне на страницата + евентуално alt/title параметри на първите снимки. Не се плашете защото и в двата случая това не е фатално тъй като при окончателно индексиране и класиране той генерира и динамичен description който представлява извадка от съдържанието отговаряща на търсената дума или фраза. Примерно ако във трети абзац говорите за „плюшени мечки“, и се класирате добре за тях, на хората търсещи това има вероятност да бъде показан пасаж от този абзац съдържащ фразата, естествено ако според алгоритъма сте оптимизирали за фразата и въобще ви се покаже страницата във резултатите на Google.

Следва основен анализ на съдържанието (главно текстово) след което действат най-основните алгоритми за не-предаване на информацията за класиране – скрити линкове, тотално пренасищане с ключови думи, sandbox ефект, твърде много външни или вътрешни линкове, и т.н. Да кажем че не сте прекалили и информацията бива запазена в опашка за втори алгоритъм (вече локално в сървърите на търсачките), където бива оценено съдържанието и класирано според оценката на значимостта и релевантността към различни думи и фрази.

И тъй като съм почнал да говоря за спайдъри, ще продължа за тази част от процеса. Много е важно следенето и анализа на поведение на събиращите паяци-роботи. Те могат и трябва да се следят защото фактора „crawl rate“ или на български коефициент на събиране на инфорамацията е много важен елемент от оптимизацията (SEO) на всеки един сайт. За тази материя голяма маса от „професионалните тъпанари занимаващи се със онлайн маркетинг или оптимизация“ в България могат много малко да ви кажат защото повечето от тях нямат бегла представа от това как работи един сайт, как работи уеб сървъра на който е този сайт и въобще как работи компютъра използван за такъв сървър. Инструменти като google analytics, webalizer или awstats са единствения им начин въобще да добият някаква представа за това. Да подчертая, тези инструменти са добри, но ако си говорим за следене поведението на това как бива обхождан сайта ви, единствено лаици биха се информирали само от тях. Естествено не искам да обиждам хора които си разбират от работата и тези неща са им до болка познати а и те са достатъчно с акъла си да знаят че не целя тях.

Как да следим спайдърите обхождащи нашият сайт и да разберем какво правят?
Така, чудя се дали да почна от далече, но тъй като поста вече е достатъчно дълъг ще почна от близко. Във уеб сървър(пр. Аpache, IIS, Tomcat) лог-а който (трябва да) имате за всеки конкретен домейн по който работите (говоря за access log както и за error log) се записва абсолютно всяка активност свързана със сайта който се намира на този домейн и всички негови подстраници. Записват се всички заявки, както успешни, така и неуспешни, пренасочвания, референции ако предходния сайт има такива, IP адреси на посетители, клиентска част на потребители(браузъри или идентификация за ботове) час и дата на заявки, отговор на сървъра ви след заявките и поискана и дадена информация. Както се досещате там се намират и всички заявки на спайдърите обхождащи сайта ви, заедно със всички техни детайли както при обикновените потребители. Това почване си беше от далече. Та там са техните заявки. И те не се крият, всеки спайдър си има идентификация освен третокласните роботи на четвъртокласните търсачки от трета глуха, но и тях можете да прихванете. Ето ще ви дам един пример как да намерите какво е правил MSN спайдъра на вашият сайт днес:

65.55.210.248 – - [01/Feb/2009:01:46:25 +0100] „GET /robots.txt HTTP/1.1″ 200 1 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.248 – - [01/Feb/2009:01:46:26 +0100] „GET /index.php?/archives/2008/12/C3.html HTTP/1.1″ 200 12422 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.246 – - [01/Feb/2009:18:25:33 +0100] „GET /robots.txt HTTP/1.1″ 200 1 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.246 – - [01/Feb/2009:18:25:35 +0100] „GET /index.php?/archives/2008/11/C3.html HTTP/1.1″ 200 12382 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.251 – - [01/Feb/2009:22:48:19 +0100] „GET /robots.txt HTTP/1.1″ 200 1 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“
65.55.210.251 – - [01/Feb/2009:22:48:22 +0100] „GET /index.php?/archives/9-Zavladejte-pazara-s-blog-ot-Blogspot-!.html HTTP/1.1″ 200 24681 „-“ „msnbot/1.1 (+http://search.msn.com/msnbot.htm)“

Това е заявка под линукс bash# с команда grep „01/Feb/2009″ access_log | grep „msnbot“ която можете да замените с друга дата или просто месец или каквото ви скимне както и със идентификатор за друг бот на друга търсачка. Но пък ако разполагате със лог файла можете да направите това със простичкия Ctrl+F във всеки едитор с който желаете да го разглеждате дори по Windows.

Нека анализираме какво се е случило: първото което трябва да забележите е че бота в случая на Microsoft е използвал 3 различни IP-та, което не трябва да ви притеснява тъй като с цел разпределение на натоварването биват използвани много на брой машини постоянно за обхождане на уеб пространството. Какво е направил спайдъра – във 01:46 както по-нагоре ви обясних е прегледал robots.txt . След като се е убедил че му е позволено да обхожда се е засилил там където е решил да събира информация – в случая 2 пъти е сканирал една и съща страница – което е много добър фактор за нея, а и това че не го прави като част от цялостно сканиране говори че тя е добре индексирана и има висок коефициент на сканиране, с две думи ако го повтори и потрети в други дни значи наистина тази страница представлява голям интерес за MSN/Live чиито представител е бота. Както виждате робота се е върнал по късно и е сканирал и още една страница която в случая е линк-ната от първата, и така нагледно виждате неговото поведение. Така можете примерно да прецените ако страница не бива обходена а е добре линкната от друга която бива сканирана да намерите проблема или негативния фактор заради който бота не обхожда всичко което вие искате. Знаете ли, ще оставя подробностите около това как още можете да използвате тази информация защото просто стана нечовешки дълга статия. Единственото още което държа да ви дам като информация е user-agent идентификаторите на другите търсачки (за MSN както видяхте е msnbot):
Ще ви дам само основните три, другите можете да намерите без проблем в интернет:

Google – Googlebot (може да бъде с версия както и без) пр (Googlebot/2.1)
MSN / Live – msnbot
Yahoo – Yahoo! Slurp (може да бъде различни вариации на думата „slurp“)

Извор: marketing.atsense.com

_________________
Изображение
камини - http://www.zidkam.com


Върнете се в началото
 Профил  
 
Покажи мненията от миналия:  Сортирай по  
Напиши нова тема Отговори на тема  [ 1 мнение ] 

Часовете са според зоната UTC + 2 часа


Вие не можете да пускате нови теми
Вие не можете да отговаряте на теми
Вие не можете да променяте собственото си мнение
Вие не можете да изтривате собствените си мнения
Вие не можете да прикачвате файл

cron
Powered by phpBB® Forum Software © phpBB Group

Zidkam


Камини,Барбекю,Пещи
http://zidkam.com/


stan