Back to Question Center
0

מומחית: Python and BeautifulSoup. לגרד אתרים בקלות

1 answers:

בעת ביצוע ניתוח נתונים או פרויקטים של לימוד מכונה, ייתכן שיהיה עליך לגרד אתרים כדי לקבל את הנתונים הדרושים להשלים את הפרוייקט. שפת התכנות Python יש אוסף רב עוצמה של כלים ומודולים שניתן להשתמש בהם למטרה זו. לדוגמה, ניתן להשתמש במודול BeautifulSoup עבור ניתוח HTML - gonfiabili per bambini usato.

כאן, נסתכל על BeautifulSoup ולברר מדוע זה עכשיו להיות בשימוש נרחב כל כך אינטרנט scraping .

תכונות יפות

- הוא מספק שיטות שונות עבור ניווט קל, חיפוש ושינוי של עצים לנתח ובכך מאפשר לך לנתח בקלות מסמך לחלץ את כל מה שאתה צריך בלי לכתוב יותר מדי קוד.

- הוא ממיר באופן אוטומטי מסמכים יוצאות למסמכי UTF-8 ומסמכים נכנסים ל- Unicode. זה אומר שאתה לא צריך לדאוג קידודים ובלבד המסמך ציין קידוד או מרק יפה יכול autodetect זה.

- BeautifulSoup נחשב עדיף על אחרים pthers Python פופולריים כגון html5lib ו lxml. זה מאפשר לנסות אסטרטגיות שונות ניתוח. חסרון אחד של מודול זה, עם זאת, הוא כי הוא מספק גמישות רבה יותר על חשבון מהירות.

מה אתה צריך לגרד אתר אינטרנט עם BeautifulSoup?

כדי להתחיל לעבוד עם BeautifulSoup, אתה צריך סביבת Python תכנות (או מקומי או מבוסס שרת) להגדיר על המחשב שלך. Python מותקן מראש ב- OS X, אך אם אתה משתמש ב- Windows, יהיה עליך להוריד ולהתקין את השפה מהאתר הרשמי.

אתה צריך את המודולים BeautifulSoup ו בקשות מותקן.

לבסוף, להיות מוכר ונוח לעבוד עם HTML תיוג המבנה הוא בהחלט שימושי שכן תוכל לעבוד עם נתונים מקור אינטרנט.

ייבוא ​​בקשות וספריות BeautifulSoup

עם סביבת תכנות Python להגדיר היטב, עכשיו אתה יכול ליצור קובץ חדש (באמצעות ננו, למשל) עם כל שם שאתה אוהב.

ספריית בקשות מאפשר לך להשתמש בטופס אנושי קריא HTTP בתוכניות פייתון שלך בעוד BeautifulSoup מקבל את גירוד נעשה במהירות מהירה יותר. ניתן להשתמש בהצהרת הייבוא ​​כדי לקבל שתי ספריות.

כיצד לאסוף ולנתח דף אינטרנט

השתמש בבקשות. לקבל

שיטה לאסוף את כתובת האתר של דף האינטרנט שממנו אתה רוצה לחלץ נתונים. לאחר מכן, ליצור אובייקט BeautifulSoup או לנתח עץ. אובייקט זה לוקח את המסמך מ'בקשות 'כארגומנטים שלו ולאחר מכן מנתח אותו. כאשר הדף נאסף, מנותח ומוגדר כאובייקט BeautifulSoup, תוכל להמשיך לאסוף את הנתונים הדרושים לך.

לחלץ את הטקסט הרצוי מדף אינטרנט מנותח

בכל פעם שאתה רוצה לאסוף נתונים באינטרנט, אתה צריך לדעת איך הנתונים מתוארים על ידי מודל אובייקט מסמך (DOM) של דף האינטרנט. בדפדפן האינטרנט שלך, לחץ באמצעות לחצן העכבר הימני (אם אתה משתמש ב- Windows) או CTRL + לחיצה (אם אתה משתמש ב- MacOS) על אחד הפריטים המהווים חלק מנתוני העניין. לדוגמה, אם אתה רוצה לשלוף נתונים על לאום של התלמידים, לחץ על אחד השמות של התלמיד. תפריט ההקשר צץ, ובתוכו תראה פריט תפריט הדומה לבדיקת אלמנט (עבור Firefox) או לבדיקה (עבור Chrome). לחץ על פריט התפריט פיקוח רלוונטי, וכלים למפתחים יופיעו בדפדפן שלך.

BeautifulSoup הוא פשוט אך רב עוצמה HTML ניתוח כלי זה מאפשר לך מידה רבה של גמישות כאשר שפשוף אתרי אינטרנט . בעת השימוש בו, אל תשכחו לשמור כללי כללי גירוד כגון בדיקת התנאים וההגבלות של האתר; לבקר מחדש באתר באופן קבוע ולעדכן את הקוד שלך בהתאם לשינויים שבוצעו באתר. לאחר הידע הזה על גרידה אתרים עם Python ו BeautifulSoup, עכשיו אתה יכול בקלות לקבל את נתוני האינטרנט שאתה צריך עבור הפרויקט שלך.

December 22, 2017