هل فكرت يوماً ما أنه يمكنك جني المال من معرفتك عدد المطاعم الموجودة في المحيط الخاص بك؟ فقط عن طريق خرائط جوجل يمكنك استخراج وجمع المعلومات التي تساعدك لعمل قاعدة بيانات خاصة بك، وعن طريق عدة عمليات بسيطة ستكون قادر على إنشاء خدمة بيانات كبيرة عبر الإنترنت يستفيد منها الأشخاص وتكسب منها الأموال.
خلال السطور القادمة سنستعرض معكم أفضل طريقة لإستخراج البيانات من خرائط جوجل بطريقة بسيطة وفعالة لاتحتاج إلى خبرة كبيرة في هذا المجال.
من الصعب ملاحظة أن الإحداثيات مخفية بالفعل داخل عناوين URL، في هذه الحالة نحتاج إلى استخراج عنوان URL ، واستخدام تعبير عادي للعثور على سلسلة النص المطابقة التي نبحث عنها، في هذا الشرح سنأخذ مطعم " Space Needle " في مدينة سياتل كمثال.
أولاً، افتح خرائط جوجل في متصفحك واكتب " Space Needle" في شريط البحث.
بعد انتهاء تحميل الصفحة ، ابحث عن الإحداثيات في عنوان URL تقع الإحداثيات خلف علامة "@".
بعد ذلك، يمكننا البدء في استخراج البيانات من عنوان URL ، في الخطوات القادمة سنستخدم برنامج Octoparse لكشط صفحات الويب، يمكنكم استخدام أي برنامج تفضلون لكن Octoparse هو أفضل أداة لكشط الويب مناسب للمحترفين والمبتدئين، ويمكنكم الحصول عليه من هنا.
أنشئ مهمة جديدة باستخدام الوضع المتقدم بالنقر فوق علامة "+" .
أدخل عنوان URL الذي نستخدمه هنا في المربع: "https://www.google.com/maps/place/Space+Needle/@47.6205099,-122.3514661,17z/data=!4m5!3m4!1s0x5490151f4ed5b7f9:0xdb2ba8689ed0920d!8m2!3d47.6205063!4d-122.3492774 "
اضغط على حفظ " Save URL " للمتابعة.
الآن تم إنشاء مهمة جديدة بنجاح، ولم يتبق سوى خطوات بسيطة، لكننا سنواجه مشكلة أن خرائط جوجل لا يمكن تحميلها مباشرة داخل المتصفح المدمج الحالي، ولحل هذه المشكلة انقر فوق ايقونة User-agent Switcher ، ثم اختر Firefox 45.0 ثم انقر حفظ، وسيقوم برنامج Octoparse بإعادة تحميل صفحة الويب نفسها على متصفح فايرفوكس.
بعد إنتهاء تحميل صفحة الويب، يمكننا بدء إستخراج البيانات من خيار " point-and-click" في المتصفح المدمج، وسوف يظهر مجموعة من الخيارات اختر منها " Extract text of selected element" "استخراج نص العنصر المحدد".
الآن ستلاحظ أنه قد تم إنشاء الاستخراج بنجاح وإضافته إلى سير العمل أدناه، ويمكنك تحرير اسم الحقل في منطقة الإعداد في الجزء العلوي الأيمن.
انتقل إلى حقل الاستخراج وابحث عن "إضافة حقل محدد مسبقًا" " Add predefined field" في الأسفل، انقر لإظهار القائمة المنبثقة ثم حدد "إضافة معلومات الصفحة الحالية" " Add current page information" ثم حدد "عنوان URL لصفحة الويب" .
الآن تمت إضافة عنوان URL لصفحة الويب إلى حقل البيانات بنجاح، والآن نحن بحاجة إلى تعديل نموذج URL لحذف الزيادات وسحب الإحداثيات الدقيقة.
انقر على أيقونة "تخصيص" " Customize" (قلم صغير) في الأسفل، ثم حدد "تحسين استخراج البيانات" " Refine extract data" ثم انقر فوق الزر Add step .
هذا سينقلك إلى قائمة الوظائف حيث يمكنك اختيار تنظيف البيانات، وفي هذه الحالة نختار مطابقة مع التعبير النمطي، بعدها ستكون وصلت إلى هذه الخطوة.
يتيح لك ذلك تحرير البيانات بالطريقة التي تريدها عن طريق كتابة التعبير النمطي " Regular Expression"، التعبير النمطي عبارة عن سلسلة نصية خاصة لوصف نمط البحث.
بالنظر إلى أن معظم الأشخاص يواجهون صعوبات في كتابة التعبير النمطي، يمكننا استخدام أداة RegEx المدمجة لمساعدتنا. انقر فوق زر " Try RegEx Tool" .
لاحظ أننا نريد سحب الجزء بعد علامة "@" ولكن قبل الفاصلة الثانية. حدد مربع "البدء بـ" " Start With ، وأدخل "@"، هذا يخبر RegEx أنك تريد الجزء بعد العلامة.
بشكل مماثل ، حدد مربع "إنهاء بـ" " End With "، وأدخل "1" نظرًا لوجود فاصلة وراء العلامة "@" ، فسنحدد بشكل أفضل الفاصلة التي نريدها. ما عليك سوى إضافة الرقم الموجود خلف الفاصلة ، في هذه الحالة ، قم بإضافة الرقم "1" هذا يخبر RegEx أنك تريد الجزء قبل الفاصلة والرقم 1.
انقر فوق الزر "إنشاء" " Generate "، وسيظهر التعبير النمطي في المكان المخصص له.
تأكد الآن من صحة الإدخال من خلال النقر على زر "مطابقة" " Match"، سيقوم هذا بتوليد تعبير مقابل على اليمين، هذا هو بالضبط ما نريد. الآن المضي قدما وانقر على "تطبيق" " Apply" ثم انقر فوق "موافق" " Ok" للتأكيد.
وبهذا تكون تكون قد انهيت، قم بتشغيل برنامج الكشط بالنقر على "بدء الإستخراج" " Start Extraction" ثم اختر "استخراج محلي" " Local Extraction" .
يمكنك تطبيق الخطوات السابقة على عدد كبير من عناوين URL في المرة الواحدة، حيث يسمح لك برنامج Octoparse بإدخال أكثر من 10000 عنوان URL في المرة الواحدة وتطبيق هذه الخطوات دفعة واحدة عليها.
إذا كانت لديك أي أسئلة حول برنامج كشط الويب، يرجى التواصل مع support@octoparse.com .
تم تصميم Octoparse بشكل احترافي لارشادك في رحلتك مع كشط الإنترنت، حتى تستطيع تطوير نفسك من مجرد مبتدئ إلى محترف ماهر في هذا المجال.
خلال السطور القادمة سنستعرض معكم أفضل طريقة لإستخراج البيانات من خرائط جوجل بطريقة بسيطة وفعالة لاتحتاج إلى خبرة كبيرة في هذا المجال.
من الصعب ملاحظة أن الإحداثيات مخفية بالفعل داخل عناوين URL، في هذه الحالة نحتاج إلى استخراج عنوان URL ، واستخدام تعبير عادي للعثور على سلسلة النص المطابقة التي نبحث عنها، في هذا الشرح سنأخذ مطعم " Space Needle " في مدينة سياتل كمثال.
أولاً، افتح خرائط جوجل في متصفحك واكتب " Space Needle" في شريط البحث.
بعد انتهاء تحميل الصفحة ، ابحث عن الإحداثيات في عنوان URL تقع الإحداثيات خلف علامة "@".
بعد ذلك، يمكننا البدء في استخراج البيانات من عنوان URL ، في الخطوات القادمة سنستخدم برنامج Octoparse لكشط صفحات الويب، يمكنكم استخدام أي برنامج تفضلون لكن Octoparse هو أفضل أداة لكشط الويب مناسب للمحترفين والمبتدئين، ويمكنكم الحصول عليه من هنا.
أنشئ مهمة جديدة باستخدام الوضع المتقدم بالنقر فوق علامة "+" .
أدخل عنوان URL الذي نستخدمه هنا في المربع: "https://www.google.com/maps/place/Space+Needle/@47.6205099,-122.3514661,17z/data=!4m5!3m4!1s0x5490151f4ed5b7f9:0xdb2ba8689ed0920d!8m2!3d47.6205063!4d-122.3492774 "
اضغط على حفظ " Save URL " للمتابعة.
الآن تم إنشاء مهمة جديدة بنجاح، ولم يتبق سوى خطوات بسيطة، لكننا سنواجه مشكلة أن خرائط جوجل لا يمكن تحميلها مباشرة داخل المتصفح المدمج الحالي، ولحل هذه المشكلة انقر فوق ايقونة User-agent Switcher ، ثم اختر Firefox 45.0 ثم انقر حفظ، وسيقوم برنامج Octoparse بإعادة تحميل صفحة الويب نفسها على متصفح فايرفوكس.
بعد إنتهاء تحميل صفحة الويب، يمكننا بدء إستخراج البيانات من خيار " point-and-click" في المتصفح المدمج، وسوف يظهر مجموعة من الخيارات اختر منها " Extract text of selected element" "استخراج نص العنصر المحدد".
الآن ستلاحظ أنه قد تم إنشاء الاستخراج بنجاح وإضافته إلى سير العمل أدناه، ويمكنك تحرير اسم الحقل في منطقة الإعداد في الجزء العلوي الأيمن.
انتقل إلى حقل الاستخراج وابحث عن "إضافة حقل محدد مسبقًا" " Add predefined field" في الأسفل، انقر لإظهار القائمة المنبثقة ثم حدد "إضافة معلومات الصفحة الحالية" " Add current page information" ثم حدد "عنوان URL لصفحة الويب" .
الآن تمت إضافة عنوان URL لصفحة الويب إلى حقل البيانات بنجاح، والآن نحن بحاجة إلى تعديل نموذج URL لحذف الزيادات وسحب الإحداثيات الدقيقة.
انقر على أيقونة "تخصيص" " Customize" (قلم صغير) في الأسفل، ثم حدد "تحسين استخراج البيانات" " Refine extract data" ثم انقر فوق الزر Add step .
هذا سينقلك إلى قائمة الوظائف حيث يمكنك اختيار تنظيف البيانات، وفي هذه الحالة نختار مطابقة مع التعبير النمطي، بعدها ستكون وصلت إلى هذه الخطوة.
يتيح لك ذلك تحرير البيانات بالطريقة التي تريدها عن طريق كتابة التعبير النمطي " Regular Expression"، التعبير النمطي عبارة عن سلسلة نصية خاصة لوصف نمط البحث.
بالنظر إلى أن معظم الأشخاص يواجهون صعوبات في كتابة التعبير النمطي، يمكننا استخدام أداة RegEx المدمجة لمساعدتنا. انقر فوق زر " Try RegEx Tool" .
لاحظ أننا نريد سحب الجزء بعد علامة "@" ولكن قبل الفاصلة الثانية. حدد مربع "البدء بـ" " Start With ، وأدخل "@"، هذا يخبر RegEx أنك تريد الجزء بعد العلامة.
بشكل مماثل ، حدد مربع "إنهاء بـ" " End With "، وأدخل "1" نظرًا لوجود فاصلة وراء العلامة "@" ، فسنحدد بشكل أفضل الفاصلة التي نريدها. ما عليك سوى إضافة الرقم الموجود خلف الفاصلة ، في هذه الحالة ، قم بإضافة الرقم "1" هذا يخبر RegEx أنك تريد الجزء قبل الفاصلة والرقم 1.
انقر فوق الزر "إنشاء" " Generate "، وسيظهر التعبير النمطي في المكان المخصص له.
تأكد الآن من صحة الإدخال من خلال النقر على زر "مطابقة" " Match"، سيقوم هذا بتوليد تعبير مقابل على اليمين، هذا هو بالضبط ما نريد. الآن المضي قدما وانقر على "تطبيق" " Apply" ثم انقر فوق "موافق" " Ok" للتأكيد.
وبهذا تكون تكون قد انهيت، قم بتشغيل برنامج الكشط بالنقر على "بدء الإستخراج" " Start Extraction" ثم اختر "استخراج محلي" " Local Extraction" .
يمكنك تطبيق الخطوات السابقة على عدد كبير من عناوين URL في المرة الواحدة، حيث يسمح لك برنامج Octoparse بإدخال أكثر من 10000 عنوان URL في المرة الواحدة وتطبيق هذه الخطوات دفعة واحدة عليها.
إذا كانت لديك أي أسئلة حول برنامج كشط الويب، يرجى التواصل مع support@octoparse.com .
تم تصميم Octoparse بشكل احترافي لارشادك في رحلتك مع كشط الإنترنت، حتى تستطيع تطوير نفسك من مجرد مبتدئ إلى محترف ماهر في هذا المجال.
المصدر : حوحو للمعلوميات
تبليغ
التبليغ عن مشكل أو رابط معطل
ليست هناك تعليقات:
إرسال تعليق