成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

Java如何實現(xiàn)爬蟲

這篇文章主要介紹了Java如何實現(xiàn)爬蟲,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

站在用戶的角度思考問題,與客戶深入溝通,找到青島網(wǎng)站設計與青島網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設計與互聯(lián)網(wǎng)技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站制作、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名注冊、網(wǎng)絡空間、企業(yè)郵箱。業(yè)務覆蓋青島地區(qū)。

一、代碼

爬蟲的實質就是打開網(wǎng)頁源代碼進行匹配查找,然后獲取查找到的結果。

打開網(wǎng)頁:

URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");

讀取網(wǎng)頁內容:

BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));

正則表達式進行匹配:

tring mail_regex = "\\w+@\\w+(\\.\\w+)+";

儲存結果:

List<String> list = new ArrayList<String>();

/*
* 獲取
* 將正則規(guī)則進行對象的封裝。
* Pattern p = Pattern.compile("a*b");
* //通過正則對象的matcher方法字符串相關聯(lián)。獲取要對字符串操作的匹配器對象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通過Matcher匹配器對象的方法對字符串進行操作。
* boolean b = m.matches();
*/

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
public class Spider {
 
    public static void main(String[] args) throws IOException {
//        List<String> list = getMails();
//        for(String mail : list){
//            System.out.println(mail);
//        }
    
        List<String> list = getMailsByWeb();
        for(String mail : list){
            System.out.println(mail);
        }
    }
 
    public static List<String>  getMailsByWeb() throws IOException{
        //1,讀取源文件。
        //URL url = new URL("http://192.168.1.100:8080/myweb/mail.html");
        //URL url = new URL("http://localhost:8080/SecondWeb/index.jsp");
        URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");
 
        BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));
 
 
        //2,對讀取的數(shù)據(jù)進行規(guī)則的匹配。從中獲取符合規(guī)則的數(shù)據(jù).
        String mail_regex = "\\w+@\\w+(\\.\\w+)+";
 
        List<String> list = new ArrayList<String>();
 
        Pattern p = Pattern.compile(mail_regex);
        String line = null;
 
        while((line=bufr.readLine())!=null){
 
            Matcher m = p.matcher(line);
            while(m.find()){
                //3,將符合規(guī)則的數(shù)據(jù)存儲到集合中。
                list.add(m.group());
            }
 
        }
        return list;
    }
 
    public static List<String>  getMails() throws IOException{
        //1,讀取源文件。
        BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html"));
 
 
        //2,對讀取的數(shù)據(jù)進行規(guī)則的匹配。從中獲取符合規(guī)則的數(shù)據(jù).
        String mail_regex = "\\w+@\\w+(\\.\\w+)+";
 
        List<String> list = new ArrayList<String>();
 
        Pattern p = Pattern.compile(mail_regex);
        String line = null;
 
        while((line=bufr.readLine())!=null){
 
            Matcher m = p.matcher(line);
            while(m.find()){
                //3,將符合規(guī)則的數(shù)據(jù)存儲到集合中。
                list.add(m.group());
            }
 
        }
        return list;
    }
}

二、運行結果

abc1@sina.com.cn1@1.1

感謝你能夠認真閱讀完這篇文章,希望小編分享的“Java如何實現(xiàn)爬蟲”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關知識等著你來學習!

網(wǎng)站欄目:Java如何實現(xiàn)爬蟲
標題路徑:http://jinyejixie.com/article20/gcegjo.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供虛擬主機、服務器托管網(wǎng)頁設計公司、用戶體驗、外貿網(wǎng)站建設、網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運營
江都市| 祁阳县| 林周县| 高州市| 甘孜| 响水县| 丽江市| 合阳县| 仪陇县| 城步| 静乐县| 静乐县| 赤水市| 剑河县| 宜城市| 响水县| 凭祥市| 高安市| 白水县| 枣庄市| 广德县| 峨山| 老河口市| 邵武市| 九龙城区| 长汀县| 任丘市| 浙江省| 富宁县| 南部县| 石河子市| 抚远县| 鄂伦春自治旗| 绥宁县| 册亨县| 南充市| 霞浦县| 长兴县| 安泽县| 云龙县| 晋江市|