Java怎么實(shí)現(xiàn)利用搜索引擎收集網(wǎng)址的程序-創(chuàng)新互聯(lián)

這篇文章主要介紹Java怎么實(shí)現(xiàn)利用搜索引擎收集網(wǎng)址的程序，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

主要從事網(wǎng)頁設(shè)計(jì)、PC網(wǎng)站建設(shè)（電腦版網(wǎng)站建設(shè)）、wap網(wǎng)站建設(shè)（手機(jī)版網(wǎng)站建設(shè)）、成都響應(yīng)式網(wǎng)站建設(shè)公司、程序開發(fā)、微網(wǎng)站、成都微信小程序等，憑借多年來在互聯(lián)網(wǎng)的打拼，我們在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)積累了豐富的網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、網(wǎng)絡(luò)營銷經(jīng)驗(yàn)，集策劃、開發(fā)、設(shè)計(jì)、營銷、管理等多方位專業(yè)化運(yùn)作于一體，具備承接不同規(guī)模與類型的建設(shè)項(xiàng)目的能力。

要利用google、百度搜索引擎的搜索規(guī)則中的兩條，關(guān)鍵字搜索和inurl搜索。什么是inurl搜索，就是你所要搜索的網(wǎng)址中本身帶有的關(guān)鍵字，比如http://www.xxx.com/post.asp ,這個(gè)網(wǎng)址就含有post.asp這樣的關(guān)鍵字，在搜索引擎中填寫規(guī)則是 inurl:post.asp,這是收集網(wǎng)址的關(guān)鍵，因?yàn)楹芏嗑W(wǎng)址本身會(huì)帶有特定的信息，比如軟件發(fā)布的網(wǎng)頁網(wǎng)址信息中多含有 publish、submit、tuijian這樣的信息，如http://www.xxx.com/publish.asp,這樣的網(wǎng)址多是發(fā)布信息的網(wǎng)頁，在結(jié)合網(wǎng)頁中本身可能含有的關(guān)鍵字，就可以用搜索引擎搜索出結(jié)果，然后我們利用程序?qū)⒔Y(jié)果取回，對HTML頁面進(jìn)行分析，去除沒有用的信息，將有用的網(wǎng)址信息寫入文件或者數(shù)據(jù)庫，就可以給其它應(yīng)用程序或者人來使用了。

　　第一步，用程序?qū)⑺阉鹘Y(jié)果取回，先以百度為例，比如我們要搜索軟件發(fā)布的網(wǎng)頁，關(guān)鍵字采用 “軟件發(fā)布版本 inurl:publish.asp",先登錄百度看看，將關(guān)鍵字寫入，然后提交，在地址欄就會(huì)看到 /tupian/20230522/ ,中文關(guān)鍵字全都變成編碼了，沒有關(guān)系，我們在程序中直接用中文也是可以的，其中多個(gè)關(guān)鍵字用＋號(hào)相連，去掉一些沒有用的信息，我們可以把地址優(yōu)化成 /tupian/20230522/tuxing.html wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn=0&cl=0，其中rn表示一頁顯示多少個(gè)結(jié)果，wd=表示你要搜索的關(guān)鍵字，pn表示從第幾條開始顯示，這個(gè)pn將是我們程序循環(huán)取結(jié)果的變量，每20條循環(huán)一次。我們用Java寫的程序來模擬這個(gè)搜索的過程，用到的關(guān)鍵類為 java.net.HttpURLConnection,java.net.URL，先寫一個(gè)提交搜索的class,關(guān)鍵代碼如下：

　　class Search
　　{
　　public URL url;
　　public HttpURLConnection http;
　　public java.io.InputStream urlstream;
　　......
　　for(int i=0;i++;i<100)
　　{
　　......
　　try {
　　　url = new URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
　　}catch(Exception ef){};
　　try {
　　　http = (HttpURLConnection) url.openConnection();
　　　http.connect();
　　　urlstream = http.getInputStream();
　　}catch(Exception ef){};
　　java.io.BufferedReader l_reader = new java.io.
　　BufferedReader(new java.io.InputStreamReader(urlstream));
　　try {
　　　while ((currentLine = l_reader.readLine()) != null) {
　　　　totalstring += currentLine;
　　　}
　　} catch (IOException ex3) {}
　　....
　　//本次搜索的結(jié)果已經(jīng)放到totalstring中了，是一些HTML代碼，需要下一步進(jìn)行分析了。
　　}
　　再以google為例，稍微有些不同，google對瀏覽器進(jìn)行了一些檢測，編碼也不同，URL為http: //www.google.com/search?q=軟件發(fā)布+版本+inurl:publish.asp&hl=zh-CN&lr= &newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示，需要注意的是google對瀏覽器還要檢查，如果瀏覽器不符合它的要求，將返回錯(cuò)誤代碼，所以在模擬瀏覽器提交中，我們要多加一行代碼，修改關(guān)鍵部分要將http屬性中的User-Agent設(shè)置為常用的瀏覽器，比如Mozilla/4.0,代碼如下：

　　try {
　　http = (HttpURLConnection) url.openConnection();
　　http.setRequestProperty("User-Agent", "Mozilla/4.0");
　　http.connect();
　　urlstream = http.getInputStream();
　　}catch(Exception ef){};

　　第二步，對取回的HTML編碼進(jìn)行分析，取出其中的有用網(wǎng)址信息，并寫入文件或者數(shù)據(jù)庫，由于這些搜索引擎都有網(wǎng)頁快照和相似網(wǎng)頁等網(wǎng)址信息混雜在HTML中，我們要將這些網(wǎng)址信息剔除掉，剔除的關(guān)鍵就是找出其中的規(guī)律，百度搜索引擎中的網(wǎng)頁快照和其它沒有用的的地址都含有baidu這個(gè)關(guān)鍵字，而google中含有的無用網(wǎng)址信息含有關(guān)鍵字 google和cache,我們就根據(jù)這些關(guān)鍵字剔除無用網(wǎng)址信息。在Java中要對字符串進(jìn)行分析必然要用到 java.util.StringTokenize這個(gè)類，用來將字符串以特定的分隔符分開，java.util.regex.Pattern和 java.util.regex.Matcher用來匹配字符串，關(guān)鍵代碼如下：

　　class CompareStr
　　{
　　public boolean comparestring(String oristring,String tostring)
　　{
　　Pattern p=null; //正則表達(dá)式
　　Matcher m=null; //操作的字符串
　　boolean b;
　　p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
　　m = p.matcher(tostring);
　　b = m.find();
　　return b;
　　}
　　}

　　class AnalyUrl
　　{
　　......
　　StringTokenizer token = new StringTokenizer(totalstring," <> "");
　　String firstword;
　　CompareStrcompstr = new CompareStr();
　　String dsturl = null;
　　while (token.hasMoreTokens())
　　{
　　firstword = token.nextToken();
　　if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
　　{
　　　if (firstword.length() > 7)
　　　{
　　　　dsturl = firstword.substring(6,firstword.length() - 1);
　　　　WriteUrl(dsturl); //成功取到URL，記錄到文件中
　　　}
　　}
　　}
　　}
　　通過以上程序，我們就可以收集到自己要的網(wǎng)址信息了，還可以再寫另外一個(gè)應(yīng)用程序，對收集到的網(wǎng)址信息進(jìn)一步分析，取出自己需要的信息，這里就不再累贅，道理都是一樣的。最后需說明一點(diǎn)，google搜索引擎搜索所能返回的結(jié)果不能超過1000條，過了1000條，就直接提示“對不起， Google 為所有查詢的結(jié)果數(shù)都不會(huì)超過 1000 個(gè)。”，百度搜索引擎返回的結(jié)果不能超過700多條，所以我們要搜索時(shí)盡可能多加關(guān)鍵字，將結(jié)果范圍縮小。

以上是“Java怎么實(shí)現(xiàn)利用搜索引擎收集網(wǎng)址的程序”這篇文章的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道！

網(wǎng)頁名稱：Java怎么實(shí)現(xiàn)利用搜索引擎收集網(wǎng)址的程序-創(chuàng)新互聯(lián)
標(biāo)題鏈接：http://jinyejixie.com/article12/dpoedc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站收錄、ChatGPT、網(wǎng)站制作、用戶體驗(yàn)、網(wǎng)站營銷、標(biāo)簽優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

Java怎么實(shí)現(xiàn)利用搜索引擎收集網(wǎng)址的程序-創(chuàng)新互聯(lián)