成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

python怎么爬明星貼吧

這篇文章主要講解了“python怎么爬明星貼吧”,文中的講解內(nèi)容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“python怎么爬明星貼吧”吧!

創(chuàng)新互聯(lián)建站于2013年成立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務公司,擁有項目網(wǎng)站建設(shè)、成都做網(wǎng)站網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元蓬萊做網(wǎng)站,已為上家服務,為蓬萊各地企業(yè)和個人服務,聯(lián)系電話:18982081108

一、網(wǎng)站分析

貼吧的翻頁通過url的變化來實現(xiàn),主要是pn參數(shù):

https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn=頁數(shù)*50

帖子的內(nèi)容、發(fā)帖者及跟帖數(shù)量都可以在網(wǎng)頁中找到:

python怎么爬明星貼吧

所以,我們只需要用requests模擬請求獲得,再用bs4解析就可以獲得想要的內(nèi)容了

二、python編程實現(xiàn)

1.爬取數(shù)據(jù)

用了靜態(tài)網(wǎng)頁爬蟲的老套路,根據(jù)網(wǎng)頁源碼的特點,用find_all函數(shù)提取了帖子、發(fā)帖人及跟帖數(shù)量等信息,并將3類信息放入列表中,最終生成1個二維列表result,主要為了方便存入數(shù)據(jù)庫,代碼如下:

for t in range(250):
    print('第{0}頁'.format(t+1))
    url='https://tieba.baidu.com/f?kw=明星&ie=utf-8&pn={0}'.format(t*50)
    header = {
        'User-Agent': 'Mozilla/5.0(Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0'
    }
    response = requests.get(url, header)
    soup = BeautifulSoup(response.text, 'html.parser')
    items_content = soup.find_all('a', class_='j_th_tit')  #內(nèi)容
    items_user = soup.find_all('span', class_='tb_icon_author') #昵稱
    items_comment = soup.find_all(class_='threadlist_rep_num center_text')  #跟帖數(shù)量
    for i, j, k in zip(items_content, items_user, items_comment):
        result.append([i.get('title'), j.get('title')[5:], k.text])
    time.sleep(1)

2.存入數(shù)據(jù)庫

先創(chuàng)建1個新表,命名為‘STAR’,然后再創(chuàng)建3列,分別命名為“title”、‘a(chǎn)uthor’和‘num’,用于存放1中怕的內(nèi)容,最后將二維列表result中的內(nèi)容存入數(shù)據(jù)庫:

conn=pyMySQL.connect(
    host='127.0.0.1',
    port=3306,
    user='root',
    password='數(shù)據(jù)庫密碼',
    db='test1',
    charset='utf8mb4'
)
cur = conn.cursor()
#如果存在TIEBA表,則刪除
cur.execute("DROP STAR IF EXISTS STAR")
#創(chuàng)建TIEBA表
sql = """
    create table STAR(
    title char(255),
    author char(100),
    num char(20))
"""
cur.execute(sql)
for i in result:
    cur.execute("INSERT INTO STAR(title,author,num) VALUES ('{0}','{1}','{2}')".
                format(i[0].replace('\'','').replace('\"','').replace('\\',''), i[1], i[2]))
conn.commit()

由于帖子內(nèi)容中存在表情等符號,所以選擇用'utf8mb4'這樣就可以把表情也存入數(shù)據(jù)庫了,但是還有一些標點符號在寫入過程會出錯,所以用replace給替換掉了。

總共爬了1萬3千多條數(shù)據(jù),基本把最近兩年的帖子都爬完了。

三、可視化展示

用create_engine模塊讀取數(shù)據(jù)庫表中的內(nèi)容,代碼如下:

import pandas as pd
from sqlalchemy importcreate_engine
# 初始化數(shù)據(jù)庫連接,使用create_engine模塊
engine =create_engine('mysql+pymysql://root:密碼@127.0.0.1:3306/test1')
# 查詢語句,選出STAR表中的所有數(shù)據(jù)
sql = ''' select *from STAR; '''
# read_sql_query的兩個參數(shù): sql語句, 數(shù)據(jù)庫連接
df =pd.read_sql_query(sql, engine)
# 輸出STAR表的查詢結(jié)果
df['num']=[int(i) for i in list(df['num'])]
df=df.drop_duplicates(subset=['title','author','num'], keep='first')

因為跟帖數(shù)量是以字符格式存入的,所以先將其轉(zhuǎn)為整數(shù),再用drop_duplicates模塊對數(shù)據(jù)進行去重,這樣就把數(shù)據(jù)整理完畢了。

上萬條數(shù)據(jù)放在你面前,用肉眼是看不出什么名堂的,所以我這里選擇了幾個角度,用python統(tǒng)計分析這個貼吧里到底隱藏著什么秘密

1.找出發(fā)帖數(shù)量最多的20個人

說簡單點就是創(chuàng)建1個空字典,然后把df['author']轉(zhuǎn)成列表,統(tǒng)計列表中元素個數(shù),將元素及個數(shù)存入字典中,再對字典進行排序,將前十個畫成柱狀圖,代碼如下:

#發(fā)帖數(shù)量排名
rank_num={}
for i in list(set(list(df['author']))):
    rank_num[i.replace(' ', '')] = list(df['author']).count(i)
rank_num = sorted(rank_num.items(), key=lambda x: x[1], reverse=True)
bar = Bar("柱狀圖", "發(fā)帖數(shù)量-昵稱")
bar.add("發(fā)帖數(shù)量-昵稱", [i[0] for i in rank_num[:10]], [i[1] for i in rank_num[:10]],
        xaxis_rotate=45, mark_line=["average"], mark_point=["max", "min"])
bar.render('發(fā)帖數(shù)量-昵稱.html')

結(jié)果如下:

python怎么爬明星貼吧

這個獵頭發(fā)帖有點猛啊,單人最高發(fā)了751個,真厲害。

2.找出跟帖數(shù)最多的20個帖子

dff=df.sort_values(by='num', ascending=False).head(10)
bar = Bar('跟帖數(shù)量排名',width=1000,height=400)
bar.use_theme('dark')
bar.add('' ,dff['title'][::-1], dff['num'][::-1], is_convert=True, is_yaxis_inverse=False, xaxis_rotate=45,is_label_show=True,label_pos='right')
bar.render("跟帖數(shù)量排名.html")

python怎么爬明星貼吧

跟帖最多的竟然是個水貼,數(shù)量高達73459次

3.制作所有帖子的詞云圖

先把所有帖子連接成字符,用jieba進行分詞,插入背景圖片,代碼如下:

import matplotlib.pyplot as plt
import jieba
from wordcloud importwordcloud
text=''
for i in list(df['title']):
    text+=i
print(text)
cut_text = jieba.cut(text)
result=[]
for i in cut_text:
    result.append(i)
result = ">

效果如下:

python怎么爬明星貼吧

感謝各位的閱讀,以上就是“python怎么爬明星貼吧”的內(nèi)容了,經(jīng)過本文的學習后,相信大家對python怎么爬明星貼吧這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!

當前文章:python怎么爬明星貼吧
轉(zhuǎn)載來于:http://jinyejixie.com/article4/pdchoe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供電子商務、網(wǎng)站導航、網(wǎng)站制作、App開發(fā)、搜索引擎優(yōu)化、響應式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機網(wǎng)站建設(shè)
长兴县| 通州市| 滕州市| 靖边县| 云浮市| 宜丰县| 渭南市| 瑞昌市| 保康县| 安宁市| 保山市| 阿克陶县| 石阡县| 拉孜县| 陇西县| 闸北区| 邵武市| 长子县| 叶城县| 甘孜县| 菏泽市| 嘉义县| 上蔡县| 浮山县| 镇雄县| 新泰市| 滦平县| 庄浪县| 临邑县| 卓尼县| 乌兰浩特市| 偏关县| 汪清县| 彭泽县| 麻江县| 申扎县| 建平县| 常山县| 金华市| 崇阳县| 蓬安县|