亚洲精选视频一区二区三区,毛片网址在线观看日韩av,成年人黄色视频

1
2
3

huxiu_hash_code: 39bcd9c3fe9bc69a6b682343ee3f024a
page: 4
last_dateline: 1541123160

from pyspider.libs.base_handler import *
class Handler(BaseHandler):
    crawl_config:{
        "headers":{
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
            'X-Requested-With': 'XMLHttpRequest'
            }
    }
def on_start(self):
        for page in range(2,3): # 先循環(huán)1頁
            print('正在爬取第 %s 頁' % page)
            self.crawl('https://www.huxiu.com/v2_action/article_list',method='POST',data={'page':page}, callback=self.index_page)

import json
from pyquery import PyQuery as pq
def index_page(self, response):
        content = response.json['data']
# 注意，在sublime中，json后面需要添加()，pyspider 中則不用
        doc = pq(content)
        lis = doc('.mod-art').items()
        data = [{
            'title': item('.msubstr-row2').text(),
            'url':'https://www.huxiu.com'+ str(item('.msubstr-row2').attr('href')),
            'name': item('.author-name').text(),
            'write_time':item('.time').text(),
            'comment':item('.icon-cmt+ em').text(),
            'favorites':item('.icon-fvr+ em').text(),
            'abstract':item('.mob-sub').text()
            } for item in lis ]   # 列表生成式結(jié)果返回每頁提取出25條字典信息構(gòu)成的list
        print(data)
        return data

# 由25個(gè) dict 構(gòu)成的 list
[{'title': '想要長生不老？殺死體內(nèi)的“僵尸細(xì)胞”吧', 'url': 'https://www.huxiu.com/article/270086.html', 'name': '造就Talk', 'write_time': '19小時(shí)前', 'comment': '4', 'favorites': '28', 'abstract': '如果有了最終療法，也不應(yīng)該是每天都需要接受治療'}, 
 {'title': '日本步入下流社會(huì)，我們還在買買買', 'url': 'https://www.huxiu.com/article/270112.html', 'name': '騰訊《大家》?', 'write_time': '20小時(shí)前', 'comment': '13', 'favorites': '142', 'abstract': '我買，故我在'}
...
]

import pandas as pd
import pymongo
import time
import numpy as np
client = pymongo.MongoClient('localhost',27017)
db = client.Huxiu
mongo_collection = db.huxiu_news

def on_result(self,result):
        if result:
            self.save_to_mongo(result)  
def save_to_mongo(self,result):
    df = pd.DataFrame(result)
#print(df)
    content = json.loads(df.T.to_json()).values()
    if mongo_collection.insert_many(content):
        print('存儲(chǔ)到 mongondb 成功')
# 隨機(jī)暫停
        sleep = np.random.randint(1,5)
        time.sleep(sleep)

1 2	def get_taskid(self,task): return md5string(task['url']+json.dumps(task['fetch'].get('data','')))

client = pymongo.MongoClient(host='localhost', port=27017)
db = client['Huxiu']
collection = db['huxiu_news']
# 將數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)為DataFrame
data = pd.DataFrame(list(collection.find()))

print(data.shape)  # 查看行數(shù)和列數(shù)
print(data.info()) # 查看總體情況
print(data.head()) # 輸出前5行

# 結(jié)果：
(49996, 8)
Data columns (total 8 columns):
_id           49996 non-null object
abstract      49996 non-null object
comment       49996 non-null object
favorites     49996 non-null object
name          49996 non-null object
title         49996 non-null object
url           49996 non-null object
write_time    49996 non-null object
dtypes: object(8)
    
	_id	abstract	comment	favorites	name	title	url	write_time
05bdc2	“在你們看到…	2250	普象工業(yè)設(shè)計(jì)小站?	看了蘋果屌	https://	10小時(shí)前
15bdc2	中國”綠卡”號稱“世界最難拿”	916	經(jīng)濟(jì)觀察報(bào)?	遞交材料厚	https://	10小時(shí)前
25bdc2	鮮衣怒馬少年時(shí)	213	小馬宋	金庸小說陪	https://	11小時(shí)前
35bdc2	預(yù)告還是預(yù)警？	310	Cuba Libre	阿里即將發(fā)	https://	11小時(shí)前
45bdc2	庫克：咋回事？	23	Cuba Libre	【虎嗅早報(bào)	https://	11小時(shí)前

# 刪除無用_id列
data.drop(['_id'],axis=1,inplace=True)
# 替換掉特殊字符?
data['name'].replace('?','',inplace=True,regex=True)
# 字符更改為數(shù)值
data = data.apply(pd.to_numeric,errors='ignore')
# 更該日期格式
data['write_time'] = data['write_time'].replace('.*前','2018-10-31',regex=True) 
# 為了方便，將write_time列，包含幾小時(shí)前和幾天前的行，都替換為10月31日最后1天。
data['write_time'] = pd.to_datetime(data['write_time'])

# 判斷整行是否有重復(fù)值
print(any(data.duplicated()))
# 顯示True，表明有重復(fù)值，進(jìn)一步提取出重復(fù)值數(shù)量
data_duplicated = data.duplicated().value_counts()
print(data_duplicated) # 顯示2 True ，表明有2個(gè)重復(fù)值
# 刪除重復(fù)值
data = data.drop_duplicates(keep='first')
# 刪除部分行后，index中斷，需重新設(shè)置index
data = data.reset_index(drop=True)
#結(jié)果：
True
False    49994
True         2

data['title_length'] = data['title'].apply(len)
data['year'] = data['write_time'].dt.year
Data columns (total 9 columns):
abstract        49994 non-null object
comment         49994 non-null int64
favorites       49994 non-null int64
name            49994 non-null object
title           49994 non-null object
url             49994 non-null object
write_time      49994 non-null datetime64[ns]
title_length    49994 non-null int64
year            49994 non-null int64

print(data.describe())
             comment     favorites  title_length 
count  49994.000000  49994.000000  49994.000000  
mean      10.860203     34.081810     22.775333  
std       24.085969     48.276213      9.540142  
min        0.000000      0.000000      1.000000  
25%        3.000000      9.000000     17.000000  
50%        6.000000     19.000000     22.000000  
75%       12.000000     40.000000     28.000000  
max     2376.000000   1113.000000    224.000000

print(data['name'].describe())
print(data['write_time'].describe())
# 結(jié)果：
count     49994
unique     3162
top          虎嗅
freq      10513
Name: name, dtype: object
count                   49994
unique                   2397
top       2014-07-10 00:00:00
freq                      274
first     2012-04-03 00:00:00
last      2018-10-31 00:00:00

def analysis1(data):
# # 匯總統(tǒng)計(jì)
# print(data.describe())
# print(data['name'].describe())
# print(data['write_time'].describe())
    
    data.set_index(data['write_time'],inplace=True)
    data = data.resample('Q').count()['name']  # 以季度匯總
    data = data.to_period('Q')
# 創(chuàng)建x,y軸標(biāo)簽
    x = np.arange(0,len(data),1)
    ax1.plot(x,data.values, #x、y坐標(biāo)
        color = color_line , #折線圖顏色為紅色
        marker = 'o',markersize = 4 #標(biāo)記形狀、大小設(shè)置
        )
    ax1.set_xticks(x) # 設(shè)置x軸標(biāo)簽為自然數(shù)序列
    ax1.set_xticklabels(data.index) # 更改x軸標(biāo)簽值為年份
    plt.xticks(rotation=90) # 旋轉(zhuǎn)90度，不至太擁擠

    for x,y in zip(x,data.values):
        plt.text(x,y + 10,'%.0f' %y,ha = 'center',color = colors,fontsize=fontsize_text )
# '%.0f' %y 設(shè)置標(biāo)簽格式不帶小數(shù)
# 設(shè)置標(biāo)題及橫縱坐標(biāo)軸標(biāo)題
    plt.title('虎嗅網(wǎng)文章數(shù)量發(fā)布變化(2012-2018)',color = colors,fontsize=fontsize_title)
    plt.xlabel('時(shí)期')
    plt.ylabel('文章(篇)')
    plt.tight_layout()  # 自動(dòng)控制空白邊緣
    plt.savefig('虎嗅網(wǎng)文章數(shù)量發(fā)布變化.png',dpi=200)
    plt.show()

序號	title	favorites	comment
1	讀完這10本書，你就能站在智商鄙視鏈的頂端了	1113	13
2	京東打臉央視：你所謂的翻新iPhone均為正品，我們保留向警方報(bào)案的權(quán)利	867	10
3	離職創(chuàng)業(yè)？先讀完這22本書再說	860	9
4	貨幣如水，覆水難收	784	39
5	自殺經(jīng)濟(jì)學(xué)	778	119
6	2016年已經(jīng)起飛的5只黑天鵝，都在羅振宇這份跨年演講全文里	774	39
7	真正強(qiáng)大的商業(yè)分析能力是怎樣煉成的？	746	18
8	騰訊沒有夢想	705	32
9	段永平連答53問，核心是“不為清單”	703	27
10	王健林的滑鐵盧	701	92

year	title	favorites
2012	產(chǎn)品的思路——來自騰訊張小龍的分享（全版）	187
	Fab CEO：創(chuàng)辦四家公司教給我的90件事	163
	張小龍：微信背后的產(chǎn)品觀	162
2013	創(chuàng)業(yè)者手記：我所犯的那些入門錯(cuò)誤	473
	馬化騰三小時(shí)講話實(shí)錄：千億美金這個(gè)線，其實(shí)很恐怖	391
	雕爺親身談：白手起家的我如何在30歲之前賺到1000萬。讀《MBA教不了的創(chuàng)富課》	354
2014	85后，突變的一代	528
	雕爺自述：什么是我做餐飲時(shí)琢磨、而大部分“外人”無法涉獵的思考？	521
	據(jù)說這40張PPT是螞蟻金服的內(nèi)部培訓(xùn)資料……	485
2015	讀完這10本書，你就能站在智商鄙視鏈的頂端了	1113
	京東打臉央視：你所謂的翻新iPhone均為正品，我們保留向警方報(bào)案的權(quán)利	867
	離職創(chuàng)業(yè)？先讀完這22本書再說	860
2016	蝗蟲般的刷客大軍：手握千萬手機(jī)號，分秒間薅干一家平臺(tái)	554
	準(zhǔn)CEO必讀的這20本書，你讀過幾本？	548
	運(yùn)營簡史：一文讀懂互聯(lián)網(wǎng)運(yùn)營的20年發(fā)展與演變	503
2017	2016年已經(jīng)起飛的5只黑天鵝，都在羅振宇這份跨年演講全文里	774
	真正強(qiáng)大的商業(yè)分析能力是怎樣煉成的？	746
	王健林的滑鐵盧	701
2018	貨幣如水，覆水難收	784
	自殺經(jīng)濟(jì)學(xué)	778
	騰訊沒有夢想	705

def analysis2(data):
# # 總收藏排名
# top = data.sort_values(['favorites'],ascending = False)
# # 收藏前10
# top.index = (range(1,len(top.index)+1)) # 重置index，并從1開始編號
# print(top[:10][['title','favorites','comment']])

# 按年份排名
# # 增加一列年份列
# data['year'] = data['write_time'].dt.year
def topn(data):
        top = data.sort_values('favorites',ascending=False)
        return top[:3]
    data = data.groupby(by=['year']).apply(topn)
    print(data[['title','favorites']])
# 增加每年top123列，列依次值為1、2、3
    data['add'] = 1 # 輔助
    data['top'] = data.groupby(by='year')['add'].cumsum()
    data_reshape = data.pivot_table(index='year',columns='top',values='favorites').reset_index()
# print(data_reshape)  # ok
    data_reshape.plot(
# x='year',
        y=[1,2,3],
        kind='bar',
        width=0.3,
        color=['#1362A3','#3297EA','#8EC6F5']  # 設(shè)置不同的顏色
# title='虎嗅網(wǎng)歷年收藏?cái)?shù)最多的3篇文章'
        )
    plt.xlabel('Year')
    plt.ylabel('文章收藏?cái)?shù)量')
    plt.title('歷年 TOP3 文章收藏量比較',color = colors,fontsize=fontsize_title)
    plt.tight_layout()  # 自動(dòng)控制空白邊緣，以全部顯示x軸名稱
# plt.savefig('歷年 Top3 文章收藏量比較.png',dpi=200)
    plt.show()

def analysis3(data):
    data = data.groupby(data['name'])['title'].count()
    data = data.sort_values(ascending=False)
# pandas 直接繪制,.invert_yaxis()顛倒順序
    data[1:21].plot(kind='barh',color=color_line).invert_yaxis()
    for y,x in enumerate(list(data[1:21].values)):
        plt.text(x+12,y+0.2,'%s' %round(x,1),ha='center',color=colors)
    plt.xlabel('文章數(shù)量')
    plt.ylabel('作者')
    plt.title('發(fā)文數(shù)量最多的 TOP20 作者',color = colors,fontsize=fontsize_title)
    plt.tight_layout()
    plt.savefig('發(fā)文數(shù)量最多的TOP20作者.png',dpi=200)
    plt.show()

name	total_favorites	ariticls_num	avg_favorites
重讀	1947	6	324
樓臺(tái)	2302	8	287
彭縈	2487	9	276
曹山石	1187	5	237
飯統(tǒng)戴老板	7870	36	218
筆記俠	1586	8	198
辯手李慕陽	11989	62	193
李錄	2370	13	182
高曉松	889	5	177
寧南山	2827	16	176

order	title	favorites	write_time
1	我采訪出200多萬字素材，還原了阿里系崛起前傳	231	2018/10/31
2	阿里史上最強(qiáng)人事地震回顧：中供鐵軍何以被生生解體	494	2018/4/9
3	馬云“斬”衛(wèi)哲：復(fù)原阿里史上最震撼的人事地震	578	2018/3/15
4	重讀一場馬云發(fā)起、針對衛(wèi)哲的批斗會(huì)	269	2017/8/31
5	阿里“中供系”前世今生：馬云麾下最神秘的子弟兵	203	2017/5/10
6	揭秘馬云麾下最神秘的子弟兵：阿里“中供系”的前世今生	172	2017/4/26

name	total_favorites	ariticls_num	avg_favorites
于斌	25	11	2
朝克圖	33	23	1
東風(fēng)日產(chǎn)	24	13	1
董曉常	14	8	1
蔡鈺	31	16	1
馬繼華	12	11	1
angeljie	7	5	1
薛開元	6	6	1
pookylee	15	24	0
Yang Yemeng	0	7	0

def analysis4(data):
    data = pd.pivot_table(data,values=['favorites'],index='name',aggfunc=[np.sum,np.size])
    data['avg'] = data[('sum','favorites')]/data[('size','favorites')]
# 平均收藏?cái)?shù)取整
# data['avg'] = data['avg'].round(decimals=1)
    data['avg'] = data['avg'].astype('int')
# flatten 平鋪列
    data.columns = data.columns.get_level_values(0)
    data.columns = ['total_favorites','ariticls_num','avg_favorites']
# 篩選出文章數(shù)至少5篇的
    data=data.query('ariticls_num > 4')
    data = data.sort_values(by=['avg_favorites'],ascending=False)
# # 查看平均收藏率第一名詳情
# data = data.query('name == "重讀"')
# # 查看平均收藏率倒數(shù)第一名詳情
# data = data.query('name == "Yang Yemeng"')
# print(data[['title','favorites','write_time']])
    print(data[:10]) 	# 前10名
    print(data[-10:])	# 后10名

order	title	comment	favorites
1	喜瓜2.0—明星社交應(yīng)用的中國式引進(jìn)與創(chuàng)新	2376	3
2	百度，請給“兒子們”好好起個(gè)名字	1297	9
3	三星S5為什么對鳳凰新聞客戶端下注？	1157	1
4	三星Tab S：馬是什么樣的馬？鞍又是什么樣的鞍？	951	0
5	三星，正在重塑你的營銷觀	914	1
6	馬化騰，你就把微信賣給運(yùn)營商得了！	743	20
7	【文字直播】羅永浩 VS 王自如網(wǎng)絡(luò)公開辯論	711	33
8	看三星Hub如何推動(dòng)數(shù)字內(nèi)容消費(fèi)變革	684	1
9	三星要重新定義軟件與內(nèi)容商店新模式，SO?	670	0
10	三星Hub——數(shù)字內(nèi)容交互新模式	611	0

def analysis5(data):
    plt.scatter(
        x=data['favorites'],
        y =data['comment'],
        s=data['title_length']/2,
        )
    plt.xlabel('文章收藏量')
    plt.ylabel('文章評論數(shù)')
    plt.title('文章標(biāo)題長度與收藏量和評論數(shù)之間的關(guān)系',color = colors,fontsize=fontsize_title)
    plt.tight_layout() 
    plt.show()

def analysis6(data):
    text=''
    for i in data['title'].values:
        symbol_to_replace = '[!"#$%&\'()*+,-./:;<=>?@，。?★、…【】《》？“”‘’！[\\]^_`{|}~]+'
        i = re.sub(symbol_to_replace,'',i)
        text+=' '.join(jieba.cut(i,cut_all=False))
    d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()

    background_Image = np.array(Image.open(path.join(d, "tiger.png")))
    font_path = 'C:\Windows\Fonts\SourceHanSansCN-Regular.otf'  # 思源黑字體

# 添加stopswords
    stopwords = set()
# 先運(yùn)行對text進(jìn)行詞頻統(tǒng)計(jì)再排序，再選擇要增加的停用詞
    stopwords.update(['如何','怎么','一個(gè)','什么','為什么','還是','我們','為何','可能','不是','沒有','哪些','成為','可以','背后','到底','就是','這么','不要','怎樣','為了','能否','你們','還有','這樣','這個(gè)','真的','那些'])
    wc = WordCloud(
        background_color = 'black',
        font_path = font_path,
        mask = background_Image,
        stopwords = stopwords,
        max_words = 2000,
        margin =2,
        max_font_size = 100,
        random_state = 42,
        scale = 2,
    )
    wc.generate_from_text(text)
    process_word = WordCloud.process_text(wc, text)
# 下面是字典排序
    sort = sorted(process_word.items(),key=lambda e:e[1],reverse=True) # sort為list
    print(sort[:50])  # 輸出前詞頻最高的前50個(gè)，然后篩選出不需要的stopwords，添加到前面的stopwords.update()方法中
    img_colors = ImageColorGenerator(background_Image)
    wc.recolor(color_func=img_colors)  # 顏色跟隨圖片顏色
    plt.imshow(wc,interpolation='bilinear')
    plt.axis('off')
    plt.tight_layout()  # 自動(dòng)控制空白邊緣
    plt.savefig('huxiu20.png',dpi=200)
    plt.show()