導航:首頁 > 電影百科 > 影視解析演算法

影視解析演算法

發布時間:2024-05-08 08:34:29

① 豆瓣電影的評分標準是什麼有何演算法

豆瓣的注冊用戶看完一部電影,心情好的話會來打個一到五星的分(有時候心情不好也會來)。比方說一部電影有42萬用戶打分。我們的程序把這42萬個一到五星換算成零到十分,加起來除以42萬,就得到了豆瓣評分。

這個評分會自動出現在豆瓣各處,中間沒有審核,平時也沒有編輯盯著看。每過若干分鍾,程序會自動重跑一遍,把最新打分的人的意見包括進來。

那42萬用戶里可能包括資深電影評論家,可能包括你、你的親戚、你的小學同學、早晨賣你油條的那個人,也可能包括阿北我個人。但每個人都是一票。這個是「大眾評審團」應該的含義:不是說團里的人全都大眾,而是說和大眾一樣一人一票。

豆瓣的工作人員偶然收到「我明明給這個片子打了五星,為什麼評分一點沒變」的投訴的時候,除了心裡嘀咕一下「哎,你拿這些紅人/獨生子女/八零後/九零後/零零後/數學不好的人怎麼辦」以外,會(或者應該)這樣耐心解釋:評分實際是變了,只是在小數點後四位,被四捨五入掉了。

但如果有幾千個人和你一樣都打五星的時候,分數就會變。

「一人一票」唯一的例外,是豆瓣的程序判斷是「非正常打分」的帳號。這些打分會被排除在外。具體下面會說到。

豆瓣電影評分的主旨和原則,是「盡力還原普通觀影大眾對一部電影的平均看法」。這個主旨過去十年沒變過,將來也不想變。

它並不是專家、影視從業人員或者資深人士對電影的看法,雖然這些看法會被豆瓣算在「普通觀影大眾」之內。所以有次聽到「豆瓣電影評分不專業」的說法的時候,我的反應這是在說「大眾不專業」,應該怪語文才是。個人認為匯總專家意見會是另一個很有價值的服務,但這個確實不是豆瓣評分的宗旨。


豆瓣簡介

豆瓣(douban)是一家社區網站。網站由楊勃(網名「阿北」)[3]創立於2005年3月6日。該網站以書影音起家,提供關於書籍、電影、音樂等作品的信息,無論描述還是評論都由用戶提供,是中國Web 2.0網站中具有特色的一個網站。

網站還提供書影音推薦、線下同城活動、小組話題交流等多種服務功能,它更像一個集品味系統(讀書、電影、音樂)、表達系統(我讀、我看、我聽)和交流系統(同城、小組、友鄰)於一體的創新網路服務,一直致力於幫助都市人群發現生活中有用的事物。2012年,豆瓣閱讀上線,開始進入網上電子書版權領域。

(1)影視解析演算法擴展閱讀:

豆瓣其他產品

1.豆瓣FM

豆瓣FM是你專屬的個性化音樂收聽工具,打開就能收聽,可以用「紅心」、「垃圾桶」或者「跳過」 告訴豆瓣FM你的喜好。豆瓣FM將根據你的操作和反饋,從海量曲庫中自動發現並播出符合你音樂口味的歌曲,提供公共、私人和紅心三種收聽方式。在紅心兆赫離線也能收聽。

2.豆瓣讀書- 豆瓣讀書自2005年上線,已成為國內信息最全、用戶數量最大且最為活躍的讀書網站。我們專注於為用戶提供全面、且精細化的讀書服務,同時不斷探索新的產品模式。到2012年豆瓣讀書每個月有超過800萬的來訪用戶,過億的訪問次數。


3.豆瓣閱讀

豆瓣閱讀是豆瓣讀書2012年推出的數字閱讀服務,支持 Web、iPhone、iPad、Android、Kindle等桌面和移動設備,自2012年5月7日作品商店上線以來,商店作品達600餘部,用戶評論3000餘篇,有50萬用戶購買過付費或者免費作品。

豆瓣閱讀的現有內容涵蓋了小說、歷史、科技、藝術與設計、生活等多種門類,定位為短篇作品和圖書於一體的綜合平台。


4.豆瓣音樂

豆瓣音樂是中國最大的音樂分享、評論、音樂人推廣社區,擁有最完整的全球音樂信息庫、最權威的用戶音樂評論,和最具創造力的獨立音樂人資源。匯集90多萬音樂條目,包括小凡say、幼稚園殺手、MC光光、呆寶靜等21000多位獨立音樂人入駐,2011年全年平均每5分鍾誕生一首原創音樂,覆蓋粉絲超千萬。

5.豆瓣同城

豆瓣同城是國內最大的線下活動信息發布平台,包括音樂/演出、話劇、展覽、電影、講座/沙龍、戲劇/曲藝、生活/聚會、體育、旅行、公益……專注於一線城市業餘生活方式。

6.豆瓣小組

豆瓣小組於2005年上線,定位於「對同一個話題感興趣的人的聚集地」,至今已有30多萬個小組被用戶創建,月獨立用戶超過5500萬。內容包括娛樂、美容、時尚、旅行等生活的方方面面。用戶在這里發布內容,同時也通過互動或瀏覽,發現更多感興趣的內容。


② KNN 演算法-理論篇-如何給電影進行分類

KNN 演算法 的全稱是 K-Nearest Neighbor ,中文為 K 近鄰 演算法,它是基於 距離 的一種演算法,簡單有效。

KNN 演算法 即可用於分類問題,也可用於回歸問題。

假如我們統計了一些 電影數據,包括電影名稱,打鬥次數,接吻次數,電影類型 ,如下:

可以看到,電影分成了兩類,分別是動作片和愛情片。

如果現在有一部新的電影A,它的打鬥和接吻次數分別是80 和7,那如何用KNN 演算法對齊進行分類呢?

我們可以將打鬥次數作為 X 軸 ,接吻次數作為 Y 軸 ,將上述電影數據畫在一個坐標系中,如下:

通過上圖可以直觀的看出,動作電影與愛情電影的分布范圍是不同的。

KNN 演算法 基於距離,它的原理是: 選擇與待分類數據最近的K 個點,這K 個點屬於哪個分類最多,那麼待分類數據就屬於哪個分類

所以,要判斷電影A 屬於哪一類電影,就要從已知的電影樣本中,選出距離電影A 最近的K 個點:

比如,我們從樣本中選出三個點(即 K 為 3),那麼距離電影A 最近的三個點是《功夫》,《黑客帝國》和《戰狼》,而這三部電影都是動作電影。因此,可以判斷電影A 也是動作電影。

另外,我們還要處理兩個問題:

關於點之間的距離判斷,可以參考文章 《計算機如何理解事物的相關性》 。

至於K 值的選擇,K 值較大或者較小都會對模型的訓練造成負面影響,K 值較小會造成 過擬合 ,K 值較大 欠擬合

因此,K 值的選擇,一般採用 交叉驗證 的方式。

交叉驗證的思路是,把樣本集中的大部分樣本作為訓練集,剩餘部分用於預測,來驗證分類模型的准確度。一般會把 K 值選取在較小范圍內,逐一嘗試K 的值,當模型准確度最高時,就是最合適的K 值。

可以總結出, KNN 演算法 用於分類問題時,一般的步驟是:

如果,我們現在有一部電影B,知道該電影屬於動作電影,並且知道該電影的接吻次數是 7 ,現在想預測該電影的打鬥次數是多少?

這個問題就屬於 回歸問題

首先看下,根據已知數據,如何判斷出距離電影B 最近的K 個點。

我們依然設置K 為3,已知數據為:

根據已知數據可以畫出下圖:

圖中我畫出了一條水平線,這條線代表所有接吻次數是7 的電影,接下來就是要找到距離 這條線 最近的三部(K 為 3)動作電影。

可以看到,距離這條水平線最近的三部動作電影是《功夫》,《黑客帝國》和《戰狼》,那麼這三部電影的打鬥次數的平均值,就是我們預測的電影B 的打鬥次數。

所以,電影B 的打鬥次數是:

本篇文章主要介紹了 KNN 演算法 的基本原理,它簡單易懂,即可處理分類問題,又可處理回歸問題。

KNN 演算法 是基於 距離 的一種機器學習演算法,需要計算測試點與樣本點之間的距離。因此,當數據量大的時候,計算量就會非常龐大,需要大量的存儲空間和計算時間。

另外,如果樣本數據分類不均衡,比如有些分類的樣本非常少,那麼該類別的分類准確率就會很低。因此,在實際應用中,要特別注意這一點。

(本節完。)

推薦閱讀:

決策樹演算法-理論篇-如何計算信息純度

決策樹演算法-實戰篇-鳶尾花及波士頓房價預測

樸素貝葉斯分類-理論篇-如何通過概率解決分類問題

樸素貝葉斯分類-實戰篇-如何進行文本分類

計算機如何理解事物的相關性-文檔的相似度判斷

閱讀全文

與影視解析演算法相關的資料

熱點內容
類似菊石的電影 瀏覽:750
夏威夷電影完整版 瀏覽:193
邵氏經典古裝武俠 瀏覽:225
魔物吃胎兒的泰國電影 瀏覽:697
男性露性器官電影 瀏覽:166
吸乳汁的電影 瀏覽:546
吳家麗演過什麼電影 瀏覽:427
國外在線電影 瀏覽:108
變形金剛6百度網盤 瀏覽:929
稍安勿躁電影大概內容 瀏覽:988
清正廉潔電影 瀏覽:746
徐錦江和林偉建主演電影 瀏覽:212
拳皇97的有電影嗎 瀏覽:358
學生考90分老師答應條件的韓劇白峰羽美 瀏覽:173
李彩潭嫉妒陷阱 瀏覽:976
微電影北漂女孩彪哥收房租 瀏覽:59
電影院緊挨著書店英文翻譯 瀏覽:114
小電影網站進不去 瀏覽:685
殺人碎屍電影 瀏覽:422
邵氏電影顏色片 瀏覽:969