2007年8月31日 星期五

澎湖

研究室的迎新送舊旅行,去了澎湖,8/28~8/31 四天。以前沒去過,其實在出發之前,並不是很想去的,但是覺得應該要送學長姐們這一次,最終還是去了。

大家在校門口集合,一直過去松山機場坐飛機到馬公。到了民宿放好東西以後,去了南北石塔還有風櫃洞什麼的,我不是很知道風櫃洞是好玩在哪裡,沒有什麼風聲阿,但是景色很壯觀是真的。其實幾乎整個澎湖海岸線都是那種景觀啦,就是那個六角形的玄武岩,很漂亮,很壯觀。晚上去夜釣小管,果然如同俁之說的,是夜釣不到小管,我們這船有兩團人,另外一團有七八個人吧,我們這團十四個人,他們釣了六隻,我們一隻都沒有,不過我們很努力的吃,把對方的小管也都吃掉了。對了,新鮮的小管真的很好吃,小管被釣上來以後,現場就殺了,然後配芥末吃。連我不太愛吃生魚片跟芥末的人都覺得很好吃呢,恩,小管這種東西,生的跟熟的口感差不多。

第二天一大早起床去搭船,到了七美。看了雙心石滬,很漂亮,不過裡面全部都是海參,而且還是很噁心的那種海參,完全不想靠近,然後看到饅頭蟹抓了陽燧足來吃,厲害。浮潛,其實跟綠島的經驗差不多,所以沒有多大新奇的感覺,那天的水也不是很清,但是導遊先生給我們看了不少東西就是。最有感覺的是七美上面到處跑的山羊群,我真的很喜歡那些羊呢,詩芳跟小白他們則是一直很擔心我出事,不過我很喜歡,我想摸他們,結果後來真的有一隻羊走過來給我們摸。晚上在七美的港口旁邊吃抹茶紅豆雪花冰,第一次吃到,不錯吃。

隔天起床看日出,我鬧了個笑話,在等太陽出來的時候,大家聊到月亮上面有什麼,有人問為什麼月亮上面有兔子,我說故事裡面,兔子是要幹吳岡的便當,害吳岡要去追,結果跑回來的時候,樹又長好了,然後我就被大家笑了。被笑最慘的是在一個南嶼城,詩芳騙我說地上有蛇,我第一反應就尖叫。羊真的很可愛。

在七美來來去去的時候,一直看到一間地中海藍白風格的建築物的屋頂,但是都沒有停下來看,只有每次經過的時候,瞥到上面寫著「希拉」,後來要離開七美之前,就真的特到繞過去看,才發現他除了「希拉」,還有寫「Thera Inn」,哇~原來是個旅館耶,好開心喔~站在外面,往裡面看,都是都沒有看到人,客廳很漂亮很漂亮,然後也有淡淡的香香的味道。大家發現他們沒有鎖,但是在外面晃來晃去,都不敢進去,後來我就跑進去了,問了一下「請問有人在家嗎?打擾一下~」但是沒有人回應,那我就拿了櫃子上面的兩張名片,很漂亮呢,發現名片上面有網址(http://www.thera.com.tw),不過上了網看,除了外觀的很漂亮的照片跟電話,沒有別的資料了,但是還是很開心喔,我以後也想要這樣的房子 ^^

第三天的下午就是跳島跳跳跳,從七美到望安,望安到虎井,虎井到桶盤,最後到馬公。望安就是去看綠蠵龜喔,沒看到綠蠵龜,只有看到一隻小玳瑁在水族箱裡,而且還不給摸,真是過份 @@" 小時候我去小琉球,那邊有一大堆海龜都很大隻,而且都可以隨便摸摸,真的很好玩 ^^ 講是這樣講啦,海龜已經很罕見了,還是要好好保育,現在跟以前已經不一樣了,而且小海龜很可愛,游泳的時候就像是在飛行,眼睛一直很無辜的樣子,我好喜歡。在望安還有看到黃金沙灘,真的好漂亮,是那種讓人看了就會想要衝下去的沙灘。因為在望安的時候已經被騙到了租車,所以到了虎井的時候就很不甘願租車,可是大家也不會想走路,最後只有我跟中鎮走上去三本五十六的日軍指揮所,其實大家慢慢走的話,應該都可以在二十分鐘走到,不過我覺得不管是租車還是走路,都沒有上去的價值,上面真的沒什麼東西好看的。桶盤就是去看玄武岩喔,最漂亮完整的玄武岩地形就在那邊的海岸線,那邊只十一戶人家,沒了。

回到馬公以後,大家去了隘門沙灘玩水,玩了簡單石頭布輸了往海裡站一步的野蠻遊戲,真是可怕。之後是俁之帶大家去廟口吃小吃,大家都吃得很開心,然後也玩得很開心,世龍很厲害,打彈珠一直打到很多命,然後大家都跳下去玩,很開心。

那天晚上在民宿旁邊的一家紀念品店,大家在逛東西時候,我聽到人說店裡面的電腦一直當機,好像壞掉了,我突然想說那我來幫他們看看,我就走過去櫃台,跟老闆娘說:「ㄟ,你們的電腦壞掉了?我們是資工的學生喔,如果你不介意的話,我可以幫你看一下,不確定會修好啊,但是可以幫你看一下^^」老闆娘人很好,就讓我進去櫃台用電腦。她說他們的電腦會跳藍色畫面,一天跳五六次,當機的時候就沒辦法使用 POS,做生意很麻煩,已經三天了。因為有藍色畫面,我想說最快的方法是用系統修復,我問他們有沒有 XP 的光碟,老闆娘找了一下,拿了一片 Office XP 給我,我說這個不是喔,她就繼續在一盒光碟裡面一直找一直找,我看他很辛苦的樣子,就請她整盒給我,我來幫她找,但是整盒都沒有阿,那就放棄系統修復這條路了。想了一想,還可以試試看系統還原,所以我就要幫她做系統還原,我先跟她說明:「這個功能可以讓你的電腦回到幾天之前的狀態,照道理說,妳 POS 的資料不會不見,但是系統還原我很少用,我也不確定他有沒有 bug,不過我這樣說喔,如果不用這個方法,拿去給別人重灌的話,只會更糟,不會更好,這樣你願意嘗試嗎 ^^?」老闆想了幾秒,就說好阿,反正也不會更好了,老闆娘人很好,很信任我們喔,其實我在幫她弄的時候,學弟妹學長姊大家都在旁邊呢,大家聊得很開心。大概十多分鐘,就完成了整個過程,然後我請老闆娘盡量虐待電腦,看能不能把他弄當機,不過都沒事。我就說:「那大概這樣就可以了,我明天中午阿,還會回到這邊喔,我明天中午再過來幫你看一次,如果這段時間都沒當機,那應該就好了,如果還有當機我再看看。」然後就走了,前往下一家店。

到了下一家店正在逛的時候阿,學弟拿著一小包東西跑來找我,說是剛剛老闆娘送給我的,我打開來看,是一排的小罐子,裡面各個海灘的沙子,每一罐都很有特色,我覺得超級開心,馬上跑去店裡面找老闆娘,一直道謝,老闆娘說因為店裡面只有這個比較有特色,所以選這個送給我。我覺得很不好意思啦,我說都還沒確定有沒有修好,這樣拿你的禮物太過意不去了。老闆娘說她是謝謝我的心意跟熱情,不是因為把電腦修好。她真是好人呢。那我就說:「謝謝老闆娘,謝謝老闆,謝謝...ㄟ...這個是你女兒嗎?」「喔,不是的,這個是工讀生,單身喔~」「呃...我明天就要回台灣了 ^^"」「沒關係阿,她也在台灣唸大學喔,她家在澎湖,在台灣念大學,暑假回來家裏面,在這邊打工。」「喔,是哪個大學阿?」「台大。」「哇~真是高材生~」然後我就趕緊繞跑了,老闆娘太熱情了 T_T 隔天中午我又去了店裡面,想看看他們電腦的狀況怎樣了,結果只有工讀生在,我大概跟她聊了一下,原來是她是台大航管系的,是同行耶 ^^ 因為我交大也念運輸管理阿,不過她們主要是學海運的,哇~真不愧是澎湖的子民喔,連唸書都念海運的。我跟她說我海運學很爛。我留下了自己的姓名跟電話還有信箱,跟她說如果電腦還出了什麼問題的話,請告訴我,然後離開了。

我真的很喜歡這個紀念品喔,不是因為我免費拿到這個東西,而是因為這個是別人送給我的紀念品,我好開心,有人會送紀念品給我。這次我沒有買什麼東西,因為我發現我沒有什麼朋友可以送,所以沒買東西,正在逛店裡面的時候阿,發現自己沒人可以送,就覺得好悲傷。但是阿,竟然我也會收到紀念品,想到老闆娘是用「給我留作紀念」的心態給我這個東西,就真的很感動,我現在想一想好想哭喔,這是心意呢,是心意...

最後一天早上去了跨海大橋,在橋頭吃了仙人掌冰,看到了一顆佔地三百平方公尺的榕樹,也拍了很多照片,很開心。然後去了鯨魚洞跟地質館,喔,對了,該死的小白拿海蟑螂嚇我,他是故意的,我要把這筆記在詩芳頭上。中午俁之帶我去吃了牛肉麵,其實我一直不懂牛肉麵這種東西魏什麼很多人喜歡吃,因為我覺得他就只有牛肉跟麵,其他的都沒有阿,不懂不懂。然後去吃了仙草冰,喔天哪,好好吃。阿,機車俁之真的很機車,吃完牛肉麵要結帳的時候,俁之拿著皮包說:我請你啦。然後走到櫃台打開皮包發現裡面沒有錢。幹!結果又是我請客!打了電話給睡睡講這件事情,睡睡說:「對!他每次都搞這招的,而且還都裝的一臉很無辜的樣子!」

吃完飯到了機場,大家領了機票,拍拍照,然後進行頒獎典禮,一人一張卡片,大家很開心,心裡是有感觸的,但是沒有哭啦,下大家都很開心的道別,然後就去搭飛機了喔。

回到新竹,找了一下 Tails 的圖片,然後去定小朋生日要用的蛋糕,不過好像沒辦法作成立體的,又聯絡不到詩芳,好麻煩,不知道怎麼辦耶,希望詩芳快點來到學校,好決定蛋糕跟禮物的事情。定完蛋糕就開始搬家,超累的,從十點搬到一點,但是改裝以後的鴻齋變得很漂亮喔,雖然說我最想要的是碩齋,因為地理位置比較方便,通風也比較好呢。累到了說,不過鴻齋還沒裝修完,好像要弄到十號的樣子,這段日子阿,寢室都還是會塵土飛揚,所以我把東西都先放在櫃子裡面。希望不要被灰塵弄到。弄好以後就到了研究室睡覺,很開心,終於弄好了一些事情,接下來是論文題目跟 Rine 開發,還有 Tails 的圖片萃取。

2007年8月27日 星期一

暑假

很久沒寫了,我想主要是懶惰吧,整個暑假的一次寫吧 ^^

暑假最重要的事情,大概就是 GRE 考試了。
7/28~8/3 的日子都在日本,在這之前則是很不甘願的念英文,暑假其實 7/2 就開始了,但是一直都在打混沒什麼唸書,混著混著考試時間就到了,手忙腳亂的就去了日本,八天,老實說是不太想去的,因為覺得都沒唸書,去考試真的是浪費錢。在日本的行程,絕大多數都是逛街逛街逛街,行程是向原大媽排的,而他們很喜歡逛街,我是不怕逛街,但是狂逛街我還是會嚇到。話說日本的東西都好貴,吃飯一般都是一千日幣以上,最貴的一餐吃到三千多日幣,嚇死我。因為這樣,老實說前幾天是不開心的,我一直都很想回台灣,在這之前我沒注意到我其實不喜歡旅行。

真正開心的是最後一天吧,就是沒有排行程的日子,那天上午很意外的去了早稻田大學,剛好遇到他們的校園參觀日,是給高中生參觀學校的日子,早稻田的競技啦啦隊,應援團,還有管樂團三個一起表演,其中最讓我印象深刻的就是應援團了。男生們剪著很短的頭髮,穿著很挺的黑色衣服,然後全身很用力的在拍手,很用力的做出每一個姿勢在加油,在現場看真的會很感動的,現在才知道什麼是應援團。舉旗的那個人很辛苦,當他要把棋子平舉的時候,全身都在發抖,抖到臉都在抖了,很恐怖。打大鼓的那個人也是超厲害,感覺他每一下都是用盡力氣的打下去,那個鼓聲是會嚇到人的那種,很震撼,然後鼓面都已經被打到扭曲變形了。

那天的晚上在自由之丘的時候也是很意外的,剛好遇到他們的祭典。居民們用工程車把道路給擋住了,在一個圓環上面搭起了高塔,上面放了太鼓,有人在上面打鼓,然後有放盆舞的音樂。圓環下面有人繞著圈圈在跳舞,下面幾乎所有的人都是穿浴衣,很多人一起穿浴衣真的很漂亮呢,一開始只有幾個人,但是後來就越來越多了,到一個小時後我們走的時候,本來只有七個工作人員的,後來是整個圓環繞了一整圈還不夠,還繞去第二圈。那種感染力真的很強喔,我也有在旁邊跳了一下,銀行行員下班以後也都穿著很整齊一致的浴衣跑出來跳。話說女生穿浴衣真的很漂亮喔。本來我到日本就很想買一件男生的浴衣回來穿,但是一直找來找去都找不到男生的浴衣,跑了好幾家的 UNIQLO 都買不到,本來已經放棄了。結果當天看到好多浴衣,我又燃起希望了,就問了路邊賣浴衣的店家,他們跟我說另外一個本店有在賣,所以就殺去買了,結果終於給我買到啦~好開心。但是真的是貴呢,浴衣的本體要四千日幣,然後角帶要兩千六,換成台幣的話,大概是快兩千塊錢吧。但是很開心,買了回台灣以後,還有穿好幾次喔。

對了,三鷹的吉卜力博物館,就是龍貓那個宮崎駿的博物館,裡面有很多東西好看,像是立體的模型,透過閃光的技術,看起來會動,然後還有很多卡通的手稿,真的很稀有罕見,看到好多魔女宅急便的手稿喔,真的很開心喔,這個是我非常非常喜歡的卡通,我也不知道為什麼,還是因為我很愛琪琪 ^^(喜歡卡通人物好像有點怪怪的?不過我真的很喜歡她)。裡面還有一隻超大的龍貓公車,超喜歡,小孩子還都可以爬進去玩喔,那隻大龍貓公車真的超有fu的,感覺就像是真的從卡通裡面跳出來的一樣,不過大人不能進去,真是殘念。然後還有巨神兵,站在博物館頂樓外面的屋頂上面,看著入口的地方,給我好大的壓迫感,因為真的很害怕阿,巨神兵很強的,那個時候我真的有嚇到。沒有看到傳說中的小龍貓公車電影真的可惜了。另外這邊應該也是我花最多錢買紀念品的地方了吧,錢錢都在這邊啦 :D 買了拼圖跟三隻小龍貓玩偶,然後還有一本筆記本。對了,這邊有看到 On Your Mark 的手機吊飾喔,真的好稀有~

日本大概就是這樣了吧,對了,GRE 考了 310 分喔,大概就是跟亂猜沒兩樣,很慘 ^^ 大概明年還要在台灣再考一次吧。紙筆比較難考哩,但是也沒辦法了,去日本真的好花錢,除非我有賺大錢。

從日本回來以後,就是連續兩個禮拜的英文課,教的是 Technical Writing 跟 Technical Present 兩種東西。我覺得兩個都學到很多東西耶,真的有學到。其實一開始我比較喜歡 present 課,但是後來因為仔細思考了一下實用性,覺得 writing 其實也真的很實用,所以就兩個都喜歡了,不過就在上課的這兩個禮拜阿,我竟然感冒了(去日本之前才剛感冒),結果上課到了第二個禮拜其實精神狀態都不太好。對了,上英文課有很值得開心的事情喔,就是認識了 Grace,是很可愛的女生,感覺也很大方,雖然對她是沒什麼特殊的感覺,但是覺得當朋友是很好的,我喜歡這個人,不錯,Sylvia 也是很可愛呢,不過中鎮比較愛 Grace 啦,哈哈。

英文上完以後,就是準備回到作研究的日子嚕,不過在這之前還是努力的給他偷懶了好一陣子。最近剛開始回復運作的兩樣工作,一個是幫詩芳弄好了 XML 到 DATABASE 的程式。另外一個是 learning 組內要用的 reinforcement learning world editor,目前寫到一半,寫這個的時候我很開心喔,用的是 C#,開發 GUI 很簡單輕鬆,覺得有獲得那種很久沒有的寫程式的快樂滿足感,就覺得自己有做出些像樣的東西,不過其實核心都還沒弄啦,現在都只有 GUI 而已。

今天跟老師報告了論文要做的題目:「Artificial Society and Emergence of Language」其實我也沒有想要作這個耶,只是因為時間到了,應該要跟老闆報告一下,所以前一天晚上吸哩呼嚕的胡亂的找了一個題目,不過老闆還是很認真的給我了很多有用的建議,討論完以後,覺得修改一下方向,不失為是一個有趣的好題目,是可以做的喔,我是不是作這個題目來投 AAMAS 呢?

今天早上想到了一個 reinforcement learning 狀態抽象化的方法,不過還只有大致方向而已,細節還沒連上,不知道能不能補齊。

Reinforcement Learning 的過程當中,對於很多 state,其實只有有些屬性是 critical 的,很多屬性其實不是這麼重要,所以如果我們可以辨別出那些屬性才是真正重要的,那就可以加速 RL 的速度,因為需要考慮的 state space 變得很小。中鎮的論文就是以這個點為目標,他先用 spectral graph 把 state space 進行切割,然後針對切割以後的空間,進行分析,看看哪些屬性比較不重要。在 spectral graph 切割以後,還有一個地方可以加速很多的,就是他把被切割出來的空間,先初步的進行了比對,這樣就可以把兩塊以上的類似的空間,歸納成同一種空間,然後共用相同的 policy,因為很多問題都有這類的現象,中鎮的實驗跑出來的東西比人家快上一千倍,好厲害。不過還有兩個可以改進的地方是(中鎮自己講的),一個是 state abstraction 的部份要在 learning 完成以後才能進行,這樣的話,用途就有限,如果能夠在 learning 的過程當中就進行 state abstraction 的話,那真的就很強悍了。另外一個是 state abstraction 只能對切割以後的 subproblem 運作,如果 state space 的 graph 是連成一整塊的,那就沒辦法進行 state abstraction。

我想要的東西是這樣的:可以即時的進行 state abstraction,然後也可以對於一整塊的 state space 進行 state abstraction,這樣的話,就可以利用學習前期學到的經驗,應用在後期,來加速學習的速度,不過要做到這件事情是很困難的。

另外一個相關的問題是 transfer learning,是把在某個環境學到的東西,到了另外一個環境還是可以用。我認為這個問題的關鍵在於 state 的 abstraction,因為透過高階的抽象化對應,我們才有機會知道一個環境跟另外一個環境要怎麼 mapping。所以這兩個問題的關鍵都在於 state abstraction。

State abstraction 其實有已經很明顯的工具了,就是 neural network 這類的什麼鬼的,已經做到爛掉了,RL 本質上的形式是找到最佳的「輸入(就是目前的 state),輸出」對應,這一點跟 NN 是一樣的,不過 RL 跟 NN 不一樣的是 RL 能夠解決 delay reward 的問題,NN 則沒辦法。其實複雜一點的 NN 還是可以的,像是那種可以考慮 time series 的 NN 架構。目前看到的是只能考慮固定遙遠的動作,我不知道有沒有可以考慮到無限遙遠的模型,不過 RL 是可以透過 dynamic programming 來解決這個問題。對了,既然本質上 RL 也是在尋找「輸入,輸出」的最佳化函數,那我今天的目標就是要尋找一個可以考慮到無窮遠 delay reward 的 NN 就好了,當然這點可能的話還是要用到 DP,我在想如果是那種連續型的 RL 模型,其實本質上根本就跟 NN 一樣,我也許可以從這邊出發?我現在是想在一般的 Q-Learning 上面跑,但是把 state 跟 reward(或是utility) 當作是 NN 的輸入跟輸出,這樣一直持續性的在訓練 NN,這樣當訓練過一段時間以後,NN 會找到 state 跟 reward 的關係,然後我可以參考 NN 的輸出來決定要走的方向(當然一開始就會根據 NN 來決定走的方向,不過當初期 NN 沒學到東西的時候,其實就等於沒有),可以的話,我是不是還可以加上簡單的 search 功能?我一直覺得 RL 跟 searching 其實是要相輔相成的,解決真的困難的問題,其實應該是兩者的合作,RL 一次只能跳一步,實在不夠,因為有的時候你必須要一次看後面好幾步,只靠 trail and error 來進行學習實在太慢了,我想透過 searching 的能力來改善 RL 更新 utility 的效率,也許 searching 的策略來源就是 NN 的 output?我也不知道。目前就想到這邊。對了,注意一下,如果想要用 NN 在 learning time 進行 state abstraction 的話,要記得,要真的要利用到 state abstraction,意思就是說,我在更新 utility 的時候,真的只考慮到部份的 state(還是說是考慮到 NN 的輸出?)。

寫東西很開心,很久沒有這麼開心啦 ^^

接下來的工作是:
1. 繼續 ReINforcement learning world Editor (Rine) 的撰寫。
2. 給小帥的 Learning Tutorial (supervised learning, unsupervised learning, reinforcement leaning)。